Skip to content

Pandas

データサイエンスをするなら pandas を使いこなすことが大事かなと思い、ちょこちょこ書いていこうと思う。

pandas https://pandas.pydata.org/

02 DataFrameのループ処理

Tip

  • 行(row)のループ iterrows itertuples
  • 列(column)のループ iteritems
  • Seriesは、それ自体がイテラブル。 DataFrameの列指定 も同様
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
# 行(row)のループ
## index と row
for index, row in df.iterrows():

## row のみ
for row in df.itertuples():

# 列(columns)のループ
for column, item in df.iteritems():

# DataFrameの列指定(Seriesと同じ) のループ
for age in df['age']:

for age, point in zip(df['age'], df['point']):

01 pandas_profiling

Tip

  • データの概要を知るには、shape とか describe とかあるけど、これも使ってみるべし!
  • 例えば、数値データは、相関係数を計算してヒートマップにしてくるれる。
1
2
3
4
5
6
# pip install pandas-profiling
import pandas as pd
import pandas_profiling as pdp

df = pd.read_csv('***.csv')
pdp.ProfileReport(df)