Pandas
データサイエンスをするなら pandas を使いこなすことが大事かなと思い、ちょこちょこ書いていこうと思う。
pandas https://pandas.pydata.org/
02 DataFrameのループ処理
Tip
- 行(row)のループ iterrows itertuples
- 列(column)のループ iteritems
- Seriesは、それ自体がイテラブル。 DataFrameの列指定 も同様
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | # 行(row)のループ ## index と row for index, row in df.iterrows(): ## row のみ for row in df.itertuples(): # 列(columns)のループ for column, item in df.iteritems(): # DataFrameの列指定(Seriesと同じ) のループ for age in df['age']: for age, point in zip(df['age'], df['point']): |
01 pandas_profiling
Tip
- データの概要を知るには、shape とか describe とかあるけど、これも使ってみるべし!
- 例えば、数値データは、相関係数を計算してヒートマップにしてくるれる。
1 2 3 4 5 6 | # pip install pandas-profiling import pandas as pd import pandas_profiling as pdp df = pd.read_csv('***.csv') pdp.ProfileReport(df) |