楽にEDA初手ができそうなSweetvizメモ
EDA初手としてpandas_profiling
が有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。
Sweetviz
が高速かつ、データ比較もできるようなので雑に試す。
1データの場合
import sweetviz as sv my_report = sv.analyze(df) my_report.show_html() # Default arguments will generate to "SWEETVIZ_REPORT.html"
2データの場合
import sweetviz as sv my_report = sv.compare([train_data, 'Train'], [test_data, 'Test']) my_report.show_html() # Default arguments will generate to "SWEETVIZ_REPORT.html"
1データの場合はanalyze
2データの場合はcompare
。出力される項目は(2グラフになる以外は)上記だと同じ。
compare_intra
メソッドを使うと 1つのデータを特定列の値でサブセットに分けて比較できる。
なお、以下の記事がpandas_profiling
との比較を書いてくれてる。