まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

楽にEDA初手ができそうなSweetvizメモ

EDA初手としてpandas_profilingが有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。

Sweetvizが高速かつ、データ比較もできるようなので雑に試す。

github.com

1データの場合

import sweetviz as sv

my_report = sv.analyze(df)
my_report.show_html() # Default arguments will generate to "SWEETVIZ_REPORT.html"

2データの場合

import sweetviz as sv

my_report = sv.compare([train_data, 'Train'], [test_data, 'Test'])
my_report.show_html() # Default arguments will generate to "SWEETVIZ_REPORT.html"

1データの場合はanalyze 2データの場合はcompare。出力される項目は(2グラフになる以外は)上記だと同じ。

compare_intraメソッドを使うと 1つのデータを特定列の値でサブセットに分けて比較できる。

なお、以下の記事がpandas_profilingとの比較を書いてくれてる。

qiita.com