まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

可視化

楽にEDA初手ができそうなSweetvizメモ

EDA初手としてpandas_profilingが有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。 Sweetvizが高速かつ、データ比較もできるようなので雑に試す。 github.com 1データの場合 import sweetviz as sv my_report = sv.analyze(df) my…

Evidentlyで機械学習モデルの挙動を可視化する

背景 機械学習モデルは作成後にそのモデルがどのような振る舞いをするのか調べる必要がある。 理由としては 実運用上での注意点 例えば、「このモデルは全体としてはそこそこの精度だが、20代では精度があまり良くない」といったことを把握しておくと実運用…

ggplotで他の変数を基準に並び替える

数値で並び替える場合 以下のようなグラフで考える。 library(tidyverse) data(diamonds) # データ作成 df = diamonds %>% group_by(clarity, cut) %>% summarise(n = n()) %>% ungroup() # わかりやすいものだけ抽出 df_filtered = df %>% filter(clarity %…

ggplotのfacet日本語テキストを折り返す

これはなにか ggplotのfacet内の文字を任意の文字数で折り返し(改行)をしたい。 どういうことかというと、下記のようにirisベースでテキトーにSpeciesを日本語化して文字数を増やしたもので考える。 library(dplyr) iris2 = iris %>% mutate(Species_jp = ca…

plotly expressを試す

plotly expressとは 可視化ライブラリplotlyのラッパー。 plotlyはグラフに対してドラッグ選択すると拡大ができたり、マウスポインタを合わせると詳細な数値をポップアップしてくれる。 そのplotlyをより簡単に記載することができるのがplotly express。 plo…

pandasのstyleでテーブル出力をわかりやすくする

JupyterにおけるPandasのテーブルデータの出力に色をつけてわかりやすくしたい。 そのためには、pandasのstyle周りをいじれば良いみたい。 基本的にドキュメントのUser Guideベースで書いていく。 pandas.pydata.org pandas.pydata.org styleのいじり方は2つ…

seaborn(matplotlib)がまったくわからんからメモ

Rのggplot2を普段使っているため、Pythonのseaborn(matplotlib)がまじでよくわからん。俺たちは雰囲気でseabornをやっている。 中途半端にググってやりたいことに即したコードをコピペして・・・みたいなくそみたいなアンチパターンばかりしていていい加減効…

発表用資料とBIダッシュボードでのグラフデザインの差異

最近仕事で対外的な発表をすることがあり、パワポで資料作成をしていたのだが、社内レビューで図の見せ方に対しての指摘が結構多かった。 なんでこんな指摘が多いのかなーと思いながら考えていたのですが、 BIダッシュボードに乗せるグラフの作り方 をしてい…