まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2020-01-01から1年間の記事一覧

効果検証入門 5章回帰不連続デザイン 俺俺メモ

効果検証入門を買った。因果推論系はあまりちゃんと手を動かしていないので、気になったところのみ自分なりにまとめる。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2020/01/18メディア: 単行本(ソフトカバー) gith…

効果検証入門 4章DID(とCausal impact) 俺俺メモ

効果検証入門を買った。因果推論系はあまりちゃんと手を動かしていないので、気になったところのみ自分なりにまとめる。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2020/01/18メディア: 単行本(ソフトカバー) gith…

効果検証入門 3章傾向スコア 俺俺メモ

効果検証入門を買った。因果推論系はあまりちゃんと手を動かしていないので、気になったところのみ自分なりにまとめる。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2020/01/18メディア: 単行本(ソフトカバー) gith…

効果検証入門 1,2章 俺俺メモ

効果検証入門を買った。因果推論系はあまりちゃんと手を動かしていないので、気になったところのみ自分なりにまとめる。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2020/01/18メディア: 単行本(ソフトカバー) gith…

Rのrowwriseでmap関数を使わずに行ごと関数適応をおこなう

今まではsapplyやpurrr::mapを用いて行ごとの処理をおこなっていたが、rowwiseを用いて同様の処理を簡潔におこなえるようになった模様。 dplyr.tidyverse.org いったん、簡単な例として、集約関数で試す。 なお、2020/04/12時点ではdplyrの開発版から可能。 …

acrossを用いて、Rで列ごとに別の集約関数をまとめて適応させる

dplyr1.0.0から追加されるacrossで条件に当てはまる列に対して個別に集約関数の適用ができるようになった。 今までもsummarise_atでもできたがこの場合は1条件にしか適用できなかったが、acrossでは複数条件での適用が可能。 例 summarise_atではSepalで始ま…

{{ }}を用いると、普段のdplyrの書き方を関数内でもほぼできるようになった模様

dplyrではNSEなどの関係で、関数内で普段通りのdplyr的な書き方はできなくて色々とややこしかったのが、rlang 0.4.0からは{{ }}を使って直感的な書き方ができるようになったらしい。 www.tidyverse.org www.r-bloggers.com 関数を使わないでコピペを繰り返す…

ggplotの軸の桁表示を制御する

ggplotで、桁数が大きいと自動でe+n表示へと変わる。 自分で分析する場合はいいが、この表示に慣れていない人に見せる際にわかりづらいので制御する。 まずはデフォルトでの表示。デフォルトでは107以降が存在する場合e+nの表示になる。 library(tidyverse) …

ggplotのでいちいちbreaks+seqを使わずに目盛りの刻み幅を指定する

ggplotではX軸の目盛り幅を指定するときはscale_x_continuousに対してbreaksオプションに対してseqを用いて刻み幅nでX軸に値を表示します。 ただし、seqでの指定だと breaks = seq(xmin, xmax, n)といったようにxの表示最大値と最小値を意識して使わないとい…

pythobnでpprintを使ってリスト・辞書をきれいに出力する

割と常識っぽいが知らなかったのでメモ。 リスト・辞書は通常のprintでは1行にすべて表示されるがpprint.pprintを使うときれいに表示される。 以下のようなデータでおこなう。 import pprint hoge = [[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10],[1,2,3,…

Rで任意の範囲でヒストグラムを作りたい

問題 ggplotではgeom_histgramを用いるとヒストグラムを作成できる。また、オプションとしてbinwidthを指定するとビン幅を決めることができる。 library(tidyverse) data <- c( -1, 1, 11, 27, 31) data %>% tibble() %>% ggplot(aes(x = .)) + geom_histogr…

Rの並び替えをfactorのlevelsで制御する

概要 問題 Rで列の並び順を固定したい 解決方法 factorを用いてfactor型に変換し、その際にlevelを指定する。 実践 データを読み込む library(tidyverse) library(tidylog) df_iris = iris %>% tibble() %>% select(species=Species, sepal_length=Sepal.Len…

Rで縦持ち・横持ち化する

Rでは、今まで縦持ち化するときにはtidyr::gather、横持ち化するときはtidyr::spreadを使っていたがオプションが毎回よくわからずドキュメントを読んでいたが、それはみんな同じことを思ってたみたいでdplyr1.0以降では再設計されてtidyr::gather→tidyr::piv…

BUSINESS DATA SCIENCE 4章 Classification② 多値分類

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 4章 Classification① k-NNとlasso回帰での分類

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization④ Lassoに対する定量的な信頼性

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization③ 情報量基準を用いた評価(CI)

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization② ペナルティを用いた変数選択

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization① 予測のためのR^2

仕事が落ち着いてきたのでBUSINESS DATA SCIENCEを再開。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21…

EDAでpandas_profilingを使う

pandas_profilingがめっちゃ便利だった。 特徴量のEDAにおいて、一般的にはinfo()を使ってデータ量や型を見たり、describe()を使って統計量を見たり、isnull().sum() を使ってNull数を見たり、関係性や分布などを自分で可視化したりする。 pandas_profiling …

pandasのMultiindexを整理する

この記事はなにか こういうデータフレームを こういう形にしたい。 以下の記事の「集約」という節でpandasのMultiindexをもとの形式に戻すやり方を書いたがもうちょっとわかりやすい方法があったのでメモ。ただし、メソッドチェーンで完結していない。 knknk…

BUSINESS DATA SCIENCE 2章 Regression③ 推定の不確か性

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 2章 Regression② 回帰の当てはまりのよさ

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 2章 Regression① 回帰の解釈

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 1章 Uncertainty② 検定

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: …