トレース記事
これはなにか 下準備 Cross Validationをいい感じに実行する カスタムメトリクスを使う これはなにか データ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 atma.connpass.com コンペのdiscussionで公開されているコード…
これはなにか よく使う項目グループを定数化 特徴量の作成 特徴量の処理の仕方 まとめて一気に関数処理 ひとつずつ処理 集約関数のエレガントな処理 これはなにか データ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 a…
この記事はなにか やりたいこと pipeを使わないで処理をする pipeを使って処理 余談 この記事はなにか 可読性/保守性を上げるために、できる限りメソッドチェーンで書きたい。 過去にメソッドチェーンについての記事は書いたが、どうしてもメソッドチェーン…
この記事はなにか 以下のTweetを見て知らなかったので、自分で手を動かした まじでマジックコマンドの"%debug"便利なのでjupyter使ってる人で知らない人いたら一度使ってみてほしい。。。「知らんかった!!」っていう人があまりにも多い。。。わざわざgif作…
この記事は何か lightGBMやXGboostといったGBDT(Gradient Boosting Decision Tree)系でのハイパーパラメータを意味ベースで理解する。 その際に図があるとわかりやすいので図示する。 なお、ハイパーパラメータ名はlightGBMの名前で記載する。XGboostとかで…
これはなにか 自作関数での処理との違い 参考記事をトレス ブロックを使った特徴量作成処理(コピペ) 内部状態が更新されるブロック例・ CountEncoding 内部状態更新が行われないブロック例・StringLength 各特徴量処理ブロックをまとめて処理 内部状態更新が…
Permutation Importanceについて、以下のデータロボットさんの記事を改めて読んで、所見のときはちゃんと理解してなかった部分があったのでメモ。 blog.datarobot.com Permutation Importance自体の解説は上記記事もわかりやすいですが、以下の記事では更に…
データを加工するときに、未加工と最終加工結果は値がおかしくないかチェックすることがわりかしあると思うが、最終結果に至る途中段階をチェックすることは手間がかかる。 そのようなとき、assertrではRのパイプラインの途中に入れることで、その段階におい…
JupyterにおけるPandasのテーブルデータの出力に色をつけてわかりやすくしたい。 そのためには、pandasのstyle周りをいじれば良いみたい。 基本的にドキュメントのUser Guideベースで書いていく。 pandas.pydata.org pandas.pydata.org styleのいじり方は2つ…
これはなにか 最近pandasを触っているが、色々なことにモヤモヤしている。 例えば、人によっては書き方がdf[[絞りたい行条件],[列1, 列2]]みたいな書き方なので、df %>% select(列1, 列2) %>% filter(絞り込みたい行条件)に慣れた身からすると可読性が悪い。…
Stanの結果を可視化する。 今回は tidybayesについて。 前回はbayesplot shinystanパッケージだった。 knknkn.hatenablog.com tidybayesでパラメータのサンプリング結果を可視化する 今回は以下の記事と公式を参考にします。 tidybayesパッケージで推定結果…
背景 最近rstan経由でStanを使ってる。rstanを用いた結果(収束診断とか事後確率分布とか)はそのままのデータでは可視化をするのが面倒。 可視化するのに便利なパッケージはないか調べてみると、ggmcmc とか bayesplot とか shinystan とか tidybayes とか色…
差分の差分法(DID)の勉強のために以下の記事を参考にする。 https://fisproject.jp/2016/05/difference-in-differences-using-r/ 使用するデータは 、A-Gまでの7ヶ国についてy, y_bin, x1, x2, x3, opinion を1990年から10年間に渡り記録したパネルデータと…
SHAP valueを実際に試してみる。コードは以下の記事のものを拝借。 Shapを用いた機械学習モデルの解釈説明 - Qiita なお、データはkaggleのHouse Pricingコンペデータをテキトーに加工して作っている。SalePrice(対数化済)を目的変数として、簡易化のため変…
purrrとbroomの使い方をマスターするために。以下の記事をトレースする。 内容自体は引用元記事の方がちゃんとしているのでそちらを読んでもらいたい。本記事は、読むにあたって理解が薄い人(=自分)用の補足メモを書きながらのトレースとなる。そのため、本…