scikit-learnの機能を拡張/変更したscikit-learn準拠モデルを作る

これはなにか scikit-learn準拠の自作予測モデルを作成する実例実際にリッジ回帰をおこなう場合のsklearn.linear_model.LinearRegression 自作のTransformerを使う実例外れ値の置き換え特徴量追加その他参考これはなにか scikit-learn APIにはない新…

2021-06-14

Optunaを使ってみる

Python 機械学習使い方メモ(ライブラリ)

Optunaとは実装1: 簡単な例評価関数目的関数最適化実装2: lightGBMでの例実装3：閾値の最適化その他 sample 複数アルゴリズムの使用参考 Optunaとはざっくり書くと、良い感じのハイパーパラメーターを見つけてくれるライブラリ。ちゃんと書くと…

2021-06-08

Classを用いて、特徴量作成を仕組み化する@ぐるぐる

Python 機械学習トレース記事使い方メモ(ライブラリ)

これはなにか自作関数での処理との違い参考記事をトレスブロックを使った特徴量作成処理(コピペ) 内部状態が更新されるブロック例・ CountEncoding 内部状態更新が行われないブロック例・StringLength 各特徴量処理ブロックをまとめて処理内部状態更新が…

2021-05-28

特徴量作成を楽にするライブラリいくつかまとめて試す②xfeat

Python 機械学習使い方メモ(ライブラリ)

この記事はなにか何ができるか特徴量の変換特定型の特徴量のDFを作る特徴量の加工カテゴリカル変数 Label Encoding Count Encoding Target Encoding 列組み合わせ（文字列) 数値変数集約関数列組み合わせ(数値) Lambda処理この記事はなにか機械学習…

2021-05-28

特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools

Python 使い方メモ(ライブラリ) 機械学習

この記事はなにか何を書かないか featuretools 複数テーブルのあるデモデータで試す 1. EntitysetというER的なデータとデータ関係が入ったオブジェクトを作成集計/変換処理をする 1テーブルのデータで試す参考この記事はなにか機械学習の特徴量を作ると…

2021-05-24

楽にEDA初手ができそうなSweetvizメモ

使い方メモ(ライブラリ) 可視化メモ

EDA初手としてpandas_profilingが有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。 Sweetvizが高速かつ、データ比較もできるようなので雑に試す。 github.com 1データの場合 import sweetviz as sv my_report = sv.analyze(df) my…

2021-05-24

Shapashで機械学習モデルの挙動を可視化する

Python 機械学習使い方メモ(ライブラリ)

記事の目的前回の記事ではShapashと同様に機械学習モデルの挙動を楽に可視化するEvidentlyを紹介した。 knknkn.hatenablog.com 記事中でShapashについても軽く触れたが使用用途としては以下のような違いがある。 Evidentlyはモデルの振る舞いを、推定元デー…

2021-05-20

Evidentlyで機械学習モデルの挙動を可視化する

Python 使い方メモ(ライブラリ) 可視化機械学習

背景機械学習モデルは作成後にそのモデルがどのような振る舞いをするのか調べる必要がある。理由としては実運用上での注意点例えば、「このモデルは全体としてはそこそこの精度だが、20代では精度があまり良くない」といったことを把握しておくと実運用…

2020-06-23

purrrを使って、関数の引数を変えて適用したDFを結合していく

R 使い方メモ(不便解決) 使い方メモ(ライブラリ)

やりたいこと関数の引数を変えて適用したDFを結合したい。以下のように、指定した列colに対してunder_value以下となるdfを抽出して、そのunder_valueをfiltered_values列に追加する関数filtered_under_valueで考える。なお、見た目上わかりやすいためhead…

2020-06-02

sklearn.pipelineを試す

Python 使い方メモ(ライブラリ) 機械学習

sklearn.pipelineとは sklearn.pipeline とは、前処理用のScaler(変換器)や機械学習モデルを一括で処理するためのオブジェクトを生成する。これをおこなうことで、管理が容易になったり処理コード部分を簡潔に書くことができる。実装データはボストン住宅…

2020-05-25

ggchartsを試す

R 使い方メモ(ライブラリ)

ggchartsとは Rのggplot2のラッパーで、aes + geom_xxxの形式ではなく、pythonのseabornやplotly_expressみたいにグラフ関数を用いて表現をすることができる。ラッパーなので、通常の書き方を組み合わせることができるので、ggplot2の機能が追加されただけと…

2020-05-24

tqdmでプログレスバーを出す

Python 使い方メモ(ライブラリ)

pythonのtqdmライブラリを試す。 tqdmとは何かしらの処理に対する進捗をプログレスバーとして表示するライブラリ。 github.com loop処理基本的な使い方として、繰り返し処理の1loop毎にプログレスバーを更新することができる。イメージとしては、通常の繰…

2020-05-04

assertrでRの中間データをチェックする

R 使い方メモ(ライブラリ) トレース記事

データを加工するときに、未加工と最終加工結果は値がおかしくないかチェックすることがわりかしあると思うが、最終結果に至る途中段階をチェックすることは手間がかかる。そのようなとき、assertrではRのパイプラインの途中に入れることで、その段階におい…

2020-04-29

lemonパッケージでggplotをいい感じに見せる

R 練習使い方メモ(ライブラリ) 使い方メモ(不便解決)

ggplotをきれいに見せるパッケージlemonを動かしたので紹介。基本的に公式ベース github.com facetしたときの軸目盛りの明示以下のようなデータがあるとする。 library(tidyeval) g = mtcars %>% # ggplot(aes(wt, mpg)) + ggplot(aes(wt, mpg, color = fa…

2020-04-25

seaborn(matplotlib)がまったくわからんからメモ

Python 可視化使い方メモ(ライブラリ)

Rのggplot2を普段使っているため、Pythonのseaborn(matplotlib)がまじでよくわからん。俺たちは雰囲気でseabornをやっている。中途半端にググってやりたいことに即したコードをコピペして・・・みたいなくそみたいなアンチパターンばかりしていていい加減効…

2020-04-12

Rのrowwriseでmap関数を使わずに行ごと関数適応をおこなう

R 使い方メモ(ライブラリ)

今まではsapplyやpurrr::mapを用いて行ごとの処理をおこなっていたが、rowwiseを用いて同様の処理を簡潔におこなえるようになった模様。 dplyr.tidyverse.org いったん、簡単な例として、集約関数で試す。なお、2020/04/12時点ではdplyrの開発版から可能。 …

2020-04-12

acrossを用いて、Rで列ごとに別の集約関数をまとめて適応させる

R 使い方メモ(ライブラリ)

dplyr1.0.0から追加されるacrossで条件に当てはまる列に対して個別に集約関数の適用ができるようになった。今までもsummarise_atでもできたがこの場合は1条件にしか適用できなかったが、acrossでは複数条件での適用が可能。例 summarise_atではSepalで始ま…

2020-04-11

{{ }}を用いると、普段のdplyrの書き方を関数内でもほぼできるようになった模様

使い方メモ(不便解決) R 使い方メモ(ライブラリ)

dplyrではNSEなどの関係で、関数内で普段通りのdplyr的な書き方はできなくて色々とややこしかったのが、rlang 0.4.0からは{{ }}を使って直感的な書き方ができるようになったらしい。 www.tidyverse.org www.r-bloggers.com 関数を使わないでコピペを繰り返す…

2020-04-05

Rで縦持ち・横持ち化する

R 使い方メモ(不便解決) 使い方メモ(ライブラリ)

Rでは、今まで縦持ち化するときにはtidyr::gather、横持ち化するときはtidyr::spreadを使っていたがオプションが毎回よくわからずドキュメントを読んでいたが、それはみんな同じことを思ってたみたいでdplyr1.0以降では再設計されてtidyr::gather→tidyr::piv…

2020-01-26

EDAでpandas_profilingを使う

Python 使い方メモ(ライブラリ)

pandas_profilingがめっちゃ便利だった。特徴量のEDAにおいて、一般的にはinfo()を使ってデータ量や型を見たり、describe()を使って統計量を見たり、isnull().sum() を使ってNull数を見たり、関係性や分布などを自分で可視化したりする。 pandas_profiling …

2019-10-27

文字列からformulaを作りたい

R 使い方メモ(ライブラリ) 使い方メモ(不便解決)

やりたいことリストにある文字を組み合わせて作った式をfor文で動的に変えていきたい。問題点以下のコードのように、felm関数のformulaに文字列で式を渡した場合エラー。ちなみに、lfe::felmは固定効果モデルを使うときの関数。 knknkn.hatenablog.com l…

2019-09-01

ggpointdensityでgeom_pointの重なっている部分をヒートマップで表現する

R 使い方メモ(ライブラリ)

表題通り。基本的にはドキュメントレベルしかしてないのでただのメモ。 github.com ggpointdensityの特徴散布図を作図するgeom_poin()では点が重なっている場合どれくらい重なっているかわからなかった。対応策として、geom_density2d()や、geom_bin2d()が…

2019-08-27

facet_gridで1軸に複数要素を指定する

R 使い方メモ(ライブラリ) 使い方メモ(不便解決)

めちゃくちゃしょうもない小ネタですが、以下のようにfacet_gridで軸列を指定するときに+を使うと複数指定が可能になる模様。 facet_grid(. ~ c(color, cut))とかで複数要素指定できるんかなー → できないやんけ！と思ってたら。。。。 library(tidyverse) d…

2019-08-12

ggforce::facet_matrixを用いてfacet_grid(c(A,B,C) ~ c(D,E))的な表現を実現する

R 使い方メモ(ライブラリ) 使い方メモ(不便解決)

以下のツイートを見かけたので試してみた記事。 ggforce::facet_matrix 凄いわ．tidyr::gather をスキップできる……．ggplot(iris) + geom_boxplot(aes(Species, .panel_y)) + ggforce::facet_matrix( rows = vars(everything(), -Species), cols = vars(Spec…

2019-06-22

状態空間モデルをstanでやりたかった② パネルデータに対する状態空間モデル(階層ベイズ)

R 使い方メモ(ライブラリ) 練習 Stan

前回では以下のようなModelを考えた。 tが閉店日の場合、それ以外の場合、 knknkn.hatenablog.com だが、結果としてsamplingがおこなわなかった。そのため、今回もプロットは無しで理屈のみ。。。前回のモデルと今回のモデルの差前回のモデルは「ある1店…

2019-06-22

状態空間モデルをstanでやりたかった①

R 使い方メモ(ライブラリ) 練習 Stan

注）本記事は途中で詰まったので結局モデル立てただけで結果は出てません。状態空間モデルの勉強をしたものの、手を動かしていないので練習。データ kaggleのrossmann-storeコンペ。 Rossmann Store Sales | Kaggle カラム名の意味とかはここにまとまって…

2019-06-20

状態空間モデルで何を状態方程式とし、何を観測方程式とするか

使い方メモ(ライブラリ) Stan 統計書籍

疑問割と色々な書籍、例えばアヒル本で観測値Y[t]を要素の和に分解するのが定石 (p.235) とあるが、場合によるのでは？てかそもそも状態方程式/観測方程式どっちに何書くかの切り分けってなんだ？という疑問が湧いた。 StanとRでベイズ統計モデリング (Won…

2019-05-22

brmsを使ってみる

R 使い方メモ(ライブラリ) Stan

brmsというStanのラッパーパッケージで遊ぶ。概要例えば、rstanを使う場合はStanコードを別ファイルの.stanに記述してそれを呼び出す形でbayes推定をおこなう。一方、brmsを用いるとStanコードをわざわざ書かなくてもbrmsパッケージの関数を用いればbayes…

2019-05-19

StanのMCMC結果&パラメータ結果を可視化する② tidybayes

トレース記事使い方メモ(ライブラリ) R Stan

Stanの結果を可視化する。今回は tidybayesについて。前回はbayesplot shinystanパッケージだった。 knknkn.hatenablog.com tidybayesでパラメータのサンプリング結果を可視化する今回は以下の記事と公式を参考にします。 tidybayesパッケージで推定結果…

2019-05-19

StanのMCMC結果&パラメータ結果を可視化する① bayesplotとShinyStan

R 使い方メモ(ライブラリ) トレース記事 Stan

背景最近rstan経由でStanを使ってる。rstanを用いた結果(収束診断とか事後確率分布とか）はそのままのデータでは可視化をするのが面倒。可視化するのに便利なパッケージはないか調べてみると、ggmcmc とか bayesplot とか shinystan とか tidybayes とか色…

まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな？といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

使い方メモ(ライブラリ)

scikit-learnの機能を拡張/変更したscikit-learn準拠モデルを作る

Optunaを使ってみる

Classを用いて、特徴量作成を仕組み化する@ぐるぐる

特徴量作成を楽にするライブラリいくつかまとめて試す②xfeat

特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools

楽にEDA初手ができそうなSweetvizメモ

Shapashで機械学習モデルの挙動を可視化する

Evidentlyで機械学習モデルの挙動を可視化する

purrrを使って、関数の引数を変えて適用したDFを結合していく

sklearn.pipelineを試す

ggchartsを試す

tqdmでプログレスバーを出す

assertrでRの中間データをチェックする

lemonパッケージでggplotをいい感じに見せる

seaborn(matplotlib)がまったくわからんからメモ

Rのrowwriseでmap関数を使わずに行ごと関数適応をおこなう

acrossを用いて、Rで列ごとに別の集約関数をまとめて適応させる

{{ }}を用いると、普段のdplyrの書き方を関数内でもほぼできるようになった模様

Rで縦持ち・横持ち化する

EDAでpandas_profilingを使う

文字列からformulaを作りたい

ggpointdensityでgeom_pointの重なっている部分をヒートマップで表現する

facet_gridで1軸に複数要素を指定する

ggforce::facet_matrixを用いてfacet_grid(c(A,B,C) ~ c(D,E))的な表現を実現する

状態空間モデルをstanでやりたかった② パネルデータに対する状態空間モデル(階層ベイズ)

状態空間モデルをstanでやりたかった①

状態空間モデルで何を状態方程式とし、何を観測方程式とするか

brmsを使ってみる

StanのMCMC結果&パラメータ結果を可視化する② tidybayes

StanのMCMC結果&パラメータ結果を可視化する① bayesplotとShinyStan