2021-01-01から1年間の記事一覧
この記事はデータラーニングギルド Advent Calendar 2021です。 この記事はなにか 何を書かないか お前誰 本記事の要約 受講してみてどうだったか 勉強の進め方 どれくらいの時間を使ったか 英語字幕の視聴方法 プログラミング課題について 日本語に関して …
これはなにか 下準備 Cross Validationをいい感じに実行する カスタムメトリクスを使う これはなにか データ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 atma.connpass.com コンペのdiscussionで公開されているコード…
これはなにか よく使う項目グループを定数化 特徴量の作成 特徴量の処理の仕方 まとめて一気に関数処理 ひとつずつ処理 集約関数のエレガントな処理 これはなにか データ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 a…
目的 データ 分類問題として解く 回帰問題として解く 連続値の予測部分 パターン1.Clipping+四捨五入でラベル化する パターン2. Optunaで閾値を探索してラベル化する 計算時に変数を用いる 対応策1.高階関数 対応策2. Objective Class+call 最適化の実行 目…
この記事はなにか やりたいこと pipeを使わないで処理をする pipeを使って処理 余談 この記事はなにか 可読性/保守性を上げるために、できる限りメソッドチェーンで書きたい。 過去にメソッドチェーンについての記事は書いたが、どうしてもメソッドチェーン…
この記事はなにか 以下のTweetを見て知らなかったので、自分で手を動かした まじでマジックコマンドの"%debug"便利なのでjupyter使ってる人で知らない人いたら一度使ってみてほしい。。。「知らんかった!!」っていう人があまりにも多い。。。わざわざgif作…
これはなにか scikit-learn準拠の自作予測モデルを作成する 実例 実際にリッジ回帰をおこなう場合のsklearn.linear_model.LinearRegression 自作のTransformerを使う 実例 外れ値の置き換え 特徴量追加 その他 参考 これはなにか scikit-learn APIにはない新…
この記事はなにか 要約 背景 ドメイン知識の要素分解 問題設定のためのドメイン知識 分析のためのドメイン知識 活用のためのドメイン知識 余談:クライアントを介さない自己学習が可能なこと 前提知識 データサイエンティストの要諦 イシューからはじめよ 「…
はじめに 弊社の森下が書籍を出版することになりました。 「機械学習を解釈する技術 ~ 予測力と説明力を両立する実践テクニック」 gihyo.jp 本書のレビューに関わらせてもらったのでここが良かったぞ!という部分を書こうかなと思います。 はじめに 本書の特…
この記事は何か lightGBMやXGboostといったGBDT(Gradient Boosting Decision Tree)系でのハイパーパラメータを意味ベースで理解する。 その際に図があるとわかりやすいので図示する。 なお、ハイパーパラメータ名はlightGBMの名前で記載する。XGboostとかで…
Optunaとは 実装1: 簡単な例 評価関数 目的関数 最適化 実装2: lightGBMでの例 実装3:閾値の最適化 その他 sample 複数アルゴリズムの使用 参考 Optunaとは ざっくり書くと、 良い感じのハイパーパラメーターを見つけてくれる ライブラリ。 ちゃんと書くと…
これはなにか 自作関数での処理との違い 参考記事をトレス ブロックを使った特徴量作成処理(コピペ) 内部状態が更新されるブロック例・ CountEncoding 内部状態更新が行われないブロック例・StringLength 各特徴量処理ブロックをまとめて処理 内部状態更新が…
Textheroでできること 前処理 前処理メソッド clean 解析 ベクトル変換 可視化 散布図 ワードランキング ワードクラウド その他 参考 Textheroでできること PythonライブラリTextheroでは、自然言語処理を簡単にできる。機能としては下記が可能。 前処理・・…
この記事はなにか 何ができるか 特徴量の変換 特定型の特徴量のDFを作る 特徴量の加工 カテゴリカル変数 Label Encoding Count Encoding Target Encoding 列組み合わせ(文字列) 数値変数 集約関数 列組み合わせ(数値) Lambda処理 この記事はなにか 機械学習…
この記事はなにか 何を書かないか featuretools 複数テーブルのあるデモデータで試す 1. EntitysetというER的なデータとデータ関係が入ったオブジェクトを作成 集計/変換処理をする 1テーブルのデータで試す 参考 この記事はなにか 機械学習の特徴量を作ると…
EDA初手としてpandas_profilingが有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。 Sweetvizが高速かつ、データ比較もできるようなので雑に試す。 github.com 1データの場合 import sweetviz as sv my_report = sv.analyze(df) my…
記事の目的 前回の記事ではShapashと同様に機械学習モデルの挙動を楽に可視化するEvidentlyを紹介した。 knknkn.hatenablog.com 記事中でShapashについても軽く触れたが使用用途としては以下のような違いがある。 Evidentlyはモデルの振る舞いを、推定元デー…
背景 機械学習モデルは作成後にそのモデルがどのような振る舞いをするのか調べる必要がある。 理由としては 実運用上での注意点 例えば、「このモデルは全体としてはそこそこの精度だが、20代では精度があまり良くない」といったことを把握しておくと実運用…