まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2021-01-01から1年間の記事一覧

CourseraのDeepLearningコース+αを使ってどうDeepLearningを勉強したか

この記事はデータラーニングギルド Advent Calendar 2021です。 この記事はなにか 何を書かないか お前誰 本記事の要約 受講してみてどうだったか 勉強の進め方 どれくらいの時間を使ったか 英語字幕の視聴方法 プログラミング課題について 日本語に関して …

atmaCup #12に参加して覚えたことメモ②lightGBM関係

これはなにか 下準備 Cross Validationをいい感じに実行する カスタムメトリクスを使う これはなにか データ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 atma.connpass.com コンペのdiscussionで公開されているコード…

atmaCup #12に参加して覚えたことメモ①特徴量作成

これはなにか よく使う項目グループを定数化 特徴量の作成 特徴量の処理の仕方 まとめて一気に関数処理 ひとつずつ処理 集約関数のエレガントな処理 これはなにか データ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 a…

順序付き多値分類を回帰問題で解くときの閾値をoptunaで求める

目的 データ 分類問題として解く 回帰問題として解く 連続値の予測部分 パターン1.Clipping+四捨五入でラベル化する パターン2. Optunaで閾値を探索してラベル化する 計算時に変数を用いる 対応策1.高階関数 対応策2. Objective Class+call 最適化の実行 目…

pipeを用いてpythonを極力メソッドチェーンで書く

この記事はなにか やりたいこと pipeを使わないで処理をする pipeを使って処理 余談 この記事はなにか 可読性/保守性を上げるために、できる限りメソッドチェーンで書きたい。 過去にメソッドチェーンについての記事は書いたが、どうしてもメソッドチェーン…

Jupyter noebookでデバッグをする方法

この記事はなにか 以下のTweetを見て知らなかったので、自分で手を動かした まじでマジックコマンドの"%debug"便利なのでjupyter使ってる人で知らない人いたら一度使ってみてほしい。。。「知らんかった!!」っていう人があまりにも多い。。。わざわざgif作…

scikit-learnの機能を拡張/変更したscikit-learn準拠モデルを作る

これはなにか scikit-learn準拠の自作予測モデルを作成する 実例 実際にリッジ回帰をおこなう場合のsklearn.linear_model.LinearRegression 自作のTransformerを使う 実例 外れ値の置き換え 特徴量追加 その他 参考 これはなにか scikit-learn APIにはない新…

「ドメイン知識」という言葉の解像度を上げてインプットに活かす

この記事はなにか 要約 背景 ドメイン知識の要素分解 問題設定のためのドメイン知識 分析のためのドメイン知識 活用のためのドメイン知識 余談:クライアントを介さない自己学習が可能なこと 前提知識 データサイエンティストの要諦 イシューからはじめよ 「…

「機械学習を解釈する技術」のここがすごい

はじめに 弊社の森下が書籍を出版することになりました。 「機械学習を解釈する技術 ~ 予測力と説明力を両立する実践テクニック」 gihyo.jp 本書のレビューに関わらせてもらったのでここが良かったぞ!という部分を書こうかなと思います。 はじめに 本書の特…

GBDTのハイパーパラメータの意味を図で理解しつつチューニングを学ぶ

この記事は何か lightGBMやXGboostといったGBDT(Gradient Boosting Decision Tree)系でのハイパーパラメータを意味ベースで理解する。 その際に図があるとわかりやすいので図示する。 なお、ハイパーパラメータ名はlightGBMの名前で記載する。XGboostとかで…

Optunaを使ってみる

Optunaとは 実装1: 簡単な例 評価関数 目的関数 最適化 実装2: lightGBMでの例 実装3:閾値の最適化 その他 sample 複数アルゴリズムの使用 参考 Optunaとは ざっくり書くと、 良い感じのハイパーパラメーターを見つけてくれる ライブラリ。 ちゃんと書くと…

Classを用いて、特徴量作成を仕組み化する@ぐるぐる

これはなにか 自作関数での処理との違い 参考記事をトレス ブロックを使った特徴量作成処理(コピペ) 内部状態が更新されるブロック例・ CountEncoding 内部状態更新が行われないブロック例・StringLength 各特徴量処理ブロックをまとめて処理 内部状態更新が…

自然言語処理を色々楽にするTextheroを使ってみる

Textheroでできること 前処理 前処理メソッド clean 解析 ベクトル変換 可視化 散布図 ワードランキング ワードクラウド その他 参考 Textheroでできること PythonライブラリTextheroでは、自然言語処理を簡単にできる。機能としては下記が可能。 前処理・・…

特徴量作成を楽にするライブラリいくつかまとめて試す②xfeat

この記事はなにか 何ができるか 特徴量の変換 特定型の特徴量のDFを作る 特徴量の加工 カテゴリカル変数 Label Encoding Count Encoding Target Encoding 列組み合わせ(文字列) 数値変数 集約関数 列組み合わせ(数値) Lambda処理 この記事はなにか 機械学習…

特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools

この記事はなにか 何を書かないか featuretools 複数テーブルのあるデモデータで試す 1. EntitysetというER的なデータとデータ関係が入ったオブジェクトを作成 集計/変換処理をする 1テーブルのデータで試す 参考 この記事はなにか 機械学習の特徴量を作ると…

楽にEDA初手ができそうなSweetvizメモ

EDA初手としてpandas_profilingが有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。 Sweetvizが高速かつ、データ比較もできるようなので雑に試す。 github.com 1データの場合 import sweetviz as sv my_report = sv.analyze(df) my…

Shapashで機械学習モデルの挙動を可視化する

記事の目的 前回の記事ではShapashと同様に機械学習モデルの挙動を楽に可視化するEvidentlyを紹介した。 knknkn.hatenablog.com 記事中でShapashについても軽く触れたが使用用途としては以下のような違いがある。 Evidentlyはモデルの振る舞いを、推定元デー…

Evidentlyで機械学習モデルの挙動を可視化する

背景 機械学習モデルは作成後にそのモデルがどのような振る舞いをするのか調べる必要がある。 理由としては 実運用上での注意点 例えば、「このモデルは全体としてはそこそこの精度だが、20代では精度があまり良くない」といったことを把握しておくと実運用…