2021年の振り返りと2022年に何をしていくか

振り返り雑談

仕事とプライベートどちらも大きな変革がありました。そのため2022年は色々やろうと思ったのでそれぞれ書いていこうと思います。端的に書くと、しくじり体験記です。シニアDSになったけれども・・・マネジやろうと思ったけどうまくできなかったよビジネス…

2021-12-23

CourseraのDeepLearningコース+αを使ってどうDeepLearningを勉強したか

機械学習

この記事はデータラーニングギルド Advent Calendar 2021です。この記事はなにか何を書かないかお前誰本記事の要約受講してみてどうだったか勉強の進め方どれくらいの時間を使ったか英語字幕の視聴方法プログラミング課題について日本語に関して …

2021-10-26

atmaCup #12に参加して覚えたことメモ②lightGBM関係

Kaggle Python トレース記事機械学習

これはなにか下準備 Cross Validationをいい感じに実行するカスタムメトリクスを使うこれはなにかデータ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 atma.connpass.com コンペのdiscussionで公開されているコード…

2021-10-26

atmaCup #12に参加して覚えたことメモ①特徴量作成

トレース記事 Python Kaggle 機械学習

これはなにかよく使う項目グループを定数化特徴量の作成特徴量の処理の仕方まとめて一気に関数処理ひとつずつ処理集約関数のエレガントな処理これはなにかデータ分析コンペのatmaCup #12に参加して、他の人のコードを読んで覚えたことのメモです。 a…

2021-10-13

順序付き多値分類を回帰問題で解くときの閾値をoptunaで求める

Python 機械学習

目的データ分類問題として解く回帰問題として解く連続値の予測部分パターン1.Clipping+四捨五入でラベル化するパターン2. Optunaで閾値を探索してラベル化する計算時に変数を用いる対応策1.高階関数対応策2. Objective Class+call 最適化の実行目…

2021-09-14

pipeを用いてpythonを極力メソッドチェーンで書く

Python 使い方メモ(不便解決) トレース記事

この記事はなにかやりたいこと pipeを使わないで処理をする pipeを使って処理余談この記事はなにか可読性/保守性を上げるために、できる限りメソッドチェーンで書きたい。過去にメソッドチェーンについての記事は書いたが、どうしてもメソッドチェーン…

2021-09-03

Jupyter noebookでデバッグをする方法

Python 俺俺メモトレース記事

この記事はなにか以下のTweetを見て知らなかったので、自分で手を動かしたまじでマジックコマンドの"%debug"便利なのでjupyter使ってる人で知らない人いたら一度使ってみてほしい。。。「知らんかった！！」っていう人があまりにも多い。。。わざわざgif作…

2021-09-01

scikit-learnの機能を拡張/変更したscikit-learn準拠モデルを作る

Python 使い方メモ(ライブラリ) 機械学習

これはなにか scikit-learn準拠の自作予測モデルを作成する実例実際にリッジ回帰をおこなう場合のsklearn.linear_model.LinearRegression 自作のTransformerを使う実例外れ値の置き換え特徴量追加その他参考これはなにか scikit-learn APIにはない新…

2021-07-11

「ドメイン知識」という言葉の解像度を上げてインプットに活かす

書籍雑談

この記事はなにか要約背景ドメイン知識の要素分解問題設定のためのドメイン知識分析のためのドメイン知識活用のためのドメイン知識余談：クライアントを介さない自己学習が可能なこと前提知識データサイエンティストの要諦イシューからはじめよ「…

2021-06-30

「機械学習を解釈する技術」のここがすごい

書籍

はじめに弊社の森下が書籍を出版することになりました。「機械学習を解釈する技術 ~ 予測力と説明力を両立する実践テクニック」 gihyo.jp 本書のレビューに関わらせてもらったのでここが良かったぞ！という部分を書こうかなと思います。はじめに本書の特…

2021-06-29

GBDTのハイパーパラメータの意味を図で理解しつつチューニングを学ぶ

機械学習トレース記事俺俺メモ

この記事は何か lightGBMやXGboostといったGBDT(Gradient Boosting Decision Tree)系でのハイパーパラメータを意味ベースで理解する。その際に図があるとわかりやすいので図示する。なお、ハイパーパラメータ名はlightGBMの名前で記載する。XGboostとかで…

2021-06-14

Optunaを使ってみる

Python 機械学習使い方メモ(ライブラリ)

Optunaとは実装1: 簡単な例評価関数目的関数最適化実装2: lightGBMでの例実装3：閾値の最適化その他 sample 複数アルゴリズムの使用参考 Optunaとはざっくり書くと、良い感じのハイパーパラメーターを見つけてくれるライブラリ。ちゃんと書くと…

2021-06-08

Classを用いて、特徴量作成を仕組み化する@ぐるぐる

Python 機械学習トレース記事使い方メモ(ライブラリ)

これはなにか自作関数での処理との違い参考記事をトレスブロックを使った特徴量作成処理(コピペ) 内部状態が更新されるブロック例・ CountEncoding 内部状態更新が行われないブロック例・StringLength 各特徴量処理ブロックをまとめて処理内部状態更新が…

2021-06-06

自然言語処理を色々楽にするTextheroを使ってみる

Textheroでできること前処理前処理メソッド clean 解析ベクトル変換可視化散布図ワードランキングワードクラウドその他参考 Textheroでできること PythonライブラリTextheroでは、自然言語処理を簡単にできる。機能としては下記が可能。前処理・・…

2021-05-28

特徴量作成を楽にするライブラリいくつかまとめて試す②xfeat

Python 機械学習使い方メモ(ライブラリ)

この記事はなにか何ができるか特徴量の変換特定型の特徴量のDFを作る特徴量の加工カテゴリカル変数 Label Encoding Count Encoding Target Encoding 列組み合わせ（文字列) 数値変数集約関数列組み合わせ(数値) Lambda処理この記事はなにか機械学習…

2021-05-28

特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools

Python 使い方メモ(ライブラリ) 機械学習

この記事はなにか何を書かないか featuretools 複数テーブルのあるデモデータで試す 1. EntitysetというER的なデータとデータ関係が入ったオブジェクトを作成集計/変換処理をする 1テーブルのデータで試す参考この記事はなにか機械学習の特徴量を作ると…

2021-05-24

楽にEDA初手ができそうなSweetvizメモ

使い方メモ(ライブラリ) 可視化メモ

EDA初手としてpandas_profilingが有名だがデータ数が多いとめちゃくちゃ時間がかかるのであまり好きではない。 Sweetvizが高速かつ、データ比較もできるようなので雑に試す。 github.com 1データの場合 import sweetviz as sv my_report = sv.analyze(df) my…

2021-05-24

Shapashで機械学習モデルの挙動を可視化する

Python 機械学習使い方メモ(ライブラリ)

記事の目的前回の記事ではShapashと同様に機械学習モデルの挙動を楽に可視化するEvidentlyを紹介した。 knknkn.hatenablog.com 記事中でShapashについても軽く触れたが使用用途としては以下のような違いがある。 Evidentlyはモデルの振る舞いを、推定元デー…

2021-05-20

Evidentlyで機械学習モデルの挙動を可視化する

Python 使い方メモ(ライブラリ) 可視化機械学習

背景機械学習モデルは作成後にそのモデルがどのような振る舞いをするのか調べる必要がある。理由としては実運用上での注意点例えば、「このモデルは全体としてはそこそこの精度だが、20代では精度があまり良くない」といったことを把握しておくと実運用…

2020-12-22

データサイエンティストのデータサイエンス以外のスキル面について考えた

雑談振り返り

で、お前誰どういう会社観点か記事を書く目的と背景 PM/PL プロジェクトの進め方どういった手法を使うかドメイン知識きれいなコードを書く/書かせる正しいデータを出す分析結果報告資料作成マネジメントについてピープルマネジメントテックマネジ…

2020-12-17

Tableau Serverユーザー追加メモ

Tableau メモ

Tableau Serverにユーザー追加する際に諸々めんどかったのでメモです。ユーザーの追加 Tableau Serverにユーザーを追加。 Serverコンピュータからは以下、 http://localhost/#/users 外部コンピュータからの場合 http://自tableauサーバーアドレス/#/users …

2020-08-20

データサイエンス案件とアジャイル② DSに適したアジャイル詳細

雑談書籍俺俺メモ

データサイエンス案件とアジャイルについて。前回に各手法についてざっと取り上げた。 knknkn.hatenablog.com アジャイルサムライ――達人開発者への道作者:ＪｏｎａｔｈａｎＲａｓｍｕｓｓｏｎ,西村直人,角谷信太郎発売日: 2017/07/14メディア: Kindle版 SCR…

2020-08-14

データサイエンス案件とアジャイル① 各既存手法まとめ

雑談書籍

最近PL/PMすることが増えたので、チーム系の本(+マネジメント系の本)を読んだ。チームが機能するとはどういうことか ― 「学習力」と「実行力」を高める実践アプローチ作者:エイミー・Ｃ・エドモンドソン発売日: 2014/09/05メディア: Kindle版ハーバード・…

2020-07-25

Tidyevalでの関数型プログラミング俺俺メモ

R 使い方メモ(不便解決) 俺俺メモ

プログラミングをするときにはDRYの法則と言われるように、同じような処理は関数で書いて使い回す方がメンテ効率や可読性が上がる。特に、データサイエンス的な場合はコードの使い捨てがしやすいので煩雑になるので特に意識した方が良い。 zerebom.hatenabl…

2020-07-24

正規表現で文字列からほしい部分を抽出する

R 使い方メモ(不便解決)

Rでstr_match_all(string, pattern)でstringに対してマッチしたpattern文字列を抽出する。 pattern部分は()を入れることでpattern中の一部分だけを取ることができる。 listの1要素目がマッチした部分の全体、2要素目以降が括弧でマッチさせた抽出される。 _a…

2020-07-24

pythonで動的にオブジェクトを作成する

Python 使い方メモ(不便解決)

目的 pythonで動的にオブジェクトを変えたい。ユースケース乱数を変えたランダムサンプリングデータを複数個作りたいときや、絞り込みを変えたデータを作成したいときなど。 execでのやり方 execを使うと文字列でコードを書けるので利用する。 docs.python…

2020-07-24

git俺俺メモ

俺俺メモ

Git(Github)の最低限checkout add commit pushはしているがそれくらいしかわからんので、これどーしたらいいっけというのをメモ。用語 working tree: ファイルの最新状態。addすることでstage(index)に遷移。 stage(index): ファイルのaddした状態。commit…

2020-07-04

BUSINESS DATA SCIENCE 6章 Controls

R 書籍統計

BUSINESS DATA SCIENCEの続き。データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー最…

2020-06-23

mutate_atで引数付き関数を使う

R 使い方メモ(不便解決)

やりたいこと mutateでは、関数を以下のように適用を適用することができる。 library(tidyverse) iris %>% group_by(Species) %>% mutate(Sepal.Length_lag2 = lag(Sepal.Length,2)) # Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Len…

2020-06-23

モデルに対して値の推定結果を作成する

SQL 使い方メモ(不便解決) R

やりたいことモデルを作成して、そのモデルをある値に適用したときの推定結果を作成したい。今回はモデルの学習データの推定値任意の値をモデルに適用したときの推定値の2パターンについて書く。共通処理今回、モデルはdiamondsに対して線形モデルlog…

まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな？といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2021年の振り返りと2022年に何をしていくか

CourseraのDeepLearningコース+αを使ってどうDeepLearningを勉強したか

atmaCup #12に参加して覚えたことメモ②lightGBM関係

atmaCup #12に参加して覚えたことメモ①特徴量作成

順序付き多値分類を回帰問題で解くときの閾値をoptunaで求める

pipeを用いてpythonを極力メソッドチェーンで書く

Jupyter noebookでデバッグをする方法

scikit-learnの機能を拡張/変更したscikit-learn準拠モデルを作る

「ドメイン知識」という言葉の解像度を上げてインプットに活かす

「機械学習を解釈する技術」のここがすごい

GBDTのハイパーパラメータの意味を図で理解しつつチューニングを学ぶ

Optunaを使ってみる

Classを用いて、特徴量作成を仕組み化する@ぐるぐる

自然言語処理を色々楽にするTextheroを使ってみる

特徴量作成を楽にするライブラリいくつかまとめて試す②xfeat

特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools

楽にEDA初手ができそうなSweetvizメモ

Shapashで機械学習モデルの挙動を可視化する

Evidentlyで機械学習モデルの挙動を可視化する

データサイエンティストのデータサイエンス以外のスキル面について考えた

Tableau Serverユーザー追加メモ

データサイエンス案件とアジャイル② DSに適したアジャイル詳細

データサイエンス案件とアジャイル① 各既存手法まとめ

Tidyevalでの関数型プログラミング俺俺メモ

正規表現で文字列からほしい部分を抽出する

pythonで動的にオブジェクトを作成する

git俺俺メモ

BUSINESS DATA SCIENCE 6章 Controls

mutate_atで引数付き関数を使う

モデルに対して値の推定結果を作成する