まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2019年1月期個人OKR

OKRについてちゃんと調べたので、個人OKRを立てようと思う。 knknkn.hatenablog.com

ちなみに過去記事で読んだOKR本はOは1つだけだったが3つくらいまでならOを立ててもいいらしい。

どういう方向性でいくか

去年の振り返りをした結果、 - データ抽出(SQL)ばかりで技術的な成長がなかった - 今期からチームとしてちゃんとデータサイエンスが機能しそう - アウトプットが足りないため、理論はなんとなく理解してるけどコードやプロジェクトに落とせれていない という部分にフォーカスしつつたてたら良さそう knknkn.hatenablog.com

OKR

Objective

「データサイエンティストとして、恥ずかしくない仕事がおこなえる下地を作る」 意味合いとしては

  • データ抽出外の、ちゃんとしたサイエンスをおこなう
  • その際に、いちいち理論を時間をかけて調べなくてすむようになる
  • コードをスムーズに書けるようになる

となっている。 学んだ理論をR(Python)でどう書くかわからないものが多いし、そもそもggplotやdplyrを長らく使ってなくて理論以前の前処理や可視化部分が現状だと割ともたつくのでそれも合わせてなんとかしたい。 また、他メンバー(最近入った強い人除く)も割と似たスキルレベルな気がするので、彼らが作業を行う際の参考になるようにナレッジをためていきたい。

Key Result

  • DSの使いそうな理論リスト(後述)をナレッジ化するために、それらに対する記事作成を週2作成する
  • ggplot,dplyrの使い方をまとめ直すために、tutorialを全ておこない記事作成をする
  • Tableau Vizで週1閲覧し、Tableau記事を5件書く

「記事を書く」で定量化しているので、毎週の優先事項(P)は

  • 水曜日までに何のネタ書くか考える
  • 土曜日までに内容をまとめる
  • 日曜にまでに記事を書く

になるのかなぁ、と。曜日とネタ粒度は微調整していく。

DSの使いそうな理論リスト

件の強いDSさんに作ってもらった。
すぐ必要ではないものもあるので、それら除くと週2記事作成だとだいたい1/3くらい達成かなぁ。

大枠 中枠 小枠
General Preprocessing normalization (standard/min-max/robust)
whitning
Cross Varidation Leave One Out CV
K Fold CV
Stratified CV
Grouped CV
Timeseries CV
SGD -
Hyperparameter optimization grid search
random search
bayesian search
Model Free Interpretation SHAP value
Feature importance(Permutation)
Partial dependence
Individual conditional expectation
Inference Linear Model/LS OLS
WLS
Fixed Effect Model
Lasso
Ridge
Elastic Net
Quantile Regression -
Maximum Liklihood GLM(Logit/Probit...)
Tobit
Heckit
Bayes -
MAP multilevel/hierarchical Bayes
variational inference
state space model
Causal Inference Average Treatment Effect
Conditional Average Treatment Effect
Propensity Score
Difference in Difference
Nonparametric/Semiparametric Nadaraya-Watson
local linear
partial liner
Prediction Decision Tree Bagging
Boosting
Random Forest
Gradient Boosting Decision Tree
FFNN Dropout
Batch Normalization
He’s initialization
entity embedding
RNN -
CNN data augmentation