2019年1月期個人OKR
OKRについてちゃんと調べたので、個人OKRを立てようと思う。 knknkn.hatenablog.com
ちなみに過去記事で読んだOKR本はOは1つだけだったが3つくらいまでならOを立ててもいいらしい。
どういう方向性でいくか
去年の振り返りをした結果、 - データ抽出(SQL)ばかりで技術的な成長がなかった - 今期からチームとしてちゃんとデータサイエンスが機能しそう - アウトプットが足りないため、理論はなんとなく理解してるけどコードやプロジェクトに落とせれていない という部分にフォーカスしつつたてたら良さそう knknkn.hatenablog.com
OKR
Objective
「データサイエンティストとして、恥ずかしくない仕事がおこなえる下地を作る」 意味合いとしては
- データ抽出外の、ちゃんとしたサイエンスをおこなう
- その際に、いちいち理論を時間をかけて調べなくてすむようになる
- コードをスムーズに書けるようになる
となっている。 学んだ理論をR(Python)でどう書くかわからないものが多いし、そもそもggplotやdplyrを長らく使ってなくて理論以前の前処理や可視化部分が現状だと割ともたつくのでそれも合わせてなんとかしたい。 また、他メンバー(最近入った強い人除く)も割と似たスキルレベルな気がするので、彼らが作業を行う際の参考になるようにナレッジをためていきたい。
Key Result
- DSの使いそうな理論リスト(後述)をナレッジ化するために、それらに対する記事作成を週2作成する
- ggplot,dplyrの使い方をまとめ直すために、tutorialを全ておこない記事作成をする
- Tableau Vizで週1閲覧し、Tableau記事を5件書く
「記事を書く」で定量化しているので、毎週の優先事項(P)は
- 水曜日までに何のネタ書くか考える
- 土曜日までに内容をまとめる
- 日曜にまでに記事を書く
になるのかなぁ、と。曜日とネタ粒度は微調整していく。
DSの使いそうな理論リスト
件の強いDSさんに作ってもらった。
すぐ必要ではないものもあるので、それら除くと週2記事作成だとだいたい1/3くらい達成かなぁ。
大枠 | 中枠 | 小枠 |
---|---|---|
General | Preprocessing | normalization (standard/min-max/robust) |
whitning | ||
Cross Varidation | Leave One Out CV | |
K Fold CV | ||
Stratified CV | ||
Grouped CV | ||
Timeseries CV | ||
SGD | - | |
Hyperparameter optimization | grid search | |
random search | ||
bayesian search | ||
Model Free Interpretation | SHAP value | |
Feature importance(Permutation) | ||
Partial dependence | ||
Individual conditional expectation | ||
Inference | Linear Model/LS | OLS |
WLS | ||
Fixed Effect Model | ||
Lasso | ||
Ridge | ||
Elastic Net | ||
Quantile Regression | - | |
Maximum Liklihood | GLM(Logit/Probit...) | |
Tobit | ||
Heckit | ||
Bayes | - | |
MAP | multilevel/hierarchical Bayes | |
variational inference | ||
state space model | ||
Causal Inference | Average Treatment Effect | |
Conditional Average Treatment Effect | ||
Propensity Score | ||
Difference in Difference | ||
Nonparametric/Semiparametric | Nadaraya-Watson | |
local linear | ||
partial liner | ||
Prediction | Decision Tree | Bagging |
Boosting | ||
Random Forest | ||
Gradient Boosting Decision Tree | ||
FFNN | Dropout | |
Batch Normalization | ||
He’s initialization | ||
entity embedding | ||
RNN | - | |
CNN | data augmentation |