BUSINESS DATA SCIENCE 1章 Uncertainty① ブートストラップ法

統計 R 書籍

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア:…

2019-12-03

アナリスト系DS1年生が今年を振り返りつつ来年以降やるべきことを考えた

振り返り雑談

この記事は何か 2019年の振り返り記事です。アナリスト系データサイエンスを仕事でやり始めた1年の軌跡という見方もできるかもです。また、数ヶ月前にデータラーニングギルドというDSのコミュニティに所属したため、そこでのAdvent Calendarとしても投稿…

2019-12-02

DatagatewayTalk vol4の初LT枠で話してきた

雑談

表題通り。 data-gateway-talk.connpass.com speakerdeck.com クライアント分析業務を初めたこの10ヶ月で上長から言われた中で一番よく言われることについて書いてみました。まぁ偉そうに書いて語ってますが、上長からアドバイスされている内容をまとめただ…

2019-11-26

tidyverseの世界からpandasの世界に入ってみた

Python トレース記事練習

これはなにか最近pandasを触っているが、色々なことにモヤモヤしている。例えば、人によっては書き方がdf[[絞りたい行条件],[列1, 列2]]みたいな書き方なので、df %>% select(列1, 列2) %>% filter(絞り込みたい行条件)に慣れた身からすると可読性が悪い。…

2019-11-04

Kaggle初挑戦にあたり2019 Data Science Bowlを2日間やってみた記録

Kaggle 雑談 Python

概要これはなにかこの3連休に12時間くらいKaggleに初挑戦(Titanic除く)をしてみたので、現在開催中に2019 Data Science Bowlをやってみたのでそのメモ。 www.kaggle.com 何故やったか仕事で使いそう予測系は仕事でほぼ使わないので学習コストに対するリ…

2019-10-31

モデル式における項の意味（層別モデルとダミー変数モデルの違いなど)

R 統計

)前回の記事で、作成したモデル式はどういうことを仮定しているかちゃんと考えようという旨のことを書いた。そのため、具体的に置いている仮定によってどうモデル式が変わるかを改めて考える。 knknkn.hatenablog.com 例えば同じ数の変数を使っていても以下…

2019-10-27

線形モデルにおける最小二乗推定と最尤推定の使い分けはどうするか

統計

線形回帰においてパラメータの推定に関して。最小二乗推定量(OLS推定量）については昔書いたが、最小二乗推定量 (以下OLS推定量)で出すか、最尤推定量 (以下ML推定量）で出すかの違いを書いてなかったことを思い出したのでテキトーに追記。 knknkn.hatena…

2019-10-27

文字列からformulaを作りたい

R 使い方メモ(ライブラリ) 使い方メモ(不便解決)

やりたいことリストにある文字を組み合わせて作った式をfor文で動的に変えていきたい。問題点以下のコードのように、felm関数のformulaに文字列で式を渡した場合エラー。ちなみに、lfe::felmは固定効果モデルを使うときの関数。 knknkn.hatenablog.com l…

2019-10-22

モデルにおける"仮定を強める"ということの意味とメリット

統計

分析において、仮定を強めるという言葉をよく聞く。よく考えると「仮定を強める」って具体的にどういう事象のことを指すか、またそのメリットが整理できていなかったので考えてみる。仮定を強めるとはざっくりいうと、値に対して「自由に動ける部分を減…

2019-10-21

データサイエンティストがプロジェクトを回す際に何を"考える"べきか

雑談

仕事において「なぜ(Why, So What)を3回くりかえせ！」という話をよく聞く。これは「何故これをやったのか/必要があるか？」をあぶり出すために非常に有効となる。逆にその問に答えれないということは、「どういう思考のプロセスでそのアウトプットに至っ…

2019-10-21

データサイエンティストチームをどう作って維持していくかについての本を読んだ（要約）

書籍

「The Care and Feeding of Data Scientists. How to Build, Manage, and Retain a Data Science Team」を読んだデータサイエンティストをどうチームに迎え入れてマネジメントするのかが書かれた書籍。データサイエンティストへのアンケートでは前職の在籍…

2019-10-20

TV視聴行動のシミュレーションに関する論文を読んだ

論文/記事

Journal of Marketing Research(2018)の「TV Viewing and Advertising Targeting」を読んだ。シミュレーションモデルをどう作るかしか興味がなかったので、どう活用するかは流し読みなのでちょいテキトーです。概要 TV視聴行動を捉えるモデルと、CMを観た…

2019-10-19

TVCMが検索に与えるインパクトの予測に関する論文を読んだ

論文/記事

前回はTVCMの各要素（内容や出稿タイミングなど）が与える検索への効果の論文を読んだ。 knknkn.hatenablog.com 今回は、インパクト自体の予測論文 TV Impact on Online Searches ちなみにこの論文は以下のリツイートが回ってきて知ったんですが、ここに書い…

2019-10-19

TVCMの各要素が、ブランド検索・価格検索に与える影響に関する論文を読んだ

論文/記事

論文メモ。 Journal of Marketingの2019年論文「Immediate Responses of Online Brand Search and Price Search to TV Ads」を読んだ。概要 TVCMを打ったときのブランド検索、価格検索への各要素の影響を調査する内容。予測というより、どういう変数がどれ…

2019-10-17

2019年4Q OKR

振り返り

前の期を踏まえつつ。 knknkn.hatenablog.com あと前から思っていた「KRの立て方がなんか違う気がする」問題。 OKRはObjective達成のための具体的アクション(KR)。つまりKR達成したらOも達成となる。今までの内容は、そもそもO達成の定義が微妙ゆえにKRも微…

2019-10-17

2019年3Q OKR 振り返り

目標管理

振り返り。 knknkn.hatenablog.com Objective:「独立したDSに!」軸としては以下の2つ。 ①ドメイン知識に沿った需要を満たす目的 ②目的を達成するために道具をどう使うか途中から記録し忘れてるし、そもそも定量の意味がない気がしたので達成率は感覚で。 K…

2019-09-01

ggpointdensityでgeom_pointの重なっている部分をヒートマップで表現する

R 使い方メモ(ライブラリ)

表題通り。基本的にはドキュメントレベルしかしてないのでただのメモ。 github.com ggpointdensityの特徴散布図を作図するgeom_poin()では点が重なっている場合どれくらい重なっているかわからなかった。対応策として、geom_density2d()や、geom_bin2d()が…

2019-08-30

DIDと傾向スコアを用いた手法の使い分け

統計

なにを書くか岩波DS vol.3(因果推論)のp.91で傾向スコアを用いて「スマホアプリ利用時間」に対する「CM接触効果」を調べるようなデータについて。本文中では、傾向スコア(Propensity Score)を用いて平均CM接触効果(ATE)を測っているが、これはCM施策前後の…

2019-08-27

facet_gridで1軸に複数要素を指定する

R 使い方メモ(ライブラリ) 使い方メモ(不便解決)

めちゃくちゃしょうもない小ネタですが、以下のようにfacet_gridで軸列を指定するときに+を使うと複数指定が可能になる模様。 facet_grid(. ~ c(color, cut))とかで複数要素指定できるんかなー → できないやんけ！と思ってたら。。。。 library(tidyverse) d…

2019-08-12

ggforce::facet_matrixを用いてfacet_grid(c(A,B,C) ~ c(D,E))的な表現を実現する

R 使い方メモ(ライブラリ) 使い方メモ(不便解決)

以下のツイートを見かけたので試してみた記事。 ggforce::facet_matrix 凄いわ．tidyr::gather をスキップできる……．ggplot(iris) + geom_boxplot(aes(Species, .panel_y)) + ggforce::facet_matrix( rows = vars(everything(), -Species), cols = vars(Spec…

2019-08-12

媒介分析で因果効果の内訳を考える

統計論文/記事

因果媒介分析とは概要因果効果の内訳を考えるための手法として、因果媒介分析(Causal Mediation Analysis)というものがある。これによって、A→Yという因果関係(Whether:AはYに効果があるのか？)だけでなく、AによってM1, M2, ...という事象が起きた結果Y…

2019-08-03

ランダムフォレストについて改めて要点をまとめる

機械学習

概要ランダムフォレストは何が理解の要点なのかを中心として自分用に改めてまとめる。各見出しで参考にしたリンクを都度記載しているので数式などはそちらを見てください。まず、ランダムフォレストについて一言で説明すると、「決定木モデルに対してアン…

2019-07-31

どうやって学習をしていくか。何を学習すればいいか。

雑談振り返り

怪文書シリーズ第3弾。学びについて最近考えていることをつらつらと。頭整理用のメモなのでよみづらいです。どうやって学習するか最近、弊社は採用の強化をおこなっていて先輩の強いDSの人が採用面接によく駆り出されている。面接の際に先輩は「xxx(面接…

2019-07-16

成長するためには手癖でやらないためのシステムが必要

雑談振り返り

前回に引き続き怪文書ポエム。記事に書いたが、最近手癖で行動してしまっている。 knknkn.hatenablog.com 手癖、つまり慣れたやり方は楽。しかし成長の観点で言えば、同じことをなんとなくやっているだけなので成長は皆無は言いすぎかもしれないが非常に緩…

2019-07-14

データ分析プロジェクトを主体的にこなすためには

雑談振り返り

ただの雑記怪文書です。近況と問題意識最近、分析プロジェクトの全フローを担当するようになった。前期では表面上は「先輩データサイエンティストと共におこなっていた」ことになっているが、実質的には「先輩データサイエンティストの考えたモデルに沿っ…

2019-06-22

2019年3Q OKR

振り返り

2019年2Q振り返りを踏まえて、3QのOKR作成。 knknkn.hatenablog.com OKRについては以下にざっくりまとめてる。 knknkn.hatenablog.com Objective 「独立したDSに！」まぁ前期OKRとほぼ同じだがちょっと意図変えた。下流はまぁそれなりにできるようになった…