2019-01-01から1年間の記事一覧
BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア:…
この記事は何か 2019年の振り返り記事です。 アナリスト系データサイエンスを仕事でやり始めた1年の軌跡 という見方もできるかもです。 また、数ヶ月前にデータラーニングギルドというDSのコミュニティに所属したため、そこでのAdvent Calendarとしても投稿…
表題通り。 data-gateway-talk.connpass.com speakerdeck.com クライアント分析業務を初めたこの10ヶ月で上長から言われた中で一番よく言われることについて書いてみました。 まぁ偉そうに書いて語ってますが、上長からアドバイスされている内容をまとめただ…
これはなにか 最近pandasを触っているが、色々なことにモヤモヤしている。 例えば、人によっては書き方がdf[[絞りたい行条件],[列1, 列2]]みたいな書き方なので、df %>% select(列1, 列2) %>% filter(絞り込みたい行条件)に慣れた身からすると可読性が悪い。…
概要 これはなにか この3連休に12時間くらいKaggleに初挑戦(Titanic除く)をしてみたので、現在開催中に2019 Data Science Bowlをやってみたのでそのメモ。 www.kaggle.com 何故やったか 仕事で使いそう 予測系は仕事でほぼ使わないので学習コストに対するリ…
)前回の記事で、作成したモデル式はどういうことを仮定しているかちゃんと考えようという旨のことを書いた。 そのため、具体的に置いている仮定によってどうモデル式が変わるかを改めて考える。 knknkn.hatenablog.com 例えば同じ数の変数を使っていても以下…
線形回帰においてパラメータの推定に関して。 最小二乗推定量(OLS推定量)については昔書いたが、 最小二乗推定量 (以下OLS推定量)で出すか、 最尤推定量 (以下ML推定量)で出すかの違いを書いてなかったことを思い出したのでテキトーに追記。 knknkn.hatena…
やりたいこと リストにある文字を組み合わせて作った式をfor文で動的に変えていきたい。 問題点 以下のコードのように、felm関数のformulaに文字列で式を渡した場合エラー。 ちなみに、lfe::felmは固定効果モデルを使うときの関数。 knknkn.hatenablog.com l…
分析において、仮定を強める という言葉をよく聞く。 よく考えると「仮定を強める」って具体的にどういう事象のことを指すか、またそのメリットが整理できていなかったので考えてみる。 仮定を強めるとは ざっくりいうと、値に対して「自由に動ける部分を減…
仕事において「なぜ(Why, So What)を3回くりかえせ!」という話をよく聞く。これは「何故これをやったのか/必要があるか?」をあぶり出すために非常に有効となる。 逆にその問に答えれないということは、 「どういう思考のプロセスでそのアウトプットに至っ…
「The Care and Feeding of Data Scientists. How to Build, Manage, and Retain a Data Science Team」を読んだ データサイエンティストをどうチームに迎え入れてマネジメントするのかが書かれた書籍。データサイエンティストへのアンケートでは前職の在籍…
Journal of Marketing Research(2018)の「TV Viewing and Advertising Targeting」を読んだ。 シミュレーションモデルをどう作るかしか興味がなかったので、どう活用するかは流し読みなのでちょいテキトーです。 概要 TV視聴行動を捉えるモデルと、CMを観た…
前回はTVCMの各要素(内容や出稿タイミングなど)が与える検索への効果の論文を読んだ。 knknkn.hatenablog.com 今回は、インパクト自体の予測論文 TV Impact on Online Searches ちなみにこの論文は以下のリツイートが回ってきて知ったんですが、ここに書い…
論文メモ。 Journal of Marketingの2019年論文「Immediate Responses of Online Brand Search and Price Search to TV Ads」を読んだ。 概要 TVCMを打ったときのブランド検索、価格検索への各要素の影響を調査する内容。 予測というより、どういう変数がどれ…
前の期を踏まえつつ。 knknkn.hatenablog.com あと前から思っていた「KRの立て方がなんか違う気がする」問題。 OKRはObjective達成のための具体的アクション(KR)。つまりKR達成したらOも達成となる。 今までの内容は、そもそもO達成の定義が微妙ゆえにKRも微…
振り返り。 knknkn.hatenablog.com Objective:「独立したDSに!」 軸としては以下の2つ。 ①ドメイン知識に沿った需要を満たす目的 ②目的を達成するために道具をどう使うか 途中から記録し忘れてるし、そもそも定量の意味がない気がしたので達成率は感覚で。 K…
表題通り。基本的にはドキュメントレベルしかしてないのでただのメモ。 github.com ggpointdensityの特徴 散布図を作図するgeom_poin()では点が重なっている場合どれくらい重なっているかわからなかった。 対応策として、geom_density2d()や、geom_bin2d()が…
なにを書くか 岩波DS vol.3(因果推論)のp.91で傾向スコアを用いて「スマホアプリ利用時間」に対する「CM接触効果」を調べるようなデータについて。本文中では、傾向スコア(Propensity Score)を用いて平均CM接触効果(ATE)を測っているが、これはCM施策前後の…
めちゃくちゃしょうもない小ネタですが、以下のようにfacet_gridで軸列を指定するときに+を使うと複数指定が可能になる模様。 facet_grid(. ~ c(color, cut))とかで複数要素指定できるんかなー → できないやんけ!と思ってたら。。。。 library(tidyverse) d…
以下のツイートを見かけたので試してみた記事。 ggforce::facet_matrix 凄いわ.tidyr::gather をスキップできる…….ggplot(iris) + geom_boxplot(aes(Species, .panel_y)) + ggforce::facet_matrix( rows = vars(everything(), -Species), cols = vars(Spec…
因果媒介分析とは 概要 因果効果の内訳を考えるための手法として、因果媒介分析(Causal Mediation Analysis)というものがある。 これによって、A→Yという因果関係(Whether:AはYに効果があるのか?)だけでなく、AによってM1, M2, ...という事象が起きた結果Y…
概要 ランダムフォレストは何が理解の要点なのかを中心として自分用に改めてまとめる。 各見出しで参考にしたリンクを都度記載しているので数式などはそちらを見てください。 まず、ランダムフォレストについて一言で説明すると、「決定木モデルに対してアン…
怪文書シリーズ第3弾。学びについて最近考えていることをつらつらと。頭整理用のメモなのでよみづらいです。 どうやって学習するか 最近、弊社は採用の強化をおこなっていて先輩の強いDSの人が採用面接によく駆り出されている。 面接の際に先輩は「xxx(面接…
前回に引き続き怪文書ポエム。 記事に書いたが、最近手癖で行動してしまっている。 knknkn.hatenablog.com 手癖、つまり慣れたやり方は楽。しかし成長の観点で言えば、同じことをなんとなくやっているだけなので成長は皆無は言いすぎかもしれないが非常に緩…
ただの雑記怪文書です。 近況と問題意識 最近、分析プロジェクトの全フローを担当するようになった。 前期では表面上は「先輩データサイエンティストと共におこなっていた」ことになっているが、実質的には「先輩データサイエンティストの考えたモデルに沿っ…
2019年2Q振り返りを踏まえて、3QのOKR作成。 knknkn.hatenablog.com OKRについては以下にざっくりまとめてる。 knknkn.hatenablog.com Objective 「独立したDSに!」 まぁ前期OKRとほぼ同じだがちょっと意図変えた。 下流はまぁそれなりにできるようになった…
今期やったこと 仕事 階層ベイズ シミュレーション ログ解析(Rでくそめんどい集計して傾向見る) 簡単な集計多数 自学 使った技術と、それをベースに横展開した技術を学んだ ブログでちゃんとアウトプットをした(6月は案件炎上したから1ヶ月くらい書けなか…
やりたいこと なにかしらの資源をどう分配したら効用を最大化できるか、ということを解析ではなくシミュレーションによって求める。 例題 今回、例として「総予算上限10万円分で各時間帯にCMを打つ。そのとき、3回以上CMに接触した人数が多いCM投下パターン…
Stanを書くとき、モデル式を書いてそれをコードに落とし込むという流れで書いている。感覚的にコードを書いているのだが、冷静に振り返ると何故ここにこれを書くのか?ということがわからなくなってきたのでメモ。 というか、前の記事みたいにエラーが出た際…
前回では以下のようなModelを考えた。 tが閉店日の場合、 それ以外の場合、 knknkn.hatenablog.com だが、結果としてsamplingがおこなわなかった。そのため、今回もプロットは無しで理屈のみ。。。 前回のモデルと今回のモデルの差 前回のモデルは「ある1店…