まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2019-01-01から1年間の記事一覧

BUSINESS DATA SCIENCE 1章 Uncertainty① ブートストラップ法

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア:…

アナリスト系DS1年生が今年を振り返りつつ来年以降やるべきことを考えた

この記事は何か 2019年の振り返り記事です。 アナリスト系データサイエンスを仕事でやり始めた1年の軌跡 という見方もできるかもです。 また、数ヶ月前にデータラーニングギルドというDSのコミュニティに所属したため、そこでのAdvent Calendarとしても投稿…

DatagatewayTalk vol4の初LT枠で話してきた

表題通り。 data-gateway-talk.connpass.com speakerdeck.com クライアント分析業務を初めたこの10ヶ月で上長から言われた中で一番よく言われることについて書いてみました。 まぁ偉そうに書いて語ってますが、上長からアドバイスされている内容をまとめただ…

tidyverseの世界からpandasの世界に入ってみた

これはなにか 最近pandasを触っているが、色々なことにモヤモヤしている。 例えば、人によっては書き方がdf[[絞りたい行条件],[列1, 列2]]みたいな書き方なので、df %>% select(列1, 列2) %>% filter(絞り込みたい行条件)に慣れた身からすると可読性が悪い。…

Kaggle初挑戦にあたり2019 Data Science Bowlを2日間やってみた記録

概要 これはなにか この3連休に12時間くらいKaggleに初挑戦(Titanic除く)をしてみたので、現在開催中に2019 Data Science Bowlをやってみたのでそのメモ。 www.kaggle.com 何故やったか 仕事で使いそう 予測系は仕事でほぼ使わないので学習コストに対するリ…

モデル式における項の意味(層別モデルとダミー変数モデルの違いなど)

)前回の記事で、作成したモデル式はどういうことを仮定しているかちゃんと考えようという旨のことを書いた。 そのため、具体的に置いている仮定によってどうモデル式が変わるかを改めて考える。 knknkn.hatenablog.com 例えば同じ数の変数を使っていても以下…

線形モデルにおける最小二乗推定と最尤推定の使い分けはどうするか

線形回帰においてパラメータの推定に関して。 最小二乗推定量(OLS推定量)については昔書いたが、 最小二乗推定量 (以下OLS推定量)で出すか、 最尤推定量 (以下ML推定量)で出すかの違いを書いてなかったことを思い出したのでテキトーに追記。 knknkn.hatena…

文字列からformulaを作りたい

やりたいこと リストにある文字を組み合わせて作った式をfor文で動的に変えていきたい。 問題点 以下のコードのように、felm関数のformulaに文字列で式を渡した場合エラー。 ちなみに、lfe::felmは固定効果モデルを使うときの関数。 knknkn.hatenablog.com l…

モデルにおける"仮定を強める"ということの意味とメリット

分析において、仮定を強める という言葉をよく聞く。 よく考えると「仮定を強める」って具体的にどういう事象のことを指すか、またそのメリットが整理できていなかったので考えてみる。 仮定を強めるとは ざっくりいうと、値に対して「自由に動ける部分を減…

データサイエンティストがプロジェクトを回す際に何を"考える"べきか

仕事において「なぜ(Why, So What)を3回くりかえせ!」という話をよく聞く。これは「何故これをやったのか/必要があるか?」をあぶり出すために非常に有効となる。 逆にその問に答えれないということは、 「どういう思考のプロセスでそのアウトプットに至っ…

データサイエンティストチームをどう作って維持していくかについての本を読んだ(要約)

「The Care and Feeding of Data Scientists. How to Build, Manage, and Retain a Data Science Team」を読んだ データサイエンティストをどうチームに迎え入れてマネジメントするのかが書かれた書籍。データサイエンティストへのアンケートでは前職の在籍…

TV視聴行動のシミュレーションに関する論文を読んだ

Journal of Marketing Research(2018)の「TV Viewing and Advertising Targeting」を読んだ。 シミュレーションモデルをどう作るかしか興味がなかったので、どう活用するかは流し読みなのでちょいテキトーです。 概要 TV視聴行動を捉えるモデルと、CMを観た…

TVCMが検索に与えるインパクトの予測に関する論文を読んだ

前回はTVCMの各要素(内容や出稿タイミングなど)が与える検索への効果の論文を読んだ。 knknkn.hatenablog.com 今回は、インパクト自体の予測論文 TV Impact on Online Searches ちなみにこの論文は以下のリツイートが回ってきて知ったんですが、ここに書い…

TVCMの各要素が、ブランド検索・価格検索に与える影響に関する論文を読んだ

論文メモ。 Journal of Marketingの2019年論文「Immediate Responses of Online Brand Search and Price Search to TV Ads」を読んだ。 概要 TVCMを打ったときのブランド検索、価格検索への各要素の影響を調査する内容。 予測というより、どういう変数がどれ…

2019年4Q OKR

前の期を踏まえつつ。 knknkn.hatenablog.com あと前から思っていた「KRの立て方がなんか違う気がする」問題。 OKRはObjective達成のための具体的アクション(KR)。つまりKR達成したらOも達成となる。 今までの内容は、そもそもO達成の定義が微妙ゆえにKRも微…

2019年3Q OKR 振り返り

振り返り。 knknkn.hatenablog.com Objective:「独立したDSに!」 軸としては以下の2つ。 ①ドメイン知識に沿った需要を満たす目的 ②目的を達成するために道具をどう使うか 途中から記録し忘れてるし、そもそも定量の意味がない気がしたので達成率は感覚で。 K…

ggpointdensityでgeom_pointの重なっている部分をヒートマップで表現する

表題通り。基本的にはドキュメントレベルしかしてないのでただのメモ。 github.com ggpointdensityの特徴 散布図を作図するgeom_poin()では点が重なっている場合どれくらい重なっているかわからなかった。 対応策として、geom_density2d()や、geom_bin2d()が…

DIDと傾向スコアを用いた手法の使い分け

なにを書くか 岩波DS vol.3(因果推論)のp.91で傾向スコアを用いて「スマホアプリ利用時間」に対する「CM接触効果」を調べるようなデータについて。本文中では、傾向スコア(Propensity Score)を用いて平均CM接触効果(ATE)を測っているが、これはCM施策前後の…

facet_gridで1軸に複数要素を指定する

めちゃくちゃしょうもない小ネタですが、以下のようにfacet_gridで軸列を指定するときに+を使うと複数指定が可能になる模様。 facet_grid(. ~ c(color, cut))とかで複数要素指定できるんかなー → できないやんけ!と思ってたら。。。。 library(tidyverse) d…

ggforce::facet_matrixを用いてfacet_grid(c(A,B,C) ~ c(D,E))的な表現を実現する

以下のツイートを見かけたので試してみた記事。 ggforce::facet_matrix 凄いわ.tidyr::gather をスキップできる…….ggplot(iris) + geom_boxplot(aes(Species, .panel_y)) + ggforce::facet_matrix( rows = vars(everything(), -Species), cols = vars(Spec…

媒介分析で因果効果の内訳を考える

因果媒介分析とは 概要 因果効果の内訳を考えるための手法として、因果媒介分析(Causal Mediation Analysis)というものがある。 これによって、A→Yという因果関係(Whether:AはYに効果があるのか?)だけでなく、AによってM1, M2, ...という事象が起きた結果Y…

ランダムフォレストについて改めて要点をまとめる

概要 ランダムフォレストは何が理解の要点なのかを中心として自分用に改めてまとめる。 各見出しで参考にしたリンクを都度記載しているので数式などはそちらを見てください。 まず、ランダムフォレストについて一言で説明すると、「決定木モデルに対してアン…

どうやって学習をしていくか。何を学習すればいいか。

怪文書シリーズ第3弾。学びについて最近考えていることをつらつらと。頭整理用のメモなのでよみづらいです。 どうやって学習するか 最近、弊社は採用の強化をおこなっていて先輩の強いDSの人が採用面接によく駆り出されている。 面接の際に先輩は「xxx(面接…

成長するためには手癖でやらないためのシステムが必要

前回に引き続き怪文書ポエム。 記事に書いたが、最近手癖で行動してしまっている。 knknkn.hatenablog.com 手癖、つまり慣れたやり方は楽。しかし成長の観点で言えば、同じことをなんとなくやっているだけなので成長は皆無は言いすぎかもしれないが非常に緩…

データ分析プロジェクトを主体的にこなすためには

ただの雑記怪文書です。 近況と問題意識 最近、分析プロジェクトの全フローを担当するようになった。 前期では表面上は「先輩データサイエンティストと共におこなっていた」ことになっているが、実質的には「先輩データサイエンティストの考えたモデルに沿っ…

2019年3Q OKR

2019年2Q振り返りを踏まえて、3QのOKR作成。 knknkn.hatenablog.com OKRについては以下にざっくりまとめてる。 knknkn.hatenablog.com Objective 「独立したDSに!」 まぁ前期OKRとほぼ同じだがちょっと意図変えた。 下流はまぁそれなりにできるようになった…

2019年2Q振り返り

今期やったこと 仕事 階層ベイズ シミュレーション ログ解析(Rでくそめんどい集計して傾向見る) 簡単な集計多数 自学 使った技術と、それをベースに横展開した技術を学んだ ブログでちゃんとアウトプットをした(6月は案件炎上したから1ヶ月くらい書けなか…

資源の最適な配分を、ディリクレ分布を用いたシミュレーションから求める

やりたいこと なにかしらの資源をどう分配したら効用を最大化できるか、ということを解析ではなくシミュレーションによって求める。 例題 今回、例として「総予算上限10万円分で各時間帯にCMを打つ。そのとき、3回以上CMに接触した人数が多いCM投下パターン…

Stanのmodelブロックの意味

Stanを書くとき、モデル式を書いてそれをコードに落とし込むという流れで書いている。感覚的にコードを書いているのだが、冷静に振り返ると何故ここにこれを書くのか?ということがわからなくなってきたのでメモ。 というか、前の記事みたいにエラーが出た際…

状態空間モデルをstanでやりたかった② パネルデータに対する状態空間モデル(階層ベイズ)

前回では以下のようなModelを考えた。 tが閉店日の場合、 それ以外の場合、 knknkn.hatenablog.com だが、結果としてsamplingがおこなわなかった。そのため、今回もプロットは無しで理屈のみ。。。 前回のモデルと今回のモデルの差 前回のモデルは「ある1店…