まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

統計

BUSINESS DATA SCIENCE 6章 Controls

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 2章 Regression③ 推定の不確か性

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 2章 Regression② 回帰の当てはまりのよさ

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 2章 Regression① 回帰の解釈

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 1章 Uncertainty② 検定

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: …

BUSINESS DATA SCIENCE 1章 Uncertainty① ブートストラップ法

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア:…

モデル式における項の意味(層別モデルとダミー変数モデルの違いなど)

)前回の記事で、作成したモデル式はどういうことを仮定しているかちゃんと考えようという旨のことを書いた。 そのため、具体的に置いている仮定によってどうモデル式が変わるかを改めて考える。 knknkn.hatenablog.com 例えば同じ数の変数を使っていても以下…

線形モデルにおける最小二乗推定と最尤推定の使い分けはどうするか

線形回帰においてパラメータの推定に関して。 最小二乗推定量(OLS推定量)については昔書いたが、 最小二乗推定量 (以下OLS推定量)で出すか、 最尤推定量 (以下ML推定量)で出すかの違いを書いてなかったことを思い出したのでテキトーに追記。 knknkn.hatena…

モデルにおける"仮定を強める"ということの意味とメリット

分析において、仮定を強める という言葉をよく聞く。 よく考えると「仮定を強める」って具体的にどういう事象のことを指すか、またそのメリットが整理できていなかったので考えてみる。 仮定を強めるとは ざっくりいうと、値に対して「自由に動ける部分を減…

DIDと傾向スコアを用いた手法の使い分け

なにを書くか 岩波DS vol.3(因果推論)のp.91で傾向スコアを用いて「スマホアプリ利用時間」に対する「CM接触効果」を調べるようなデータについて。本文中では、傾向スコア(Propensity Score)を用いて平均CM接触効果(ATE)を測っているが、これはCM施策前後の…

媒介分析で因果効果の内訳を考える

因果媒介分析とは 概要 因果効果の内訳を考えるための手法として、因果媒介分析(Causal Mediation Analysis)というものがある。 これによって、A→Yという因果関係(Whether:AはYに効果があるのか?)だけでなく、AによってM1, M2, ...という事象が起きた結果Y…

資源の最適な配分を、ディリクレ分布を用いたシミュレーションから求める

やりたいこと なにかしらの資源をどう分配したら効用を最大化できるか、ということを解析ではなくシミュレーションによって求める。 例題 今回、例として「総予算上限10万円分で各時間帯にCMを打つ。そのとき、3回以上CMに接触した人数が多いCM投下パターン…

ベイズ推定において、ある変数間を縛りたい場合に置く仮定

表題通り、ある変数間を縛りたい場合に置く仮定について。 例えば、Z = B / Aのとき、AとBを個々にベイズ推定してZを求めるとする。 このとき、AにBがある程度連動する、つまり相関する場合は多変量正規分布を用いて取れる値を縛ると良い。 逆にいえば、A, B…

状態空間モデルで何を状態方程式とし、何を観測方程式とするか

疑問 割と色々な書籍、例えばアヒル本で 観測値Y[t]を要素の和に分解するのが定石 (p.235) とあるが、場合によるのでは?てかそもそも状態方程式/観測方程式どっちに何書くかの切り分けってなんだ?という疑問が湧いた。 StanとRでベイズ統計モデリング (Won…

機械学習による予測確率は真の確率とは異なる

以下の記事では傾向スコアをロジスティク回帰で求めてその傾向スコアをもとにATEなどを求めた。 knknkn.hatenablog.com 機械学習で出した確率は、予測確率が0.5未満ならラベル0、0.5以上ならラベル1にする、といったような分類器として使う場合は(おおむね…

傾向スコアによるマッチングを試す

傾向スコアによるマッチングを試す。内容は岩波DS3を、コードは以下を参考。 統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる - 渋谷駅前で働くデータサイエンティストのブログ 岩波データサイエンス Vol.3発売日: 2016/06/10メデ…

差分の差分法(DID)を試す

差分の差分法(DID)の勉強のために以下の記事を参考にする。 https://fisproject.jp/2016/05/difference-in-differences-using-r/ 使用するデータは 、A-Gまでの7ヶ国についてy, y_bin, x1, x2, x3, opinion を1990年から10年間に渡り記録したパネルデータと…

lfe::felmで固定効果モデルを試す

固定効果モデル(Fixed Effect)を考える。 固定効果モデルとは 固定効果モデルとは、ざっくり書くと、パネルデータに対するOLSの際にパネルデータ内の個人毎に異なる「個人差」のような部分を除去してOLS推定ができるようになるモデル。 固定効果モデルイメー…

Beta分布のパラメータ

いつも以上に、自分用の備忘録的な書き方になります。 Beta分布はパラメータA,Bを持ち、Beta(A,B)として関数形が変わる。 では、パラメータA, Bの事前分布はどう求めたらいいだろうか? 1つはテキトーに無情報分布として置く方法。もう1つはある程度想定され…

分位点回帰の使い方

分位点回帰(Quantile Regression)について。 OLSと比較した分位点回帰の特徴 OLSは条件付き期待値を推定する手法。 QRは条件付き分位点を推定する手法。任意の分位点なので、例えば50%分位点を指定することは、条件付き中央値を推定することになる。 外れ値…

データ解析のための統計モデリング入門② 一般化線形モデル

緑本こと、「データ解析のための統計モデリング入門」のメモその②。 knknkn.hatenablog.com データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者:久保 拓弥発売日: 2012/05/19メディア: 単行本 一般化…

データ解析のための統計モデリング入門① 2章 最尤推定

通称緑本こと、「データ解析のための統計モデリング入門」の再読をしたのでメモ。 今回は最尤推定について(2章) データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者:久保 拓弥発売日: 2012/05/19メデ…

編集距離を用いた固有名詞の名寄せ

編集距離(レーベンシュタイン距離)を用いて、名寄せ作業をおこなった。 レーベンシュタイン距離については過去記事参照。 knknkn.hatenablog.com 今回の目的は前述のように、データソースAとBで、同じ固有名詞を示していても表記ゆれがあったため名寄せを…

プロビットモデルとトービットモデルの理論

はじめに 昔、非線形モデルのプロビット・トービット・へーキッドについて記事を書いた。 knknkn.hatenablog.com 実際に中身の確認および、当時はなんとなく理解だったので改めて書き直す 非線形モデル ある事象に対して、xxするか/xxしないかというダミー変…

文字列の類似度を測る編集距離

仕事である固有名詞に対してデータソースがAのものとBのもので、微妙に表記ゆれがあったため名寄せ作業をおこなう必要があった。 目で見ていくとキリがないので文字列の類似度測って閾値以上のものをリストアップした上で目で見ると効率が良くなりそうなので…

良い推定量としての最小二乗推定量(OLS推定量)

過去にも計量経済学系記事を書きましたが、その後同じような内容の本を多読して大体整理がついたのでまとめ。 何故計量経済学でOLSか 計量経済学の目標は、変数間の数量的な因果関係、すなわち「変数Xの変化で、別の変数Yがどれだけ変化するか」の実証にあり…

実証分析のための計量経済学メモ②(プロビットモデル・トービットモデル・ヘーキットモデル)

概要 引き続き「実証分析のための計量経済学」 離散選択モデル ダミー変数を用いた推定モデルを 離散選択モデル という。 ダミー変数を被説明変数として1となる確率を、観測値を説明変数としてOLSで推定したものを 線形確率モデル という。 プロビットモデル…

実証分析のための計量経済学メモ①(最小二乗法のBLUE)

実証分析のための計量経済学 を読んで。 最小二乗法とは 真のモデルy = α + βx + εにおいて、α + βx の部分が真の関係。この真の関係に確率変動するε部分が加わることで観測値yが生じる。 そのため、観測値yを用いて説明できないε部分(推定式の場合残差e)…

検定の一般化した使い方

前の記事 knknkn.hatenablog.com を書きながら思ったのだけど、そもそも「どの統計モデル」に対して「どういうとき」「どの検定を使うか」が割と疑問。 使い分け 44の例題で学ぶ統計的検定と推定の解き方を読むとそのあたりが書かれていた。 パラメトリック…

p値覚書き①

統計的優位性は、実験が偶然によるとは言えない極端な結果を生み出したかどうかを測定するものだ。 結果が偶然による変動の範囲を超えるなら、統計的に優位と言える。 (データサイエンスのための統計学入門 P98) p値について、データサイエンスのための統…