まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

データ解析のための統計モデリング入門② 一般化線形モデル

緑本こと、「データ解析のための統計モデリング入門」のメモその②。

knknkn.hatenablog.com

一般化線形モデル(GLM)とは

前記事では、全てのデータが同じ形の確率分布(ポアソン分布の例でいえば、同じパラメータλ = 平均のポアソン分布)のもと生成されているという仮定でおこなっていた。しかし、実際にはλは個体によって変わる、つまり個体によって別の形の確率分布で生成されることを表現するモデルを考える。 確率分布として、ポアソン分布を使う場合はポアソン回帰と呼ぶが、このようにパラメータが異なる同じ確率分布から生成されるデータに対しての統計モデルを一般化線形モデルという。

GLMの作り方

植物の種子数y_iとサイズx_iをデータとして考える。 ある個体iにおいて種子数y_iのときの確率はポアソン分布に従うとすると、 p(y_i | \lambda_i) = \frac{\lambda_i^{y_i} \exp(- \lambda_i )}{y_i!} となる。
今回、\lambda_iは個体ごとに違う。\lambda_iの期待値がサイズx_iに依存して決まる場合、\lambda_ix_iの式として記述できる。
例えば、\lambda_i = \exp(\beta_1 + \beta_2x_iとして\lambda_ix_iの関係を仮定する。このとき、式を変形してf(\lambda_i )= \log(\lambda_i) = \beta_1 + \beta_2x_iとしたときの、関数fを リンク関数 、右辺の式を 線形予測子 という。
なお、線形予測子の 線形 とは、x_iが線形という意味ではなく、\beta_iが線形という意味なので[tex:\beta_1 + \beta2_2x_i]となっていても問題はない。

リンク関数と線形予測子

このリンク関数は、仮定する確率分布によって計算上の都合がよい制限をつける(対数リンク関数の場合、非負など)性質によってある程度一意に決められる(正準リンク関数)。 逆にいえば、リンク関数は確率分布(データのばらつき方)を考えると半自動で決まるのであまり深く考えないでもよい

\lambda_iは目的変数yの期待値を表しているので、 リンク関数(λ_i) = (線形予測子)「yの期待値をリンク関数で変換したものが線形予測子と等しい」 として考えることができる。
また、xとyをプロットしたときの予測値\lambda_i(yの期待値)はリンク関数(\lambda_i) = リンク関数の逆関数(線形予測子)より、リンク関数の逆関数の線として引ける。

「なんでも直線回帰」

よくある、プロットに対して直線を引いて考えるのはGLM的に考えると以下の仮定となっている

  • データが正規分布から生成されている
  • xとyが直線関係(恒等リンク関数)

言い方を変えるならば、このような仮定ではないデータの場合は直線を引いたところでなんの意味もない

http://rtokei.tech/memo/%E4%B8%80%E8%88%AC%E5%8C%96%E7%B7%9A%E5%BD%A2%E3%83%A2%E3%83%87%E3%83%AB%E3%81%AE%E6%97%A5%E9%99%B0%E3%81%AE%E9%83%A8%E5%88%86/