実証分析のための計量経済学メモ①(最小二乗法のBLUE)
実証分析のための計量経済学 を読んで。
最小二乗法とは
真のモデルy = α + βx + εにおいて、α + βx の部分が真の関係。この真の関係に確率変動するε部分が加わることで観測値yが生じる。
そのため、観測値yを用いて説明できないε部分(推定式の場合残差e)を最小となるようにα + βx を推定することでモデルを推定できる。
BLUEとは
最小二乗法で推定されるパラメータや標準誤差(最小二乗推定量)が一定の条件を満たす時、二乗誤差を最小化するため最も適切な推定量となる。 最も適切な推定量のことを BLUE という。 そのためには後述の ガウスマルコフの定理 を満たす必要がある。 BLUEの特性としては下記の4つがある。
線型性
線形モデルの推定量であること。
不偏性
推定量の期待値が真の値に等しいこと。
つまり、推定量は真の値から誤差が生じるがその誤差は偏りないため平均したら真の値になる。
効率性
推定量の分散が最小であること。
推定量の分散が大きいと標準誤差が大きくなり、統計的に優位な結果が得にくくなる。
一致性
サンプルサイズを大きくすれば推定量がある値に収束すること。
逆に、収束しない場合はは推定量が真の値に近くとは限らなくなってしまう。
これらのような特性を保つためには誤差項に関して ガウスマルコフの定理という仮定 を満たす必要がある。
これが満たされない場合は最小二乗法を用いるのは不適切であるため、他のモデルで推定するべき。
正確には、他のモデルの方が推定精度が高くなるというだけで最小二乗法で出た推定値が間違っているというわけではない?
ガウスマルコフの定理
均一分散
誤差項の分散が均一であること。つまり、与えられたどの観測値でも分散が等しい状態。
例えば、男女の消費量など別の性質を持つ同士を同じデータとして渡すと男女で分散が大きく異なるので均一分散といえない。
また、都道府県別の平均世帯収入Σy/Nのようなものは平均世帯収入の分散がσ2/Nとなるので、Nが大きく異なると分散も大きく異なる。
以上のように、平均値データは誤差項の不均一分散が生じやすい。
また、線形確率モデル(ダミー変数を被説明変数としたときなど)の場合被説明変数は1/0しか取らないため誤差項の分散が説明変数の大きさに応じて変わるため、不均一分散が生じる。
均一分散ではない場合はBLUEのうち効率性が失われる。
つまり、最小二乗推定量の分散が最小でなくなるためばらつきが大きくなる。
共分散ゼロ
誤差間で相関がないこと。つまり、観測値間が独立で相関が生じてない状態。
例えば時系列データは過去の影響を受けやすいので過去と現在で相関が生じやすい。
パネルデータは同一個人の違う時点での観測値がデータ内に含まれ、時系列データの性質を持つため同様。
共分散がゼロではない場合はBLUEのうち効率性が失われる。
つまり、最小二乗推定量の分散が最小でなくなるためばらつきが大きくなる。
説明変数と独立
誤差項と説明変数の間で相関がないこと。この仮定が満たされないことは結構多い。
説明変数に含まれるべき変数がない場合、推定値が真の値からずれる(欠落変数バイアス)。
説明変数に含まれるべき変数とは、被説明変数の決定要因のうち、他の説明変数と相関がある変数のことを指す。
そのため、欠落した説明変数は誤差項に吸収されるため、結果として誤差項(の欠落変数部分)が相関してします。
また、誤差項は被説明変数の決定要因(相関あり)であるが、説明変数が被説明変数の決定要因の場合、
誤差項は被説明変数と相関することから、説明変数も誤差項と相関することになる(同時決定バイアス)。
要するに、被説明変数と説明変数の因果関係が逆になっている場合。
説明変数と独立ではない場合はBLUEのうち一致性が失われる。
つまり、推定量の収束が見込めないため、必ずしも正しい推定量になっていない可能性がある。効率性落ちよりも深刻。
BLUEにするためには
ガウスマルコフの定理の各仮定の欠落はそれぞれ補完する方法がある。
そのため、どの仮定が満たされてないかを把握し、補完することでBLUEな最小二乗法モデルを使用する必要がある。
余談
線型性や不偏性にこだわらないなら、より二乗誤差を最小化する方法もある。
例えば、L1/L2正則化とかをすると推定量にバイアスが入るから不偏ではなるが、分散は小さくなるので予測性能はよくなる。
その場合、係数を要因として解釈できなくなる代わりに予測性能は上がる。
by 友人
L1L2に関してはこのあたり参照。