実証分析のための計量経済学メモ②（プロビットモデル・トービットモデル・ヘーキットモデル）

概要

離散選択モデル

ダミー変数を用いた推定モデルを 離散選択モデル という。
ダミー変数を被説明変数として1となる確率を、観測値を説明変数としてOLSで推定したものを 線形確率モデル という。

プロビットモデル

線形確率モデルは被説明変数が0/1なので 誤差項の分散が説明変数の大きさに応じて変わるので不均一分散 が生じる。
つまり、このOLSはBLUEの持つ特性のうち、 効率性がなくなる = 均一分散という仮定 が成立しないと、最小二乗法推定量の分散は最小でなくなる = 推定量のばらつきが大きくなる。
OLSで推定した線形確率モデルの問題点として

1.誤差項の分散が不均一
2.予測確率値がマイナスだったり100%を超えることがある→解釈ができない

という問題がある。
1.は

a.不均一分散が生じている可能性を考慮→不均一分散頑健推定量を算出
b.誤差項の分散が観測値によってどう異なるかという構造がわかっている→その構造を推定に織り込んだ最小二乗法である一般化最小二乗法(GLS)か加重最小二乗法(WLS)

という対策が可能。

ただし、1.を解決しても2.は残ったまま。
2.を対策するためにこの線形確率モデルを0から1になるように変換した非線形確率モデルにする。
このとき使う関数が正規分布関数だと プロビットモデル （ロジスティク分布関数だと ロジットモデル ）という。
また、0/1の2値ではなく複数の離散値の場合は、値に順序がある場合は プロビットモデル（順序ロジットモデル） 、ない場合は *多項プロビットモデル（ロジットモデル）** を使う。

潜在変数

人々は効用に基いて行動をするが、効用そのものはデータとして直接観測できない。代わりに、効用に基いて決定された行動（観測変数）を用いて、
観測されない変数（潜在線）を間接的に把握しようとする。
プロビットモデルは潜在的な要因（潜在変数）は使わずに、選択をおこなった行動（観測変数）を用いて効用を推定する。

潜在変数:Y*、観測変数Yとすると、

Y* = a + bX(i) + u(i) 
Y = 1→ Y* >= m
Y = 0 →Y* < m

のように捉えられる。
そのため、プロビットモデルは「観測変数Yが1となる確率を推定」するものだが、「潜在変数Y*= a + X + u 」を推定するという解釈もできる。

トービットモデル

トービットモデルは、潜在変数が一定水準を上回るとそのまま観測され、一定水準より下のときは0など固定値に変換されて観測される変数を被説明変数にする場合に適用する。例えば、サッカー選手の出場時間Yと、潜在能力をYとする。
潜在能力と出場時間は比例すると考えられるが、潜在能力がある水準以下だと出場できない(Y=0)となる。
水準以下のYは色々な数値があるだろうがまとめてY=0となる。
つまり、

Y* = a + bX(i) + u(i) のとき、
Y* > c → Y = Y*
Y* <= c → Y = 0

ヘーキットモデル

ヘーキットモデルは、トービットと似ているが、そもそも条件を満たさないと何も観測がされない場合に適用する。
被説明変数が部分的にしか観測されないため、サンプルセレクションともいう。
例えば、先程のサッカー選手の例でいえば、そもそもある一定以上の潜在能力にならないとサッカー選手とならない（＝サッカー選手として観測されない）。
他にも例えば、高齢者の賃金は、そもそも 働いている 高齢者内でしか賃金が観測されないが、働いていない高齢者もこの世にはいる。
そのため、そもそも働いているかどうかのダミー変数を用いて二段階で推定する。

働いているダミー変数Mとすると、

M* = α + βZ(i) + v(i) として、
M* > m→M=1
M* > m→M=0

で推定したMを用いて、

Y* = a + bXi(i) + u(i) として、
M = 1 → Y = Y*
M = 0 → Y = 未観測

として推定することができる。

まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな？といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎