SECTION 01
標本選択の問題 ― 2つの選択機構
OLS が一致性をもつための必要条件のひとつは 無作為抽出(random sampling, 仮定 OLS.2) である。
ところが、標本を非無作為にしてしまう 選択機構(selection mechanism) は多種多様に存在する。
非無作為標本を生む選択機構には、おおまかに2系統がある。ひとつは 抽出設計(sampling design)に由来するもの (すなわち、調査が特定の部分標本だけを対象とする場合)。もうひとつは 抽出される単位の行動に由来するもの であり、調査項目への無回答(nonresponse)や、社会プログラムからの脱落(attrition)などが含まれる。
第1の機構 ― 抽出設計による
例:所得が100万円未満の世帯だけ が調査される。
前章で見たとおり、このような場合にはトービット(Tobit)モデル を適用できる。
調査が確固たるルールに基づくため、そこに「偶発性(偶発的な欠落)」はない。
第2の機構 ― 単位の行動による
例:賃金 \(y\) の決定要因を知りたい(\(x\) は教育・年齢など)。
だが賃金は仕事をもつ人についてのみ観測される 。失業者や専業主婦など職をもたない人の賃金は観測できない。
職のある人だけで OLS を走らせると、推定係数は偏る 。これを標本選択バイアスと呼ぶ。
本章で焦点を当てるのは第2の機構 である。Wooldridge (2010, ch.19.6) では、これを 「付随的打ち切り(incidental truncation, 偶発的打ち切り)」 と呼ぶ。
Professor Note ― 「付随的(incidental / 偶発的)」の意味
「付随的(incidental, 偶発的)」と呼ばれるのは、\(y_1\) が欠落するのが 別の変数 \(y_2\) の結果(outcome)として生じる からである。これに対し、第1の機構には偶発性(偶発的な欠落)がない ― 抽出が確固たる調査ルールに基づいているためである。
原典 P.94 脚注26。
[Reference] Wooldridge, IE, ch.17.5, Wooldridge 2010, ch.19.6-19.8, Greene, ch.19, Cameron and Trivedi, ch.16.5
本章の主たる参照文献。出典:原典 P.94 冒頭。
SECTION 02
基本枠組み ― 構造式と選択式
標本選択モデルは、関心の対象である アウトカム方程式(構造式) と、観測されるか否かを決める 選択方程式(参加式) の2本の式から成り立つ。
アウトカム (構造式)
\[ y = \mathbf{x}_1 \boldsymbol{\beta}_1 + u_1 \]
選択 (参加式)
\[ s = \mathbf{1}\!\left[\, \mathbf{x}_2 \boldsymbol{\beta}_2 + u_2 > 0 \,\right] \]
ここで \(s\) は、アウトカム \(y\) が観測されるかどうかを示す選択指標(二値) であり、\(\mathbf{1}[\cdot]\) は括弧内が真のとき 1、偽のとき 0 をとる指示関数である。
記号 意味
\(y\) アウトカム(関心のある被説明変数。例:賃金)
\(s\) 選択指標。\(s = 1\) のとき \(y\) が観測され、\(s = 0\) のとき観測されない
\(\mathbf{x}_1\) 構造式の説明変数
\(\mathbf{x}_2\) 選択式の説明変数。通常は \(\mathbf{x}_1\) をすべて含み 、さらに「選択には影響するがアウトカムには影響しない」変数を含む
\(u_1, u_2\) それぞれ構造式・選択式の誤差項
観測のルール。 \(s\) と \(\mathbf{x}\) は常に観測される 。しかし \(y\) は \(s = 1\) のときだけ観測される 。この「\(y\) の選択的な欠落」こそが、本章で扱う問題の核心である。
SECTION 03
OLS はいつ不偏か ― 観測可能/不可能への選択
構造式を OLS で推定したとき、その推定量はいつ不偏になるのか。鍵は 選択が「何に基づいて」起きているか である。
観測可能要因への選択(不偏)
選択が \(\mathbf{x}_1\) に基づく場合(selection on observables )、OLS 推定量は不偏 である。
例:賃金式(\(y\)=賃金、\(\mathbf{x}_1\)=年齢・教育など)で、標本が大学卒業者 から構成される場合。OLS は不偏。
観測不可能要因への選択(バイアス)
選択が \(y\) または \(u_1\) と相関する場合(selection on unobservables )、OLS 推定量は偏る 。
例:標本が賃金が(たとえば)100万円超の人 から構成される場合。OLS は偏る。
標本選択バイアスを補正するには、大きく 一段階法(one-step approach) と 二段階法(two-step approach) の2通りの方法がある。なお、これら以外の方法も利用可能であり、それらは後の「処置効果(treatment effects)」の章で学ぶ。
Professor Note ― 補正手法は他にもある
本章で扱う一段階法・二段階法のほかにも補正手法は存在し、それらは「処置効果」の節で学ぶことになる。
原典 P.94 脚注27。
SECTION 04
二段階法 ― 逆ミルズ比とヘックマン
二段階法の出発点は2つの分布的仮定である。これらの下で、選択された標本における \(y\) の条件付き期待値に 逆ミルズ比(inverse Mills ratio, IMR) が現れる。
Assume that \(u_2\) follows Normal(0,1) so that selection equation is a probit model. In addition, assume that \(E(u_1 \mid u_2) = \gamma u_2\). This implies that outcome (\(y\)) is correlated with selection decision (\(s\)). This assumption holds when \(u_1\) and \(u_2\) follows bivariate normal distribution, but it also holds under other distributions.
\(u_2\) は標準正規分布 \(\mathrm{Normal}(0,1)\) に従うと仮定する。これにより選択方程式はプロビット・モデル になる。加えて \(E(u_1 \mid u_2) = \gamma u_2\) を仮定する。これは、アウトカム \(y\) が選択の意思決定 \(s\) と相関する ことを意味する。この仮定は \(u_1\) と \(u_2\) が二変量正規分布 に従うとき成り立つが、他の分布の下でも成り立ちうる。
出典:原典 P.95。図出典:Wooldridge, IE, 2e。
条件付き期待値の導出
選択された標本(\(s = 1\))における \(y\) の条件付き期待値を求めると、次のように展開できる。
\[ E(y \mid \mathbf{x}_1, \mathbf{x}_2, s = 1) = \mathbf{x}_1 \boldsymbol{\beta}_1 + E(u_1 \mid s = 1) = \mathbf{x}_1 \boldsymbol{\beta}_1 + E\!\left(\gamma u_2 \mid u_2 > -\mathbf{x}_2 \boldsymbol{\beta}_2 \right) \]
\[ = \mathbf{x}_1 \boldsymbol{\beta}_1 + \gamma\,\frac{\phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}{\Phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)} \qquad \text{(Greene, Theorem 19.2)} \]
\(\phi(\cdot)\) と \(\Phi(\cdot)\) は、それぞれ正規分布の確率密度関数(pdf)と累積分布関数(cdf)である。
項 \(\dfrac{\phi(\cdot)}{\Phi(\cdot)}\) が 逆ミルズ比(inverse Mills ratio, IMR) である。すなわち本問題では \(\lambda \equiv \dfrac{\phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}{\Phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}\)。
2つの含意 ― 欠落変数問題と一致性条件
1
標本選択は一種の欠落変数問題である
この式は、標本選択問題が欠落変数問題(omitted variable problem)の一種 であることを示している ― 構造式から IMR が欠落しているのである。したがって、率直な対処法は IMR を構造式に加える ことに尽きる。
2
\(\gamma = 0\) なら OLS は一致推定量
もうひとつの含意は、もし \(\gamma = 0\)(すなわち \(s\) が \(u_1\) と相関しない)ならば、OLS が一致推定量を与える ということである。
推定の手順(Heckit)
1
Step 1 ― 選択パラメータをプロビットで推定し、IMR を計算する
選択パラメータ \(\boldsymbol{\beta}_2\) をプロビット で推定し、逆ミルズ比 \(\left(\equiv \dfrac{\phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}{\Phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}\right)\) を計算する。
2
Step 2 ― 主方程式を OLS で推定する
\(y\) を \(\mathbf{x}_1\) と推定された IMR に対して OLS 回帰する。
この手法は Heckit 、または ヘックマンの選択モデル(Heckman's selection model) と呼ばれる。
除外制約(Exclusion restriction)
もし \(\mathbf{x}_1 = \mathbf{x}_2\) であれば、多重共線性(multicollinearity)が問題 になる(\(\mathbf{x}_1\) と IMR の相関がかなり高くなりうるため)。したがって、選択方程式の説明変数 \(\mathbf{x}_2\) のうち少なくとも1つは、構造式 \(\mathbf{x}_1\) から除外 されるべきである。そのような変数を見つけることは常に困難を伴う。
SECTION 05
一段階法 ― 二変量正規と尤度
一段階法は、\(u_1\) と \(u_2\) が二変量正規分布に従う と仮定したうえで、尤度関数を直接最大化する(完全情報最尤法, FIML)。
\(u_1\) と \(u_2\) が二変量正規分布(bivariate normal distribution)に従うと仮定する。このとき、尤度関数は次の形で与えられる。
\[ L = \prod_{i=1}^{n} \Big\{\, f(y_i \mid s_i = 1)\cdot \Pr[s_i = 1] \,\Big\}^{s_i} \Big\{\, \Pr[s_i = 0] \,\Big\}^{1 - s_i} = \cdots \text{(複雑な形)} \]
パラメータ \(\boldsymbol{\beta}_1\) と \(\boldsymbol{\beta}_2\) は、対数尤度関数を最大化 することで得られる。
一段階法においても、除外制約(exclusion restriction)が必要 である。
SECTION 06
一段階法 vs 二段階法
分布の仮定が正しければ 一段階法の方が効率的 。だが現実には、仮定の頑健性と実装の容易さ から二段階法が広く使われる。
一段階法(One-step / FIML)
分布の仮定が正しければ、より効率的 である。
しかし分布の仮定が誤っていると、推定量は一致性を失う 。
さらに、計算が実行不能になることがある (反復計算が収束しない)。
二段階法(Two-step / Heckit)
一段階法より効率は劣る が、次の理由で非常に広く使われる。
(1) 実装が単純 である。
(2) 推定量が要求する分布の仮定がより弱い 。
(3) 他の分布の仮定を容易に取り込み、検定できる(例:\(E(u_1 \mid u_2) = \gamma_1 u_2 + \gamma_2 u_2^2\))。
SECTION 07
拡張 ― y と s の型を変える
上記の例では \(y\) は連続、\(s\) は二値と仮定した。だが 他の仮定の組み合わせ も可能であり、さまざまな拡張モデルが存在する。
A
\(y\) も \(s\) も二値 ― 二変量プロビット(bivariate probit)
アウトカムと選択がともに二値の場合。
B
\(s\) が連続かつ正 ― 選択式はトービット
例:労働時間(working hours)。この場合、選択方程式はプロビットではなくトービット になる。もちろん「働くか否か」のダミー変数を定義して基本の選択モデルを使うこともできるが、トービットの方がより効率的な結果を生む (Wooldridge 2010, p.816)。
C
\(y\) がカウント変数
例:\(y\) は通院回数(# doctor visits)、\(s\) はその人が健康保険をもつか否か。
D
第1段階が多項選択 ― 第2段階が量の方程式
例:第1段階で「どの作物を生産するか(米・小麦・野菜)」という多項選択(multinomial choice)、第2段階で量の方程式(例:作付面積 acreage)。Bourguignon et al (2007) または Kuhfuss et al (2016) を参照。
原典 P.96 では「\(s\) が連続かつ正(労働時間)→ 選択式はトービット」の項目が2度繰り返し記載されている(同一内容)。上記 B にまとめて掲載した。詳細は原典 P.96 を参照。
SECTION 08
内生性 ― 2SLS との接合
構造式の説明変数 \(\mathbf{x}_1\) の一部が \(u_1\) と相関する(内生性)と考えられる場合、第2段階を 2SLS に置き換えることで対応する。
\(\mathbf{x}_1\) の要素のひとつが \(u_1\) と相関すると考えられるとする。\(\mathbf{z}\) を操作変数(instruments)の行列とする。
1
Step 1 ― 上と同じ
\(\mathbf{x}_2\) を説明変数として選択方程式をプロビット で推定し、予測された逆ミルズ比を計算する。
2
Step 2 ― 2SLS で回帰する
\(y\) を \(\mathbf{x}_1\) と IMR に対して 2SLS で回帰する。操作変数は \(\mathbf{z}\) である。
SECTION 09
パネルデータ ― CRE と脱落
パネルデータでは、Mundlak の相関ランダム効果(CRE) が妥当な戦略となる。一方、不均衡パネルでは 脱落(attrition) という選択機構が問題になる。
二値反応モデルと同じ理由から、Mundlak の相関ランダム効果(correlated random effects, CRE) が妥当な戦略になりうる。
脱落(Attrition)。 不均衡パネルデータ(unbalanced panel data)を分析する際には、調査の選択(参加)機構 が問題になる。容易に予想されるとおり、参加機構がアウトカム変数または観測不可能要因に依存するならば、通常の推定量は偏った推定値 を生む。
Reference
パネルデータにおける標本選択については、Wooldridge 2010, ch.19.9.2 を参照。
原典 P.96。
SECTION 10
参考文献(References)
Bourguignon, F., Fournier, M., & Gurgand, M. (2007). "Selection bias corrections based on the multinomial logit model: Monte Carlo comparisons." Journal of Economic Surveys , 21(1), 174-205.
Kuhfuss, L., Préget, R., Thoyer, S., & Hanley, N. (2016). "Nudging farmers to enrol land into agri-environmental schemes: the role of a collective bonus." European Review of Agricultural Economics , 43(4), 609-636.
本章で言及された主要文献。包括的な参照は冒頭 [Reference](Wooldridge IE ch.17.5/Wooldridge 2010 ch.19.6-19.8/Greene ch.19/Cameron and Trivedi ch.16.5)を参照。出典:原典 P.96。
Chapter 15
その他の制限従属変数モデル
Chapter 17
モデル選択