Chapter 16 · Part IV 制限従属変数モデル · 原典 P.94–96

標本選択モデル

被説明変数が観測されるかどうかが選択的に決まると、観測されたデータだけで OLS を走らせた推定量は偏る ― これを標本選択バイアスと呼ぶ。本章では構造式と選択式からなる基本枠組みを示し、逆ミルズ比を用いたヘックマンの2段階法（Heckit）と一段階法（FIML）を対比しながら、拡張・内生性・パネルへの展開までを扱う。

標本選択バイアスヘックマン逆ミルズ比 2段階法 FIML

川崎賢太郎（東京大学大学院農学生命科学研究科）原典 P.94–96 Sample Selection Models

図解で読む原文に忠実な和訳

Contents

01. 標本選択の問題 ― 2つの選択機構
02. 基本枠組み ― 構造式と選択式
03. OLS はいつ不偏か ― 観測可能/不可能への選択
04. 二段階法 ― 逆ミルズ比とヘックマン
05. 一段階法 ― 二変量正規と尤度
06. 一段階法 vs 二段階法
07. 拡張 ― y と s の型を変える
08. 内生性 ― 2SLS との接合
09. パネルデータ ― CRE と脱落
10. 参考文献

SECTION 01

標本選択の問題 ― 2つの選択機構

OLS が一致性をもつための必要条件のひとつは無作為抽出（random sampling, 仮定 OLS.2）である。ところが、標本を非無作為にしてしまう選択機構（selection mechanism）は多種多様に存在する。

非無作為標本を生む選択機構には、おおまかに2系統がある。ひとつは 抽出設計（sampling design）に由来するもの（すなわち、調査が特定の部分標本だけを対象とする場合）。もうひとつは 抽出される単位の行動に由来するものであり、調査項目への無回答（nonresponse）や、社会プログラムからの脱落（attrition）などが含まれる。

第1の機構 ― 抽出設計による

例：所得が100万円未満の世帯だけが調査される。
前章で見たとおり、このような場合にはトービット（Tobit）モデルを適用できる。
調査が確固たるルールに基づくため、そこに「偶発性（偶発的な欠落）」はない。

第2の機構 ― 単位の行動による

例：賃金 \(y\) の決定要因を知りたい（\(x\) は教育・年齢など）。
だが賃金は仕事をもつ人についてのみ観測される。失業者や専業主婦など職をもたない人の賃金は観測できない。
職のある人だけで OLS を走らせると、推定係数は偏る。これを標本選択バイアスと呼ぶ。

本章で焦点を当てるのは第2の機構である。Wooldridge (2010, ch.19.6) では、これを 「付随的打ち切り（incidental truncation, 偶発的打ち切り）」 と呼ぶ。

Professor Note ― 「付随的（incidental / 偶発的）」の意味

「付随的（incidental, 偶発的）」と呼ばれるのは、\(y_1\) が欠落するのが 別の変数 \(y_2\) の結果（outcome）として生じるからである。これに対し、第1の機構には偶発性（偶発的な欠落）がない ― 抽出が確固たる調査ルールに基づいているためである。

原典 P.94 脚注26。

[Reference] Wooldridge, IE, ch.17.5, Wooldridge 2010, ch.19.6-19.8, Greene, ch.19, Cameron and Trivedi, ch.16.5

本章の主たる参照文献。出典：原典 P.94 冒頭。

SECTION 02

基本枠組み ― 構造式と選択式

標本選択モデルは、関心の対象であるアウトカム方程式（構造式）と、観測されるか否かを決める選択方程式（参加式）の2本の式から成り立つ。

アウトカム
（構造式）

\[ y = \mathbf{x}_1 \boldsymbol{\beta}_1 + u_1 \]

選択
（参加式）

\[ s = \mathbf{1}\!\left[\, \mathbf{x}_2 \boldsymbol{\beta}_2 + u_2 > 0 \,\right] \]

ここで \(s\) は、アウトカム \(y\) が観測されるかどうかを示す選択指標（二値）であり、\(\mathbf{1}[\cdot]\) は括弧内が真のとき 1、偽のとき 0 をとる指示関数である。

記号	意味
\(y\)	アウトカム（関心のある被説明変数。例：賃金）
\(s\)	選択指標。\(s = 1\) のとき \(y\) が観測され、\(s = 0\) のとき観測されない
\(\mathbf{x}_1\)	構造式の説明変数
\(\mathbf{x}_2\)	選択式の説明変数。通常は \(\mathbf{x}_1\) をすべて含み、さらに「選択には影響するがアウトカムには影響しない」変数を含む
\(u_1, u_2\)	それぞれ構造式・選択式の誤差項

観測のルール。\(s\) と \(\mathbf{x}\) は常に観測される。しかし \(y\) は \(s = 1\) のときだけ観測される。この「\(y\) の選択的な欠落」こそが、本章で扱う問題の核心である。

SECTION 03

OLS はいつ不偏か ― 観測可能/不可能への選択

構造式を OLS で推定したとき、その推定量はいつ不偏になるのか。鍵は選択が「何に基づいて」起きているかである。

観測可能要因への選択（不偏）

選択が \(\mathbf{x}_1\) に基づく場合（selection on observables）、OLS 推定量は不偏である。
例：賃金式（\(y\)＝賃金、\(\mathbf{x}_1\)＝年齢・教育など）で、標本が大学卒業者から構成される場合。OLS は不偏。

観測不可能要因への選択（バイアス）

選択が \(y\) または \(u_1\) と相関する場合（selection on unobservables）、OLS 推定量は偏る。
例：標本が賃金が（たとえば）100万円超の人から構成される場合。OLS は偏る。

標本選択バイアスを補正するには、大きく 一段階法（one-step approach） と 二段階法（two-step approach） の2通りの方法がある。なお、これら以外の方法も利用可能であり、それらは後の「処置効果（treatment effects）」の章で学ぶ。

Professor Note ― 補正手法は他にもある

本章で扱う一段階法・二段階法のほかにも補正手法は存在し、それらは「処置効果」の節で学ぶことになる。

原典 P.94 脚注27。

SECTION 04

二段階法 ― 逆ミルズ比とヘックマン

二段階法の出発点は2つの分布的仮定である。これらの下で、選択された標本における \(y\) の条件付き期待値に逆ミルズ比（inverse Mills ratio, IMR）が現れる。

Assume that \(u_2\) follows Normal(0,1) so that selection equation is a probit model. In addition, assume that \(E(u_1 \mid u_2) = \gamma u_2\). This implies that outcome (\(y\)) is correlated with selection decision (\(s\)). This assumption holds when \(u_1\) and \(u_2\) follows bivariate normal distribution, but it also holds under other distributions.

\(u_2\) は標準正規分布 \(\mathrm{Normal}(0,1)\) に従うと仮定する。これにより選択方程式はプロビット・モデルになる。加えて \(E(u_1 \mid u_2) = \gamma u_2\) を仮定する。これは、アウトカム \(y\) が選択の意思決定 \(s\) と相関することを意味する。この仮定は \(u_1\) と \(u_2\) が二変量正規分布に従うとき成り立つが、他の分布の下でも成り立ちうる。

出典：原典 P.95。図出典：Wooldridge, IE, 2e。

条件付き期待値の導出

選択された標本（\(s = 1\)）における \(y\) の条件付き期待値を求めると、次のように展開できる。

\[ E(y \mid \mathbf{x}_1, \mathbf{x}_2, s = 1) = \mathbf{x}_1 \boldsymbol{\beta}_1 + E(u_1 \mid s = 1) = \mathbf{x}_1 \boldsymbol{\beta}_1 + E\!\left(\gamma u_2 \mid u_2 > -\mathbf{x}_2 \boldsymbol{\beta}_2 \right) \]

\[ = \mathbf{x}_1 \boldsymbol{\beta}_1 + \gamma\,\frac{\phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}{\Phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)} \qquad \text{(Greene, Theorem 19.2)} \]

\(\phi(\cdot)\) と \(\Phi(\cdot)\) は、それぞれ正規分布の確率密度関数（pdf）と累積分布関数（cdf）である。

項 \(\dfrac{\phi(\cdot)}{\Phi(\cdot)}\) が 逆ミルズ比（inverse Mills ratio, IMR） である。すなわち本問題では \(\lambda \equiv \dfrac{\phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}{\Phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}\)。

2つの含意 ― 欠落変数問題と一致性条件

標本選択は一種の欠落変数問題である

この式は、標本選択問題が欠落変数問題（omitted variable problem）の一種であることを示している ― 構造式から IMR が欠落しているのである。したがって、率直な対処法は IMR を構造式に加えることに尽きる。

\(\gamma = 0\) なら OLS は一致推定量

もうひとつの含意は、もし \(\gamma = 0\)（すなわち \(s\) が \(u_1\) と相関しない）ならば、OLS が一致推定量を与えるということである。

推定の手順（Heckit）

Step 1 ― 選択パラメータをプロビットで推定し、IMR を計算する

選択パラメータ \(\boldsymbol{\beta}_2\) をプロビットで推定し、逆ミルズ比 \(\left(\equiv \dfrac{\phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}{\Phi(-\mathbf{x}_2 \boldsymbol{\beta}_2)}\right)\) を計算する。

Step 2 ― 主方程式を OLS で推定する

\(y\) を \(\mathbf{x}_1\) と推定された IMR に対して OLS 回帰する。

この手法は Heckit、または ヘックマンの選択モデル（Heckman's selection model） と呼ばれる。

除外制約（Exclusion restriction）

もし \(\mathbf{x}_1 = \mathbf{x}_2\) であれば、多重共線性（multicollinearity）が問題になる（\(\mathbf{x}_1\) と IMR の相関がかなり高くなりうるため）。したがって、選択方程式の説明変数 \(\mathbf{x}_2\) のうち少なくとも1つは、構造式 \(\mathbf{x}_1\) から除外されるべきである。そのような変数を見つけることは常に困難を伴う。

SECTION 05

一段階法 ― 二変量正規と尤度

一段階法は、\(u_1\) と \(u_2\) が二変量正規分布に従うと仮定したうえで、尤度関数を直接最大化する（完全情報最尤法, FIML）。

\(u_1\) と \(u_2\) が二変量正規分布（bivariate normal distribution）に従うと仮定する。このとき、尤度関数は次の形で与えられる。

\[ L = \prod_{i=1}^{n} \Big\{\, f(y_i \mid s_i = 1)\cdot \Pr[s_i = 1] \,\Big\}^{s_i} \Big\{\, \Pr[s_i = 0] \,\Big\}^{1 - s_i} = \cdots \text{（複雑な形）} \]

パラメータ \(\boldsymbol{\beta}_1\) と \(\boldsymbol{\beta}_2\) は、対数尤度関数を最大化することで得られる。

一段階法においても、除外制約（exclusion restriction）が必要である。

SECTION 06

一段階法 vs 二段階法

分布の仮定が正しければ一段階法の方が効率的。だが現実には、仮定の頑健性と実装の容易さから二段階法が広く使われる。

一段階法（One-step / FIML）

分布の仮定が正しければ、より効率的である。
しかし分布の仮定が誤っていると、推定量は一致性を失う。
さらに、計算が実行不能になることがある（反復計算が収束しない）。

二段階法（Two-step / Heckit）

一段階法より効率は劣るが、次の理由で非常に広く使われる。
(1) 実装が単純である。
(2) 推定量が要求する分布の仮定がより弱い。
(3) 他の分布の仮定を容易に取り込み、検定できる（例：\(E(u_1 \mid u_2) = \gamma_1 u_2 + \gamma_2 u_2^2\)）。

SECTION 07

拡張 ― y と s の型を変える

上記の例では \(y\) は連続、\(s\) は二値と仮定した。だが他の仮定の組み合わせも可能であり、さまざまな拡張モデルが存在する。

\(y\) も \(s\) も二値 ― 二変量プロビット（bivariate probit）

アウトカムと選択がともに二値の場合。

\(s\) が連続かつ正 ― 選択式はトービット

例：労働時間（working hours）。この場合、選択方程式はプロビットではなくトービットになる。もちろん「働くか否か」のダミー変数を定義して基本の選択モデルを使うこともできるが、トービットの方がより効率的な結果を生む（Wooldridge 2010, p.816）。

\(y\) がカウント変数

例：\(y\) は通院回数（# doctor visits）、\(s\) はその人が健康保険をもつか否か。

第1段階が多項選択 ― 第2段階が量の方程式

例：第1段階で「どの作物を生産するか（米・小麦・野菜）」という多項選択（multinomial choice）、第2段階で量の方程式（例：作付面積 acreage）。Bourguignon et al (2007) または Kuhfuss et al (2016) を参照。

原典 P.96 では「\(s\) が連続かつ正（労働時間）→ 選択式はトービット」の項目が2度繰り返し記載されている（同一内容）。上記 B にまとめて掲載した。詳細は原典 P.96 を参照。

SECTION 08

内生性 ― 2SLS との接合

構造式の説明変数 \(\mathbf{x}_1\) の一部が \(u_1\) と相関する（内生性）と考えられる場合、第2段階を 2SLS に置き換えることで対応する。

\(\mathbf{x}_1\) の要素のひとつが \(u_1\) と相関すると考えられるとする。\(\mathbf{z}\) を操作変数（instruments）の行列とする。

Step 1 ― 上と同じ

\(\mathbf{x}_2\) を説明変数として選択方程式をプロビットで推定し、予測された逆ミルズ比を計算する。

Step 2 ― 2SLS で回帰する

\(y\) を \(\mathbf{x}_1\) と IMR に対して 2SLS で回帰する。操作変数は \(\mathbf{z}\) である。

SECTION 09

パネルデータ ― CRE と脱落

パネルデータでは、Mundlak の相関ランダム効果（CRE）が妥当な戦略となる。一方、不均衡パネルでは脱落（attrition）という選択機構が問題になる。

二値反応モデルと同じ理由から、Mundlak の相関ランダム効果（correlated random effects, CRE） が妥当な戦略になりうる。

脱落（Attrition）。不均衡パネルデータ（unbalanced panel data）を分析する際には、調査の選択（参加）機構が問題になる。容易に予想されるとおり、参加機構がアウトカム変数または観測不可能要因に依存するならば、通常の推定量は偏った推定値を生む。

Reference

パネルデータにおける標本選択については、Wooldridge 2010, ch.19.9.2 を参照。

原典 P.96。

SECTION 10

参考文献（References）

Bourguignon, F., Fournier, M., & Gurgand, M. (2007). "Selection bias corrections based on the multinomial logit model: Monte Carlo comparisons." Journal of Economic Surveys, 21(1), 174-205.
Kuhfuss, L., Préget, R., Thoyer, S., & Hanley, N. (2016). "Nudging farmers to enrol land into agri-environmental schemes: the role of a collective bonus." European Review of Agricultural Economics, 43(4), 609-636.

本章で言及された主要文献。包括的な参照は冒頭 [Reference]（Wooldridge IE ch.17.5／Wooldridge 2010 ch.19.6-19.8／Greene ch.19／Cameron and Trivedi ch.16.5）を参照。出典：原典 P.96。