数量経済分析(16) 標本選択モデル ― 全文和訳

図解で読む原文に忠実な和訳

Spring 2026 ／ Kentaro Kawasaki

標本選択モデルSample Selection Models

［参照］Wooldridge, IE, ch.17.5、Wooldridge 2010, ch.19.6-19.8、Greene, ch.19、Cameron and Trivedi, ch.16.5

OLS の一致性のために必要な仮定のひとつが、無作為抽出（random sampling）（仮定 OLS.2）である。

非無作為な標本を生み出す選択メカニズムは、さまざまに存在する。あるメカニズムは抽出設計（sampling design）に由来し（すなわち、調査が特定の部分標本を対象とする場合）、別のメカニズムは抽出される単位の行動に由来する。後者には、調査項目への無回答（nonresponse）や、社会プログラムからの脱落（attrition）が含まれる。

第1のメカニズムの例：所得が100万円未満の世帯のみが調査される場合。前章で示したとおり、このような場合にはトービット（Tobit）モデルを適用できる。

第2のメカニズムの例：賃金の決定要因を知りたいとしよう（\(y\) は賃金、\(x\) は教育・年齢など）。しかし、賃金は仕事をもつ人についてのみ観測される。仕事をもたない人（たとえば失業者や専業主婦）については、賃金は観測できない。仕事をもつ人だけを用いて OLS を走らせると、推定された係数は偏る。これを標本選択バイアス（sample selection bias）と呼ぶ。

本章では、第2のメカニズムに焦点を当てる。これは Wooldridge (2010, ch.19.6) において「付随的打ち切り（incidental truncation）」²⁶と呼ばれる。

基本枠組みBasic framework

アウトカム（構造）方程式（Outcome / structural equation）：

\[ y = x_1 \beta_1 + u_1 \]

選択（参加）方程式（Selection / participation equation）：

\[ s = \mathbf{1}\!\left[\, x_2 \beta_2 + u_2 > 0 \,\right] \]

\(x_2\) は通常、\(x_1\) のすべてと、選択には影響するがアウトカムには影響しないその他の変数を含む。

\(s\) と \(x\) は常に観測されるが、\(y\) は \(s = 1\) のときにのみ観測される。

構造方程式の OLS 推定量はいつ不偏になるか。選択が \(x_1\) に基づくならば（観測可能要因への選択（selection on observables））、推定量は不偏である。しかし、選択が \(y\) または \(u_1\) と相関するならば（観測不可能要因への選択（selection on unobservables））、推定量は偏る。

賃金方程式（すなわち \(y\) ＝賃金、\(x_1\) は年齢・教育など）を考えよう。標本が大学を卒業した人で構成される場合（「観測可能要因への選択」の状況）、OLS は不偏である。標本が、たとえば賃金が100万円超の人で構成される場合（「観測不可能要因への選択」の状況）、OLS は偏る。

標本選択バイアスを補正する方法には、一段階法（one-step approach）と二段階法（two-step approach）の2つがある。²⁷

原典 P.95 冒頭には、Wooldridge, IE の Figure 17.4 が掲載されている。縦軸は所得（千ドル単位）、横軸は教育年数（educ, in years）で、真の（母集団の）回帰直線と、所得が5万ドル未満の打ち切られた母集団に対する（誤った）回帰直線とを対比する散布図である。
出典：Wooldridge, IE, 2e。

二段階法Two-step approach

\(u_2\) は \(\mathrm{Normal}(0,1)\) に従うと仮定する。これにより、選択方程式はプロビット・モデル（probit model）になる。

さらに、\(E(u_1 \mid u_2) = \gamma u_2\) を仮定する。これは、アウトカム（\(y\)）が選択の意思決定（\(s\)）と相関することを意味する。この仮定は \(u_1\) と \(u_2\) が二変量正規分布（bivariate normal distribution）に従うとき成り立つが、他の分布の下でも成り立つ。

\[ E(y \mid x_1, x_2, s = 1) = x_1 \beta_1 + E(u_1 \mid s = 1) = x_1 \beta_1 + E\!\left(\gamma u_2 \mid u_2 > -x_2 \beta_2 \right) \]

\[ = x_1 \beta_1 + \gamma\,\frac{\phi(-x_2 \beta_2)}{\Phi(-x_2 \beta_2)} \qquad \text{(Greene, Theorem 19.2)} \]

\(\phi(\cdot)\) と \(\Phi(\cdot)\) は、正規分布の確率密度関数（pdf）と累積分布関数（cdf）である。項 \(\phi(\cdot)/\Phi(\cdot)\) は逆ミルズ比（inverse Mills ratio, IMR）と呼ばれる。

この式は、標本選択問題が一種の欠落変数問題（omitted variable problem）であることを含意する（構造方程式において IMR が欠落している）。したがって、率直な対処法は、IMR を構造方程式に加えることである。

この式のもうひとつの含意は、もし \(\gamma = 0\)（すなわち \(s\) が \(u_1\) と相関しない）ならば、OLS が一致推定量を与えるということである。

Step 1：選択パラメータ \(\beta_2\) をプロビットで推定し、IMR \(\left(\equiv \phi(-x_2 \beta_2)/\Phi(-x_2 \beta_2)\right)\) を計算する。

Step 2：\(y\) を \(x_1\) と推定された IMR に対して OLS で回帰する。

この手法は Heckit、またはヘックマンの選択モデル（Heckman's selection model）と呼ばれる。

除外制約（Exclusion restriction）：もし \(x_1 = x_2\) であれば、多重共線性（multicollinearity）が問題になる（\(x_1\) と IMR の相関がかなり高くなりうる）。したがって、選択方程式（\(x_2\)）の説明変数のうち少なくとも1つは、構造方程式（\(x_1\)）から除外されるべきである。そのような変数を見つけることは常に難しい。

一段階法One-step approach

\(u_1\) と \(u_2\) は二変量正規分布に従うと仮定する。

このとき、尤度関数は次のとおりである。

\[ L = \prod_{i=1}^{n} \Big[\, f(y_i \mid s_i = 1)\,\Pr[s_i = 1] \,\Big]^{s_i} \Big[\, \Pr[s_i = 0] \,\Big]^{1 - s_i} = \cdots \ \text{（複雑な形）} \]

パラメータ \(\beta_1\) と \(\beta_2\) は、対数尤度関数を最大化することで得られる。

除外制約が必要である。

一段階法 vs. 二段階法？One-step vs. Two-step?

一段階法は、分布の仮定が正しければより効率的である。しかし、分布の仮定が誤っていれば、推定量は一致性を失う。さらに、計算が実行不能になることもある（反復計算の過程が収束しない）。

二段階法は一段階法よりも効率は劣るが、次の理由から非常に広く用いられている。(1) 実装が単純である。(2) 推定量が要求する分布の仮定がより弱い。(3) 他の分布の仮定を容易に取り込み、検定できる（例：\(E(u_1 \mid u_2) = \gamma_1 u_2 + \gamma_2 u_2^2\)）。

拡張Extensions

上記の例では、\(y\) は連続、\(s\) は二値と仮定した。しかし、他の仮定も可能である。たとえば……

\(y\) も \(s\) も二値（二変量プロビット（bivariate probit））。
\(s\) が連続かつ正（例：労働時間）。この場合、選択方程式はプロビットではなくトービットになる。もちろん、その人が働くか否かのダミー変数を定義し、基本の選択モデルを用いることもできるが、トービットの方がより効率的な結果を生む（Wooldridge 2010, p.816）。
\(y\) がカウント変数（例：\(y\) は通院回数、\(s\) はその人が健康保険をもつか否か）。
第1段階で多項選択（multinomial choice）（例：どの作物を生産するか。米・小麦・野菜？）、第2段階で量の方程式（例：作付面積）。Bourguignon et al (2007) または Kuhfuss et al (2016) を参照。
\(s\) が連続かつ正（例：労働時間）。この場合、選択方程式はプロビットではなくトービットになる。もちろん、その人が働くか否かのダミー変数を定義し、基本の選択モデルを用いることもできるが、トービットの方がより効率的な結果を生む（Wooldridge 2010, p.816）。

内生性Endogeneity

\(x_1\) の要素のひとつが \(u_1\) と相関すると考えられるとしよう。

\(z\) を操作変数（instruments）の行列とする。

Step 1：上と同じ（\(x_2\) を説明変数として選択方程式をプロビットで推定し、予測された逆ミルズ比を計算する）。

Step 2：\(y\) を \(x_1\) と IMR に対して 2SLS で回帰する。ここで操作変数は \(z\) である。

パネルデータPanel data

［参照］Wooldridge 2010, ch.19.9.2。

二値反応モデルと同じ理由から、Mundlak の相関ランダム効果（correlated random effects, CRE）が妥当な戦略となるだろう。

脱落（Attrition）：不均衡パネルデータ（unbalanced panel data）を分析する際には、調査の選択（参加）メカニズムが問題になる。容易に予想されるとおり、参加メカニズムがアウトカム変数または観測不可能要因に依存するならば、通常の推定量は偏った推定値を生む。

参考文献References

Bourguignon, F., Fournier, M., & Gurgand, M. (2007). "Selection bias corrections based on the multinomial logit model: Monte Carlo comparisons." Journal of Economic Surveys, 21(1), 174-205.
Kuhfuss, L., Préget, R., Thoyer, S., & Hanley, N. (2016). "Nudging farmers to enrol land into agri-environmental schemes: the role of a collective bonus." European Review of Agricultural Economics, 43(4), 609-636.

脚注

「付随的（incidental, 偶発的）」と呼ばれるのは、\(y_1\) が、別の変数 \(y_2\) の結果（outcome）として欠落するからである。これに対し、第1のメカニズムには偶発性（偶発的な欠落）がない。抽出が確固たる調査ルールに基づくためである。↩
他の方法も利用可能であり、それらは「処置効果（treatment effects）」の節で学ぶ。↩