数量経済分析(13) 二値選択モデル ― 全文和訳

図解で読む原文に忠実な和訳

Spring 2026 ／ Kentaro Kawasaki

［参考文献］Wooldridge, IE, ch.17; Wooldridge 2010, ch.15

本章では、被説明変数が二値（binary, 二分的 dichotomous）である場合、すなわち \(y = 0\) または \(1\) である場合の枠組みを説明する。

例：

\(y\)：就労するか否か、\(x\)：年齢、性別、配偶関係、など
\(y\)：農地を借りるか否か、\(x\)：農場規模、農家の年齢、地代、など

OLSOLS

\(y\) が二値であるとき、次のモデルを OLS で推定すると何が起こるか。

\[ y_i = x_i\beta + u_i \]

この場合、予測値は \(y\) が \(1\) となる確率として解釈できる。

\[ y_i = x_i\beta + u_i \;\Leftrightarrow\; E(y_i) = x_i\beta \;\Leftrightarrow\; \mathrm{Prob}(y = 1) = x_i\beta \]

これは \(E(y_i) = 1 \cdot \mathrm{Prob}(y = 1) + 0 \cdot \mathrm{Prob}(y = 0)\) が成り立つためである。

この理由により、二値のアウトカムに OLS を適用することを線形確率モデル（linear probability model, LPM）と呼ぶ。

欠点：

予測確率が \([0,1]\) の外に出ることがある。
偏微分効果（限界効果）が常に \(\beta\) になる。しかし本来は、確率が \(0\) または \(1\) の近傍にあるときには \(0\) に近づくべきである。
不均一分散（heteroskedasticity）：分散は、確率が \(0\) または \(1\) の近傍にあるときには \(0\) に近づくべきである。（したがって、頑健標準誤差（robust standard errors）を用いるべきである。予測されたウェイトが負になることがあるため、GLS は常に適用できるとは限らない。）

プロビットモデルとロジットモデルProbit and Logit model

そこで、アウトカム変数の二値的な性質を明示的に考慮する新たな手法が必要となる。

二値の応答 \(y\) が、連続的で任意の値をとりうる潜在変数（latent variable） \(y_i^{*}\) に依存すると仮定する。\(y_i^{*} > 0\) のとき \(y_i = 1\)、それ以外のとき \(0\) とする。この関係は次のように書ける。

\[ y_i = \mathbf{1}[\,y_i^{*} > 0\,] \]

\(y_i\) は観察可能であるが、\(y_i^{*}\) は観察できない（潜在変数）ことに注意したい。

例：

\(y\) が就労するか否かを表すとき、\(y^{*}\) は就労意欲（willingness to work, どれだけ働きたいか）と解釈できる。就労意欲が \(0\) より大きければその人は就労を選び、そうでなければ就労しないことを選ぶ。

\(y_i^{*}\) は次のように \(x\) によって決まると仮定する。

\[ y_i^{*} = x_i\beta + u_i \]

\(u\) の分布は \(0\) のまわりで対称（symmetric about zero）であると仮定し、\(F\) を \(u\) の累積分布関数（cdf, cumulative distribution function）とする。すると、

\[ P(y = 1) = P(y^{*} > 0) = P(x\beta + u > 0) = P(u > -x\beta) = 1 - P(u \le -x\beta) = 1 - F(-x\beta) = F(x\beta) \]

\[ P(y = 0) = 1 - P(y = 1) = 1 - F(x\beta) \]

プロビットモデル（probit model）は標準正規分布を仮定する：\(F(x\beta) = \Phi(x\beta)\)（＝複雑な形をしている……）。

ロジットモデル（logit model）はロジスティック分布を仮定する：

\[ F(x\beta) = \Lambda(x\beta) = \frac{\exp(x\beta)}{1 + \exp(x\beta)} \]

まとめると、

\[ P(y = Y) = [F(x\beta)]^{Y}\,[1 - F(x\beta)]^{1-Y} \]

いま、\(N\) 個のサンプルがあり、\(y_1 = Y_1, y_2 = Y_2, \ldots, y_N = Y_N\)（\(Y_i = 0\) または \(1\)）を観察するとしよう。

このような状況を観察する確率（尤度（likelihood））は次のように書ける。

\[ L \equiv P(y_1 = Y_1, y_2 = Y_2, \ldots, y_N = Y_N) = \prod_{i}[F(x_i\beta)]^{y_i}\,[1 - F(x_i\beta)]^{1-y_i} \]

対数をとると、最大化問題が簡単になる。

\[ \ln L = \sum_{i}\Big\{\, y_i \ln F(x_i\beta) + (1 - y_i)\ln[1 - F(x_i\beta)] \,\Big\} \]

これを対数尤度関数（log-likelihood function）と呼ぶ。

\(y\) と \(x\) の実際のデータを代入すると、対数尤度（\(\ln L\)）の値は \(\beta\) のみに依存する。そこで、この状況を現実に観察しているのだから、\(\ln L\) を最大化するように \(\beta\) を選ぶ。

対数尤度関数は非線形であるため、解は閉じた形（closed form）では得られない。最大化には反復法（iterative method）が必要である。

この推定法が最小二乗法とはかなり異なることに注意したい。まず誤差項の分布を特定し、（\(x_i\) を条件として）実際のアウトカム \(y_1 = Y_1, y_2 = Y_2, \ldots, y_N = Y_N\) を観察する尤度（確率）を導出し、そのうえでこの確率を最大化するようにパラメータを選ぶ。これを最尤（maximum likelihood, ML）推定量と呼ぶ。ML は、二値選択モデルのような非線形モデルの推定に広く用いられる。

プロビット対ロジットProbit vs Logit

ロジットとプロビットのどちらのモデルを使うべきか。

理論的には、その答えはデータ生成過程（dgp, data generating process）に依存するが、それは未知である。
実務的には、両推定量はきわめて似た結果（有意性、符号、APE）を与える。
差が最も大きいのは、確率が \(0\) または \(1\) に近い裾（tails）においてである。
ロジスティック分布は、正規分布に比べて、\(x\beta\) がきわめて小さいときに \(y = 1\) となる確率を大きく与え（\(x\beta\) がきわめて大きいときには \(y = 1\) となる確率を小さく与える）傾向がある。
プロビットモデルは、内生性、標本選択モデル、トービットモデルへと自然に拡張できる。これらの理由から、多くの経済学者はプロビットモデルを用いる。

経済学以外の分野では、ロジット（ロジスティック）モデルのほうが普及している。その係数を対数オッズ（log-odds, または対数オッズ比 log-odds ratio）への影響として直接解釈できるためである。オッズ（odds）は \(p/(1-p)\) と定義される。ここで \(p\) は \(y\) が \(1\) となる確率である。

ロジットモデルのもとでは、\(p/(1-p) = F(x\beta)/[1 - F(x\beta)] = \exp(x\beta)\) となる。したがって \(\ln[p/(1-p)]\)（＝対数オッズ）\(= x\beta\) が得られ、これは係数が対数オッズへの影響を表すことを意味する。

\(x\) が二値である（例：男性なら \(x = 1\)）とし、男性について \(y\) が \(1\) となる確率を \(p\)、女性について \(y\) が \(1\) となる確率を \(q\) とする。このとき \(\ln\left\{\dfrac{p/(1-p)}{q/(1-q)}\right\}\) を対数オッズ比（log-odds ratio）と呼ぶ。\(F(x\beta) = F(\beta x + \gamma z)\) とする。\(\ln[p/(1-p)] = \beta \cdot 1 + \gamma z\) かつ \(\ln[q/(1-q)] = \beta \cdot 0 + \gamma z\) であるから、

\[ \ln\left\{\frac{p/(1-p)}{q/(1-q)}\right\} = \ln[p/(1-p)] - \ln[q/(1-q)] = \beta \]

が得られる。すなわち、\(x\) が二値であるとき、係数は対数オッズ比への影響を表す。

偏微分効果Partial effect

偏微分効果（限界効果（marginal effect））\(\equiv \partial P(y = 1)/\partial x\)。

LPM では、偏微分効果（限界効果）は係数 \(\beta\) の大きさである。

プロビットとロジットでは、係数の大きさは直接には解釈できない。\(x\) が連続変数²²である場合、偏微分効果（限界効果）は次のように計算される。

\[ \frac{\partial P(y = 1)}{\partial x} = \frac{\partial F(x_i\beta)}{\partial x} = f(x_i\beta)\,\beta \]

ここで \(f(\cdot)\) は密度関数（pdf）である。

PE が \(x\) の値によって変化することは明らかである。

結果を解釈する際には、たとえば回帰変数の平均において PE を計算すると有用である。しかし通常は、平均偏微分効果（APE, average partial effects）を報告する。

\[ \mathrm{APE} \equiv N^{-1}\sum_{i} f(x_i\beta)\,\beta \]

原典 P.81 の右側には、横軸を \(X\)、縦軸を \(F(X)\)（\(0\) から \(1\)）とした「正規分布 cdf（Normal cdf）」と「ロジスティック分布 cdf（Logistic cdf）」を重ねた比較図（画像）が掲載されている。両者はいずれも \(S\) 字状の累積分布曲線であり、図のタイトルは「正規分布対ロジスティック分布（Normal vs Logistic）」である。

大標本では、平均における PE と APE は概ね同じ答えを与える（Greene, 17.3.2 節を参照）。しかし、小〜中規模の標本ではそうではない。現在の慣行では、可能な場合には APE が好まれる。

正答率Percent correctly predicted

二値選択モデルでは、モデルの当てはまりを評価するために \(R^2\) を用いることができない。別の指標が必要である。

各 \(i\) について、\(y_i\) の予測を計算する。\(F(x_i\beta) > 0.5\) ならば \(y_i\) は \(1\) と予測され、\(F(x_i\beta) < 0.5\) ならば \(y_i\) は \(0\) と予測される。

予測された \(y\) が実際の \(y\) に一致する割合が、正答率（percent correctly predicted）である。

注意：モデルがさほど有用でなくても、かなり高い正答率が得られることがある。

たとえば、標本サイズ \(200\) のうち \(180\) 個の観測値が \(y = 0\) であり、上記のルールでそのうち \(150\) 個が \(0\) と予測されたとしよう。\(y = 1\) のときの予測が1つも当たっていなくても、なお全アウトカムの \(75\%\)（\(= 150/200\)）を正しく予測したことになる。

このような例があるため、2つのアウトカムそれぞれについて正答率を報告するのが理にかなっている²³。

疑似決定係数Pseudo-R-squared

モデルの当てはまりを評価するもう1つの指標である。

\[ \text{Pseudo-}R^2 \equiv 1 - \frac{\ln L_1}{\ln L_0} \]

ここで \(\ln L_0\) と \(\ln L_1\) は、それぞれ定数項のみのモデルと完全モデルの対数尤度である。

離散的なアウトカムでは、対数尤度は確率の対数であるから、常に負となる。そして一般に \(\ln L_1 > \ln L_0\)（例：\(\ln L_1 = -80\)、\(\ln L_0 = -100\)）であるため、\(\ln L_1 / \ln L_0 < 1\) となる。

例Example

\(y\)：就労するか否か、\(x\)：年齢、教育年数、など

定性的な結果は類似している。
係数はモデル間で異なるが、各モデルがそれぞれ独自のスケーリング因子（scaling factor）を用いるため、係数の大きさは直接には比較できない。異なるモデルを比較するには、平均偏微分効果（APE）を計算すべきである（下記参照）。

被説明変数：inlf（s.e. は括弧内）― 出典：Wooldridge (2010) *Econometric Analysis of Cross Section and Panel Data*, 2nd edition
	LPM (OLS)	Logit (MLE)	Probit (MLE)
nwifeinc	-0.0034 (0.0015)	-0.0210 (0.0080)	-0.0120 (0.0050)
educ	0.0380 (0.0070)	0.2210 (0.0430)	0.1310 (0.0250)
exper	0.0390 (0.0060)	0.2060 (0.0320)	0.1230 (0.0190)
exper²	-0.0006 (0.0002)	-0.0032 (0.0010)	-0.0019 (0.0006)
age	-0.0160 (0.0020)	-0.0880 (0.0150)	-0.0530 (0.0080)
kidslt6	-0.2620 (0.0320)	-1.4430 (0.2040)	-0.8680 (0.1190)
kidsge6	0.0130 (0.0130)	0.0600 (0.0750)	0.0360 (0.0430)
定数項	0.5860 (0.1510)	0.4250 (0.8600)	0.2700 (0.5090)
観測数	753	753	753
正答率	73.4	73.6	73.4
対数尤度	―	-401.77	-401.3
疑似 \(R^2\)	0.264	0.22	0.221

内生性Endogeneity

主方程式において、いずれかの説明変数が誤差項と相関している場合（内生性（endogeneity））、通常のプロビットあるいはロジット推定量は一致性をもたない。

モデルを次のように書く。

\[ y_1 = \mathbf{1}[\,y_1^{*} > 0\,] \]

\[ y_1^{*} = x\beta_1 + \alpha_1 y_2 + u_1 \]

すなわち、\(y_1\) は二値のアウトカム、\(x\) は外生変数、\(y_2\) は内生変数である。

いま、操作変数（instrumental variable） \(z\) があるとする。

\[ y_1 = \mathbf{1}[\,y_1^{*} > 0\,] \]

\[ y_1^{*} = x\beta_1 + \alpha_1 y_2 + u_1 \qquad \text{(主方程式)} \]

\[ y_2 = x\beta_2 + z\gamma + u_2 \qquad \text{(内生変数の誘導形方程式)} \]

主方程式が因果関係を表すのに対し、誘導形（reduced form）はそうではないことに注意したい。

「予測された \(y_2\)」を代入すれば内生性が解決すること（2SLS）を学んだ。しかし、プロビットやロジット（あるいは他の非線形モデル）については、その手法にはいくつかの欠点がある。

APE を復元するのが難しい：それはスケーリングされた係数 \(\beta_1/w\) と \(\alpha_1/w\)（ここで \(w = \mathrm{Var}(u_1 + \alpha_1 u_2)\)）を与えるため、元の係数を復元することも限界効果を導出することもできない。
内生性の検定が簡単ではない。
\(y_2\) の非線形項や交差項（例：\(y_2^{2}\) や \(y_2 x\)）があるときには一致性をもたない。

1つの可能性は、2SLS によって LPM を推定することである。この手続きは比較的容易で、APE の良い推定を与えるかもしれない。（ただしもちろん、先に述べたいくつかの欠点を被る。）

制御関数法（CF）Control function approach (CF)

最も単純な手法は、制御関数法（control function approach, CF）である。

\(y_2\) が \(u_1\) と相関するのは、\(u_1\) と \(u_2\) が相関するときに限られることに注意したい。なぜなら……

\[ \mathrm{Cov}(u_1, y_2) = \mathrm{Cov}(u_1, x\beta_2 + z\gamma + u_2) = \beta_2\,\mathrm{Cov}(u_1, x) + \gamma\,\mathrm{Cov}(u_1, z) + \mathrm{Cov}(u_1, u_2) = 0 + 0 + \mathrm{Cov}(u_1, u_2) \]

第1項は \(x\) が外生変数であるため \(0\) であり、第2項も操作変数 \(z\) が誤差項と無相関であると仮定されているため \(0\) である。

そこで、\((u_1, u_2)\) が二変量正規分布（bivariate normal distribution）に従うと仮定しよう。

\(u_1\) を2つの部分、すなわち \(u_2\) と相関する部分と相関しない部分に分解できる。同時正規性のもとでは、このような分解は次のように書ける：\(u_1 = \theta u_2 + e\)。

したがって、モデルは次のように書き換えられる。

\[ y_1^{*} = x\beta + \alpha_1 y_2 + u_1 = x\beta + \alpha_1 y_2 + \theta u_2 + e \]

\(u_2\) は誘導形方程式の残差から得られる。したがって、観察できないのは \(e\)（すなわち誤差項）のみである。\(e\) はいかなる回帰変数とも相関しないことに注意したい。すなわち、内生性は消滅した。

\(e\) は定義により \(u_2\) と相関しない（\(e\) は \(u_1\) のうち \(u_2\) と相関しない部分である）。
\(e\) は \(x\) と相関しない。\(x\) が外生だからである。数学的には、\(\mathrm{Cov}(x, e) = \mathrm{Cov}(x, u_1 - \theta u_2) = \mathrm{Cov}(x, u_1) - \theta\,\mathrm{Cov}(x, u_2) = 0\)。

\(y_2\) についてはどうか。\(y_2 = x\beta_2 + z\gamma + u_2\) を用いて \(y_2\) を分解する。ここで、外生性により \(x\) と \(z\) は \(e\) と相関しない。\(u_2\) と \(e\) も定義により無相関である。したがって、\(y_2\) と \(e\) は相関しない。

ステップ1：\(y_2\) を \(x\) と \(z\) に回帰する OLS を実行し、残差 \(\hat{u}_2\) を保存する。
ステップ2：\(y_1\) を \(x\)、\(y_2\)、\(\hat{u}_2\) に回帰するプロビットを実行する。これにより一致推定量が得られる。

ただし、係数はいまや異なるスケールになっている（\(e\) の分散は \(u_1\) のそれと同じではない）。比較目的には APE を用いること。

CF 法は「予測された \(y_2\)」を代入するより有用である。なぜなら……

内生性の検定が簡単である：\(\theta = 0\) を検定する。
APE の計算が容易である。
\(y_2\) の非線形項や交差項（例：\(y_2^{2}\) や \(y_2 x\)）があるときにも一致性をもつ。

FIML／CMLFIML/CML

あるいは、2段階の手続きを用いる代わりに、2つの方程式を1段階で推定することもできる。これを完全情報最尤（full information maximum likelihood, FIML）あるいは条件付き最尤推定（conditional maximum likelihood estimation, CML）と呼ぶ。

両手法に対する Stata のコード：ivprobit
対数尤度関数はやや複雑な形になる（Wooldridge 2010, 591）。
得られる推定量は操作変数プロビット（instrumental variables probit）と呼ばれる。

CF 法と FIML の比較（原典 P.84 掲載）
	CF	FIML
一致性をもつか？	はい	はい
効率的か？	いいえ	はい
計算が簡単か？	はい	いいえ（相関係数が \(1\) または \(-1\) に近づくことがあり、反復計算を収束させるのが難しい場合がある）
柔軟性	はい（\(y_2\) の二次項や他の多項式を加えても問題が生じない）	いいえ
複数の内生変数を扱えるか？	容易	困難

パネルデータPanel data

次のパネルデータモデルを考える。

\[ y_{it}^{*} = x_{it}\beta + c_i + u_{it} \]

\(c_i\)：観察されない効果（unobserved effects, \(i\) 固有・時間不変の要因）

変量効果（Random effects）：回帰変数と観察されない効果のあいだに相関がないと仮定する。このモデルは何の困難もなく実装できるが、その仮定は強すぎる。（Stata のコード：xtlogit または xtprobit）
固定効果（Fixed effects）：回帰変数と観察されない効果のあいだの相関を許容する。線形パネルデータの手法とは異なり、\(y_1^{*}\) は「潜在」変数であるため、時間平均化（time-demeaning）や階差化（first-differencing）は実行可能ではない。

個体ごとにダミー変数を追加しても、プロビットやロジットを含む一部の非線形モデルでは一致推定量が得られない。これを付随パラメータ問題（incidental parameter problem）と呼ぶ（Greene, 2002）。付随パラメータ問題による偏りは、短いパネル（\(T < 10\)）においてとりわけ深刻である。

最近の一連の研究は、固定効果の定式化を保ちつつ付随パラメータ問題による偏りを補正しようと試みてきたが、まだ広くは用いられていない。

その例として、Hahn and Kuersteiner (2004)、Hahn and Newey (2005)、Fernandez-Val (2009)（Greene, Econometric Analysis, ch.17.4.5 を参照）、および固定効果ロジット（fixed effects logit）（Wooldridge 2010, p.621）がある。

RE と FE の中間に位置するのが、相関変量効果（correlated random effects, CRE）である。これは観察されない効果を次のように特定する。

\[ c_i = \bar{x}_i\gamma + e_i \]

ここで \(e\) は \(x\) と無相関であると仮定される。したがって、主方程式は次のようになる。

\[ y_{it}^{*} = x_{it}\beta + \bar{x}_i\gamma + e_i + u_{it} = x_{it}\beta + \bar{x}_i\gamma + v_{it} \]

新たに定義された誤差項 \(v\) は \(x\) と無相関であるから、このモデルは通常の手続き（プロビットまたはロジット）で推定できる。

これは相関変量効果（correlated random effects, CRE）と呼ばれ、Mundlak (1978) および Chamberlain (1980) によって展開された。詳しくは Wooldridge 2010, p.615 を参照。

連立方程式体系Systems of equations

二変量プロビットBivariate probit

\[ y_1 = \mathbf{1}[\,x_1\beta_1 + u_1 > 0\,] \]

\[ y_2 = \mathbf{1}[\,x_2\beta_2 + u_2 > 0\,] \]

ここで \(u_1\) と \(u_2\) は二変量正規分布に従うと仮定される。

\(\beta_1\) と \(\beta_2\) は、別々のプロビットモデルを推定することによって一致推定できる。
しかし、\(u_1\) と \(u_2\) が相関している場合、同時推定（joint estimation）のほうが別々のプロビットよりも効率的である。
（ちなみに、\(x_1 = x_2\) のとき、各方程式のプロビットに対して同時 MLE は一般に効率性の向上をもたらす。対照的に、線形モデルで見たように、各方程式の OLS と実行可能 GLS（feasible GLS）は同一である。）

二値の応答変数が3つ以上ある場合、多変量正規分布の cdf について閉じた形を見つけるのは難しい。この場合、最尤シミュレーション（maximum simulated likelihood, MSL）を用いるべきである。Train (2009) Discrete Choice Methods with Simulation を参照。

参考文献References

Chamberlain, G. (1980). Analysis of covariance with qualitative data. Review of Economic Studies (1980) XLVII, 225–238.
Greene (2002) "The Bias of the Fixed Effects Estimator in Nonlinear Models", working paper. www.stern.nyu.edu/~wgreene/nonlinearfixedeffects.pdf
Mundlak, Y. (1978). On the pooling of time series and cross section data. Econometrica: journal of the Econometric Society, 69–85.

脚注

\(x\) がダミー変数である場合、偏微分効果は \(P(y = 1 \mid x = 1) - P(y = 1 \mid x = 0)\) で与えられる。↩
この問題に対する明らかな調整は、閾値 \(0.5\) を下げることであるが、それには代償が伴う。詳しくは Greene, ch.17.3.3 を参照。↩