数量経済分析 図解ポータル
Chapter 13  ·  Part IV 制限従属変数モデル  ·  原典 P.79–85  ·  全文和訳

二値選択モデル ― Binary Response Models

本ページは、川崎賢太郎『数量経済分析』2026 S1 講義ノート第13章の原文に忠実な全文和訳である。要約・再構成は行わず、原文の論理展開・脚注・参考文献の順序をそのまま日本語に移している。直観的な理解には図解版を併用されたい。

川崎賢太郎(東京大学大学院農学生命科学研究科) 原典 P.79–85 全文和訳
図解で読む 原文に忠実な和訳

Spring 2026 / Kentaro Kawasaki

[参考文献]Wooldridge, IE, ch.17; Wooldridge 2010, ch.15

本章では、被説明変数が二値(binary, 二分的 dichotomous)である場合、すなわち \(y = 0\) または \(1\) である場合の枠組みを説明する。

例:

OLSOLS

\(y\) が二値であるとき、次のモデルを OLS で推定すると何が起こるか。

\[ y_i = x_i\beta + u_i \]

この場合、予測値は \(y\) が \(1\) となる確率として解釈できる。

\[ y_i = x_i\beta + u_i \;\Leftrightarrow\; E(y_i) = x_i\beta \;\Leftrightarrow\; \mathrm{Prob}(y = 1) = x_i\beta \]

これは \(E(y_i) = 1 \cdot \mathrm{Prob}(y = 1) + 0 \cdot \mathrm{Prob}(y = 0)\) が成り立つためである。

この理由により、二値のアウトカムに OLS を適用することを線形確率モデル(linear probability model, LPM)と呼ぶ。

欠点:

  1. 予測確率が \([0,1]\) の外に出ることがある。
  2. 偏微分効果(限界効果)が常に \(\beta\) になる。しかし本来は、確率が \(0\) または \(1\) の近傍にあるときには \(0\) に近づくべきである。
  3. 不均一分散(heteroskedasticity):分散は、確率が \(0\) または \(1\) の近傍にあるときには \(0\) に近づくべきである。(したがって、頑健標準誤差(robust standard errors)を用いるべきである。予測されたウェイトが負になることがあるため、GLS は常に適用できるとは限らない。)

プロビットモデルとロジットモデルProbit and Logit model

そこで、アウトカム変数の二値的な性質を明示的に考慮する新たな手法が必要となる。

二値の応答 \(y\) が、連続的で任意の値をとりうる潜在変数(latent variable) \(y_i^{*}\) に依存すると仮定する。\(y_i^{*} > 0\) のとき \(y_i = 1\)、それ以外のとき \(0\) とする。この関係は次のように書ける。

\[ y_i = \mathbf{1}[\,y_i^{*} > 0\,] \]

\(y_i\) は観察可能であるが、\(y_i^{*}\) は観察できない(潜在変数)ことに注意したい。

例:

\(y_i^{*}\) は次のように \(x\) によって決まると仮定する。

\[ y_i^{*} = x_i\beta + u_i \]

\(u\) の分布は \(0\) のまわりで対称(symmetric about zero)であると仮定し、\(F\) を \(u\) の累積分布関数(cdf, cumulative distribution function)とする。すると、

\[ P(y = 1) = P(y^{*} > 0) = P(x\beta + u > 0) = P(u > -x\beta) = 1 - P(u \le -x\beta) = 1 - F(-x\beta) = F(x\beta) \]
\[ P(y = 0) = 1 - P(y = 1) = 1 - F(x\beta) \]

プロビットモデル(probit model)は標準正規分布を仮定する:\(F(x\beta) = \Phi(x\beta)\)(=複雑な形をしている……)。

ロジットモデル(logit model)はロジスティック分布を仮定する:

\[ F(x\beta) = \Lambda(x\beta) = \frac{\exp(x\beta)}{1 + \exp(x\beta)} \]

まとめると、

\[ P(y = Y) = [F(x\beta)]^{Y}\,[1 - F(x\beta)]^{1-Y} \]

いま、\(N\) 個のサンプルがあり、\(y_1 = Y_1, y_2 = Y_2, \ldots, y_N = Y_N\)(\(Y_i = 0\) または \(1\))を観察するとしよう。

このような状況を観察する確率(尤度(likelihood))は次のように書ける。

\[ L \equiv P(y_1 = Y_1, y_2 = Y_2, \ldots, y_N = Y_N) = \prod_{i}[F(x_i\beta)]^{y_i}\,[1 - F(x_i\beta)]^{1-y_i} \]

対数をとると、最大化問題が簡単になる。

\[ \ln L = \sum_{i}\Big\{\, y_i \ln F(x_i\beta) + (1 - y_i)\ln[1 - F(x_i\beta)] \,\Big\} \]

これを対数尤度関数(log-likelihood function)と呼ぶ。

\(y\) と \(x\) の実際のデータを代入すると、対数尤度(\(\ln L\))の値は \(\beta\) のみに依存する。そこで、この状況を現実に観察しているのだから、\(\ln L\) を最大化するように \(\beta\) を選ぶ。

対数尤度関数は非線形であるため、解は閉じた形(closed form)では得られない。最大化には反復法(iterative method)が必要である。

この推定法が最小二乗法とはかなり異なることに注意したい。まず誤差項の分布を特定し、(\(x_i\) を条件として)実際のアウトカム \(y_1 = Y_1, y_2 = Y_2, \ldots, y_N = Y_N\) を観察する尤度(確率)を導出し、そのうえでこの確率を最大化するようにパラメータを選ぶ。これを最尤(maximum likelihood, ML)推定量と呼ぶ。ML は、二値選択モデルのような非線形モデルの推定に広く用いられる。

プロビット対ロジットProbit vs Logit

ロジットとプロビットのどちらのモデルを使うべきか。

経済学以外の分野では、ロジット(ロジスティック)モデルのほうが普及している。その係数を対数オッズ(log-odds, または対数オッズ比 log-odds ratio)への影響として直接解釈できるためである。オッズ(odds)は \(p/(1-p)\) と定義される。ここで \(p\) は \(y\) が \(1\) となる確率である。

ロジットモデルのもとでは、\(p/(1-p) = F(x\beta)/[1 - F(x\beta)] = \exp(x\beta)\) となる。したがって \(\ln[p/(1-p)]\)(=対数オッズ)\(= x\beta\) が得られ、これは係数が対数オッズへの影響を表すことを意味する。

\(x\) が二値である(例:男性なら \(x = 1\))とし、男性について \(y\) が \(1\) となる確率を \(p\)、女性について \(y\) が \(1\) となる確率を \(q\) とする。このとき \(\ln\left\{\dfrac{p/(1-p)}{q/(1-q)}\right\}\) を対数オッズ比(log-odds ratio)と呼ぶ。\(F(x\beta) = F(\beta x + \gamma z)\) とする。\(\ln[p/(1-p)] = \beta \cdot 1 + \gamma z\) かつ \(\ln[q/(1-q)] = \beta \cdot 0 + \gamma z\) であるから、

\[ \ln\left\{\frac{p/(1-p)}{q/(1-q)}\right\} = \ln[p/(1-p)] - \ln[q/(1-q)] = \beta \]

が得られる。すなわち、\(x\) が二値であるとき、係数は対数オッズ比への影響を表す。

偏微分効果Partial effect

偏微分効果(限界効果(marginal effect))\(\equiv \partial P(y = 1)/\partial x\)。

LPM では、偏微分効果(限界効果)は係数 \(\beta\) の大きさである。

プロビットとロジットでは、係数の大きさは直接には解釈できない。\(x\) が連続変数22である場合、偏微分効果(限界効果)は次のように計算される。

\[ \frac{\partial P(y = 1)}{\partial x} = \frac{\partial F(x_i\beta)}{\partial x} = f(x_i\beta)\,\beta \]

ここで \(f(\cdot)\) は密度関数(pdf)である。

PE が \(x\) の値によって変化することは明らかである。

結果を解釈する際には、たとえば回帰変数の平均において PE を計算すると有用である。しかし通常は、平均偏微分効果(APE, average partial effects)を報告する。

\[ \mathrm{APE} \equiv N^{-1}\sum_{i} f(x_i\beta)\,\beta \]
原典 P.81 の右側には、横軸を \(X\)、縦軸を \(F(X)\)(\(0\) から \(1\))とした「正規分布 cdf(Normal cdf)」と「ロジスティック分布 cdf(Logistic cdf)」を重ねた比較図(画像)が掲載されている。両者はいずれも \(S\) 字状の累積分布曲線であり、図のタイトルは「正規分布対ロジスティック分布(Normal vs Logistic)」である。

正答率Percent correctly predicted

二値選択モデルでは、モデルの当てはまりを評価するために \(R^2\) を用いることができない。別の指標が必要である。

各 \(i\) について、\(y_i\) の予測を計算する。\(F(x_i\beta) > 0.5\) ならば \(y_i\) は \(1\) と予測され、\(F(x_i\beta) < 0.5\) ならば \(y_i\) は \(0\) と予測される。

予測された \(y\) が実際の \(y\) に一致する割合が、正答率(percent correctly predicted)である。

注意:モデルがさほど有用でなくても、かなり高い正答率が得られることがある。

たとえば、標本サイズ \(200\) のうち \(180\) 個の観測値が \(y = 0\) であり、上記のルールでそのうち \(150\) 個が \(0\) と予測されたとしよう。\(y = 1\) のときの予測が1つも当たっていなくても、なお全アウトカムの \(75\%\)(\(= 150/200\))を正しく予測したことになる。

このような例があるため、2つのアウトカムそれぞれについて正答率を報告するのが理にかなっている23

疑似決定係数Pseudo-R-squared

モデルの当てはまりを評価するもう1つの指標である。

\[ \text{Pseudo-}R^2 \equiv 1 - \frac{\ln L_1}{\ln L_0} \]

ここで \(\ln L_0\) と \(\ln L_1\) は、それぞれ定数項のみのモデルと完全モデルの対数尤度である。

離散的なアウトカムでは、対数尤度は確率の対数であるから、常に負となる。そして一般に \(\ln L_1 > \ln L_0\)(例:\(\ln L_1 = -80\)、\(\ln L_0 = -100\))であるため、\(\ln L_1 / \ln L_0 < 1\) となる。

Example

\(y\):就労するか否か、\(x\):年齢、教育年数、など

被説明変数:inlf(s.e. は括弧内)― 出典:Wooldridge (2010) Econometric Analysis of Cross Section and Panel Data, 2nd edition
LPM (OLS)Logit (MLE)Probit (MLE)
nwifeinc-0.0034
(0.0015)
-0.0210
(0.0080)
-0.0120
(0.0050)
educ0.0380
(0.0070)
0.2210
(0.0430)
0.1310
(0.0250)
exper0.0390
(0.0060)
0.2060
(0.0320)
0.1230
(0.0190)
exper²-0.0006
(0.0002)
-0.0032
(0.0010)
-0.0019
(0.0006)
age-0.0160
(0.0020)
-0.0880
(0.0150)
-0.0530
(0.0080)
kidslt6-0.2620
(0.0320)
-1.4430
(0.2040)
-0.8680
(0.1190)
kidsge60.0130
(0.0130)
0.0600
(0.0750)
0.0360
(0.0430)
定数項0.5860
(0.1510)
0.4250
(0.8600)
0.2700
(0.5090)
観測数753753753
正答率73.473.673.4
対数尤度-401.77-401.3
疑似 \(R^2\)0.2640.220.221

内生性Endogeneity

主方程式において、いずれかの説明変数が誤差項と相関している場合(内生性(endogeneity))、通常のプロビットあるいはロジット推定量は一致性をもたない。

モデルを次のように書く。

\[ y_1 = \mathbf{1}[\,y_1^{*} > 0\,] \]
\[ y_1^{*} = x\beta_1 + \alpha_1 y_2 + u_1 \]

すなわち、\(y_1\) は二値のアウトカム、\(x\) は外生変数、\(y_2\) は内生変数である。

いま、操作変数(instrumental variable) \(z\) があるとする。

\[ y_1 = \mathbf{1}[\,y_1^{*} > 0\,] \]
\[ y_1^{*} = x\beta_1 + \alpha_1 y_2 + u_1 \qquad \text{(主方程式)} \]
\[ y_2 = x\beta_2 + z\gamma + u_2 \qquad \text{(内生変数の誘導形方程式)} \]

主方程式が因果関係を表すのに対し、誘導形(reduced form)はそうではないことに注意したい。

「予測された \(y_2\)」を代入すれば内生性が解決すること(2SLS)を学んだ。しかし、プロビットやロジット(あるいは他の非線形モデル)については、その手法にはいくつかの欠点がある。

1つの可能性は、2SLS によって LPM を推定することである。この手続きは比較的容易で、APE の良い推定を与えるかもしれない。(ただしもちろん、先に述べたいくつかの欠点を被る。)

制御関数法(CF)Control function approach (CF)

最も単純な手法は、制御関数法(control function approach, CF)である。

\(y_2\) が \(u_1\) と相関するのは、\(u_1\) と \(u_2\) が相関するときに限られることに注意したい。なぜなら……

\[ \mathrm{Cov}(u_1, y_2) = \mathrm{Cov}(u_1, x\beta_2 + z\gamma + u_2) = \beta_2\,\mathrm{Cov}(u_1, x) + \gamma\,\mathrm{Cov}(u_1, z) + \mathrm{Cov}(u_1, u_2) = 0 + 0 + \mathrm{Cov}(u_1, u_2) \]

第1項は \(x\) が外生変数であるため \(0\) であり、第2項も操作変数 \(z\) が誤差項と無相関であると仮定されているため \(0\) である。

そこで、\((u_1, u_2)\) が二変量正規分布(bivariate normal distribution)に従うと仮定しよう。

\(u_1\) を2つの部分、すなわち \(u_2\) と相関する部分と相関しない部分に分解できる。同時正規性のもとでは、このような分解は次のように書ける:\(u_1 = \theta u_2 + e\)。

したがって、モデルは次のように書き換えられる。

\[ y_1^{*} = x\beta + \alpha_1 y_2 + u_1 = x\beta + \alpha_1 y_2 + \theta u_2 + e \]

\(u_2\) は誘導形方程式の残差から得られる。したがって、観察できないのは \(e\)(すなわち誤差項)のみである。\(e\) はいかなる回帰変数とも相関しないことに注意したい。すなわち、内生性は消滅した。

\(y_2\) についてはどうか。\(y_2 = x\beta_2 + z\gamma + u_2\) を用いて \(y_2\) を分解する。ここで、外生性により \(x\) と \(z\) は \(e\) と相関しない。\(u_2\) と \(e\) も定義により無相関である。したがって、\(y_2\) と \(e\) は相関しない。

ただし、係数はいまや異なるスケールになっている(\(e\) の分散は \(u_1\) のそれと同じではない)。比較目的には APE を用いること。

CF 法は「予測された \(y_2\)」を代入するより有用である。なぜなら……

FIML/CMLFIML/CML

あるいは、2段階の手続きを用いる代わりに、2つの方程式を1段階で推定することもできる。これを完全情報最尤(full information maximum likelihood, FIML)あるいは条件付き最尤推定(conditional maximum likelihood estimation, CML)と呼ぶ。

CF 法と FIML の比較(原典 P.84 掲載)
CFFIML
一致性をもつか?はいはい
効率的か?いいえはい
計算が簡単か?はいいいえ(相関係数が \(1\) または \(-1\) に近づくことがあり、反復計算を収束させるのが難しい場合がある)
柔軟性はい(\(y_2\) の二次項や他の多項式を加えても問題が生じない)いいえ
複数の内生変数を扱えるか?容易困難

パネルデータPanel data

次のパネルデータモデルを考える。

\[ y_{it}^{*} = x_{it}\beta + c_i + u_{it} \]

\(c_i\):観察されない効果(unobserved effects, \(i\) 固有・時間不変の要因)

個体ごとにダミー変数を追加しても、プロビットやロジットを含む一部の非線形モデルでは一致推定量が得られない。これを付随パラメータ問題(incidental parameter problem)と呼ぶ(Greene, 2002)。付随パラメータ問題による偏りは、短いパネル(\(T < 10\))においてとりわけ深刻である。

最近の一連の研究は、固定効果の定式化を保ちつつ付随パラメータ問題による偏りを補正しようと試みてきたが、まだ広くは用いられていない。

その例として、Hahn and Kuersteiner (2004)、Hahn and Newey (2005)、Fernandez-Val (2009)(Greene, Econometric Analysis, ch.17.4.5 を参照)、および固定効果ロジット(fixed effects logit)(Wooldridge 2010, p.621)がある。

RE と FE の中間に位置するのが、相関変量効果(correlated random effects, CRE)である。これは観察されない効果を次のように特定する。

\[ c_i = \bar{x}_i\gamma + e_i \]

ここで \(e\) は \(x\) と無相関であると仮定される。したがって、主方程式は次のようになる。

\[ y_{it}^{*} = x_{it}\beta + \bar{x}_i\gamma + e_i + u_{it} = x_{it}\beta + \bar{x}_i\gamma + v_{it} \]

新たに定義された誤差項 \(v\) は \(x\) と無相関であるから、このモデルは通常の手続き(プロビットまたはロジット)で推定できる。

これは相関変量効果(correlated random effects, CRE)と呼ばれ、Mundlak (1978) および Chamberlain (1980) によって展開された。詳しくは Wooldridge 2010, p.615 を参照。

連立方程式体系Systems of equations

二変量プロビットBivariate probit

\[ y_1 = \mathbf{1}[\,x_1\beta_1 + u_1 > 0\,] \]
\[ y_2 = \mathbf{1}[\,x_2\beta_2 + u_2 > 0\,] \]

ここで \(u_1\) と \(u_2\) は二変量正規分布に従うと仮定される。

二値の応答変数が3つ以上ある場合、多変量正規分布の cdf について閉じた形を見つけるのは難しい。この場合、最尤シミュレーション(maximum simulated likelihood, MSL)を用いるべきである。Train (2009) Discrete Choice Methods with Simulation を参照。

参考文献References

脚注
  1. \(x\) がダミー変数である場合、偏微分効果は \(P(y = 1 \mid x = 1) - P(y = 1 \mid x = 0)\) で与えられる。
  2. この問題に対する明らかな調整は、閾値 \(0.5\) を下げることであるが、それには代償が伴う。詳しくは Greene, ch.17.3.3 を参照。