Chapter 13 · Part IV 制限従属変数モデル · 原典 P.79–85

二値選択モデル

被説明変数が 0 か 1 をとるとき、線形回帰では確率が [0,1] を外れ限界効果も一定になってしまう。潜在変数を介したプロビット（標準正規CDF）とロジット（ロジスティック分布）を最尤法で推定し、平均限界効果（APE）で結果を読む。内生性への制御関数アプローチ、付随パラメータ問題、二変量プロビットまでを扱う。

二値選択プロビットロジット最尤推定限界効果

川崎賢太郎（東京大学大学院農学生命科学研究科）原典 P.79–85 Binary Response Models

図解で読む原文に忠実な和訳

Contents

01. 二値の被説明変数とは
02. 線形確率モデル（LPM）とその欠点
03. 潜在変数とプロビット・ロジット
04. 最尤推定（ML）
05. プロビット vs ロジット
06. ロジットと対数オッズ
07. 限界効果 ― PE at mean と APE
08. 適合度 ― 正答率と擬似決定係数
09. 推定例（Wooldridge 2010）
10. 内生性 ― IVプロビットと制御関数
11. パネルデータと付随パラメータ問題
12. 連立体系 ― 二変量プロビット
13. 参考文献

SECTION 01

二値の被説明変数とは

本章では、被説明変数 \(y\) が二値（dichotomous）、すなわち \(y = 0\) または \(y = 1\) をとる場合の枠組みを述べる。

「働くか否か」「農地を借りるか否か」のように、結果が二者択一で表される現象は数多い。こうした二値結果に対しては、通常の線形回帰とは異なる扱いが必要になる。具体例を次に挙げる。

表1 二値選択の例（原典 P.79）
被説明変数 \(y\)	説明変数 \(x\)
働く／働かない（work or not）	年齢・性別・配偶状態など
農地を借りる／借りない（rent a farmland or not）	経営規模・農家の年齢・地代など

参照文献：Wooldridge, Introductory Econometrics（IE）第17章、Wooldridge (2010) 第15章。

SECTION 02

線形確率モデル（LPM）とその欠点

\(y\) が二値のとき、通常の OLS で次のモデルを推定すると何が起こるか。

\[ y_i = x_i\beta + u_i \]

この場合、予測値は \(y\) が 1 になる確率として解釈できる。なぜなら \(E(y_i) = 1\cdot\mathrm{Prob}(y=1) + 0\cdot\mathrm{Prob}(y=0)\) だからである。すなわち次が成り立つ。

\[ y_i = x_i\beta + u_i \iff E(y_i) = x_i\beta \iff \mathrm{Prob}(y = 1) = x_i\beta \]

このため、二値の結果に OLS を適用することを 線形確率モデル（linear probability model, LPM）と呼ぶ。

LPM の3つの欠点（Drawbacks）

予測確率が [0,1] を外れうる

線形関数であるため、予測される確率が 0 を下回ったり 1 を上回ったりすることがある（確率としての解釈が破綻する）。

限界効果が常に一定（\(\beta\)）

偏効果（限界効果）が常に係数 \(\beta\) に等しい。しかし本来、確率が 0 や 1 の近傍にあるときには限界効果はゼロに近づくべきである。

不均一分散（heteroskedasticity）

分散も、確率が 0 や 1 の近傍ではゼロに近づくべきである。したがって 頑健標準誤差（robust standard errors）を用いるべきである。GLS は、予測される重みが負になることがあるため、常に適用できるとは限らない。

SECTION 03

潜在変数とプロビット・ロジット

二値の性質を明示的に扱う新しい手法が必要だ。鍵は、観察される \(y\) の背後にある潜在変数（latent variable） \(y^*\) を仮定することである。

二値の結果 \(y\) は、連続で任意の値をとりうる潜在変数 \(y_i^*\) に依存すると仮定する。\(y_i^* > 0\) のとき \(y_i = 1\)、そうでないとき \(y_i = 0\) である。この関係は指示関数 \(1[\cdot]\) を用いて次のように書ける。

\[ y_i = 1[\, y_i^* > 0 \,] \]

\(y_i\) は観察可能（observable）であるのに対し、\(y_i^*\) は観察できない（latent variable）。たとえば \(y\) が「働くか否か」を表すなら、\(y^*\) は 働く意欲（willingness to work）と解釈できる。働く意欲が 0 より大きければ働くことを選び、そうでなければ働かないことを選ぶ。

潜在変数 \(y_i^*\) が \(x\) によって次のように決まると仮定する。

\[ y_i^* = x_i\beta + u_i \]

誤差 \(u\) の分布はゼロを中心に 対称（symmetric about zero）であると仮定し、\(F\) を \(u\) の累積分布関数（cdf）とする。すると、\(y = 1\) となる確率は次のように展開できる。

\[ P(y = 1) = P(y^* > 0) = P(x\beta + u > 0) = P(u > -x\beta) = 1 - P(u \le -x\beta) = 1 - F(-x\beta) = F(x\beta) \]

最後の等号は分布の対称性 \(1 - F(-x\beta) = F(x\beta)\) による。したがって \(P(y = 0) = 1 - P(y = 1) = 1 - F(x\beta)\)。

\(F\) にどの分布を仮定するかで、プロビットとロジットに分かれる。

プロビット（Probit）

標準正規分布（standard normal）を仮定する。

\[ F(x\beta) = \Phi(x\beta) \]

\(\Phi(\cdot)\) は標準正規分布の累積分布関数（閉じた形では書けない複雑な形をとる）。

ロジット（Logit）

ロジスティック分布（logistic）を仮定する。

\[ F(x\beta) = \dfrac{\exp(x\beta)}{1 + \exp(x\beta)} = \Lambda(x\beta) \]

\(\Lambda(\cdot)\) はロジスティック分布の累積分布関数。閉じた形で書ける。

SECTION 04

最尤推定（ML）

\(y = 0\) と \(y = 1\) の確率を 1つの式にまとめると、尤度関数が立てられる。

各観測について、\(P(y = Y)\) は次のように表せる（\(Y = 0\) なら第1項が消え、\(Y = 1\) なら第2項が消える）。

\[ P(y = Y) = [F(x\beta)]^{Y}\,[1 - F(x\beta)]^{1-Y} \]

いま \(N\) 個の標本があり、\(y_1 = Y_1,\, y_2 = Y_2,\, \dots,\, y_N = Y_N\)（各 \(Y_i = 0\) または \(1\)）を観察したとする。このような状況を観察する確率（尤度, likelihood）は、観測が独立なら各確率の積として次のように書ける。

\[ L \equiv P(y_1 = Y_1,\, \dots,\, y_N = Y_N) = \prod_{i=1}^{N} [F(x_i\beta)]^{y_i}\,[1 - F(x_i\beta)]^{1-y_i} \]

対数をとると最大化問題が簡単になる。

\[ \ln L = \sum_{i=1}^{N} \big\{\, y_i \ln F(x_i\beta) + (1 - y_i)\ln[1 - F(x_i\beta)] \,\big\} \]

これを 対数尤度関数（log-likelihood function）と呼ぶ。

実際の \(y\) と \(x\) のデータを代入すると、対数尤度 \(\ln L\) の値は \(\beta\) のみに依存する。そこで、\(\ln L\) を最大化するように \(\beta\) を選ぶ（現実にこの状況を観察しているのだから、その確率が最も高くなるパラメータを採る）。

対数尤度関数は非線形であるため、解は 閉じた形（closed form）では得られない。最大化には反復計算（iterative method）が必要になる。

Professor Note ― 最小二乗法との違い

この推定法は、最小二乗法（least squares）とはかなり異なる。まず誤差項の分布を特定し、実際の結果（\(x_i\) を所与とした \(y_1 = Y_1, \dots, y_N = Y_N\)）を観察する尤度（確率）を導き、その確率を最大化するようにパラメータを選ぶ。これを 最尤（maximum likelihood, ML）推定量と呼ぶ。ML は、二値選択モデルのような非線形モデルの推定に広く用いられる。

原典 P.80。

SECTION 05

プロビット vs ロジット ― どちらを使うか

理論上はデータ生成過程（dgp）に依存して決まるが、それは未知である。実務上は両者はよく似た結果を与える。

プロビット（標準正規）

内生性・標本選択モデル・トービットモデルへ 自然に拡張できる。
これらの理由から、多くの経済学者はプロビットを用いる。
裾（tail）で \(x\beta\) が極端に小さいとき、正規分布は \(y = 1\) により小さい確率を与える（ロジットとの対比）。

ロジット（ロジスティック）

係数を 対数オッズ（log-odds）への影響として直接解釈できる。
このため、経済学以外の分野ではロジットの方が人気がある。
\(x\beta\) が極端に小さいとき \(y = 1\) により大きい確率を、極端に大きいときより小さい確率を与える（正規分布との対比）。

実務上、両推定量は 有意性・符号・APE について非常に似た結果を与える。差が最も大きくなるのは、確率が 0 や 1 に近い 裾の部分である。

図（原典 P.81 右）：Normal vs Logistic。横軸 \(X\)（\(-5\) から \(5\)）、縦軸 \(F(X)\)（0 から 1）に、正規分布の cdf とロジスティック分布の cdf を重ねた S 字曲線。両曲線はほぼ重なるが、裾でロジスティックの方がややなだらかに 0／1 へ漸近する。曲線の数値は原典の作図に依存するため、本図解では創作せず原典を参照されたい。

SECTION 06

ロジットと対数オッズ

ロジットでは、係数が対数オッズ（log-odds）への影響として直接読める。これがロジットの大きな利点だ。

オッズ（odds）は、\(y\) が 1 になる確率を \(p\) として \(p/(1-p)\) で定義される。ロジットモデルのもとでは次が成り立つ。

\[ \frac{p}{1-p} = \frac{F(x\beta)}{1 - F(x\beta)} = \exp(x\beta) \quad\Longrightarrow\quad \ln\!\left[\frac{p}{1-p}\right] = x\beta \]

左辺 \(\ln[p/(1-p)]\) を 対数オッズ（log odds）と呼ぶ。すなわち係数 \(\beta\) は、対数オッズへの影響を表す。

\(x\) が二値のとき ― 対数オッズ比

\(x\) が二値（例：男性なら \(x = 1\)）とし、男性で \(y = 1\) となる確率を \(p\)、女性で \(y = 1\) となる確率を \(q\) とする。このとき \(\ln\!\big\{\,[p/(1-p)]\,/\,[q/(1-q)]\,\big\}\) を 対数オッズ比（log-odds ratio）と呼ぶ。\(F(x\beta) = F(x\beta + z\gamma)\) と書くと、男性は \(\ln[p/(1-p)] = \beta\cdot 1 + z\gamma\)、女性は \(\ln[q/(1-q)] = \beta\cdot 0 + z\gamma\) だから、両者の差は次のようになる。

\[ \ln\!\left\{\frac{p/(1-p)}{q/(1-q)}\right\} = \ln\!\left[\frac{p}{1-p}\right] - \ln\!\left[\frac{q}{1-q}\right] = \beta \]

すなわち \(x\) が二値のとき、係数 \(\beta\) は 対数オッズ比への影響を表す。

SECTION 07

限界効果 ― PE at mean と APE

偏効果（限界効果）はプロビット・ロジットの係数からは直接読めない。係数に密度関数を掛けて算出する必要がある。

偏効果（限界効果, partial/marginal effect）は \(\partial P(y = 1)/\partial x\) と定義される。LPM では限界効果は係数 \(\beta\) の大きさそのものであった。しかしプロビット・ロジットでは、係数の大きさは直接解釈できない。\(x\) が連続変数のとき、限界効果は次のように計算される。

\[ \frac{\partial P(y = 1)}{\partial x} = \frac{\partial F(x_i\beta)}{\partial x} = f(x_i\beta)\,\beta \]

\(f(\cdot)\) は密度関数（pdf）。明らかに、限界効果（PE）は \(x\) の値によって変化する。

ダミー変数の場合。\(x\) がダミー変数のとき、偏効果は \(P(y = 1 \mid x = 1) - P(y = 1 \mid x = 0)\) で与えられる（原典 P.81 脚注22）。

限界効果は \(x\) で変わるため、どの点で評価するかに2つの流儀がある。

PE at mean

平均での限界効果

説明変数を平均値（means of the regressors）に固定して限界効果を評価する。結果の解釈に便利な一手段である。

APE

平均限界効果

各観測で限界効果を計算し、その標本平均をとる。通常はこちらの 平均限界効果（average partial effects, APE）を報告する。

\[ \mathrm{APE} \equiv N^{-1}\sum_{i} f(x_i\beta)\,\beta \]

大標本では、平均での限界効果（PE at mean）と APE はおおむね同じ答えを与える（Greene, §17.3.2 参照）。しかし小〜中規模の標本ではそうならない。現在の実務では、可能なかぎり APE を用いることが好まれる。

SECTION 08

適合度 ― 正答率と擬似決定係数

二値選択モデルでは、適合度の評価に \(R^2\) は使えない。別の指標が必要だ。

Percent correctly predicted

正しく予測された割合

各 \(i\) について \(y_i\) の予測を計算する。\(F(x_i\beta) > 0.5\) なら \(y_i = 1\)、\(F(x_i\beta) < 0.5\) なら \(y_i = 0\) と予測する。予測 \(y\) が実際の \(y\) に一致した割合が「正しく予測された割合」である。

Pseudo-R²

擬似決定係数

もう一つの適合度指標。定数項のみのモデルと完全モデルの対数尤度を用いる。

\[ \text{Pseudo-}R^2 \equiv 1 - \frac{\ln L_1}{\ln L_0} \]

正答率の落とし穴。モデルがほとんど役に立たなくても、かなり高い正答率が出ることがある。例：標本サイズ 200 のうち 180 が \(y = 0\) で、そのうち 150 が上記ルールで 0 と予測されるとする。\(y = 1\) の予測がすべて外れていても、なお \(75\%\)（\(= 150/200\)）を正しく予測できてしまう。このため、2つの結果それぞれについて正答率を報告するのがよい。

擬似決定係数について。離散的な結果では対数尤度は確率の対数なので常に負であり、一般に \(\ln L_1 > \ln L_0\)（例：\(\ln L_1 = -80,\ \ln L_0 = -100\)）となるため、\(\ln L_1 / \ln L_0 < 1\) となる。ここで \(\ln L_0\) と \(\ln L_1\) は、それぞれ定数項のみのモデルと完全モデルの対数尤度である。

Professor Note ― 閾値の調整

正答率の問題に対する明白な調整は、閾値 0.5 を下げることである。だがそれには相応のコストが伴う。詳細は Greene, ch.17.3.3 を参照（原典 P.82 脚注23）。

原典 P.82。

SECTION 09

推定例（Wooldridge 2010）

被説明変数 \(y\)＝働くか否か（inlf）、説明変数 \(x\)＝年齢・教育年数など。LPM・ロジット・プロビットの3モデルを並べて推定した例である。

表2 推定結果（被説明変数：inlf／括弧内は標準誤差）
説明変数	LPM (OLS)	Logit (MLE)	Probit (MLE)
nwifeinc	-0.0034 (0.0015)	-0.0210 (0.0080)	-0.0120 (0.0050)
educ	0.0380 (0.0070)	0.2210 (0.0430)	0.1310 (0.0250)
exper	0.0390 (0.0060)	0.2060 (0.0320)	0.1230 (0.0190)
exper²	-0.0006 (0.0002)	-0.0032 (0.0010)	-0.0019 (0.0006)
age	-0.0160 (0.0020)	-0.0880 (0.0150)	-0.0530 (0.0080)
kidslt6	-0.2620 (0.0320)	-1.4430 (0.2040)	-0.8680 (0.1190)
kidsge6	0.0130 (0.0130)	0.0600 (0.0750)	0.0360 (0.0430)
定数項（constant）	0.5860 (0.1510)	0.4250 (0.8600)	0.2700 (0.5090)
観測数	753	753	753
正答率（%）	73.4	73.6	73.4
対数尤度	―	-401.77	-401.30
擬似決定係数	0.264	0.220	0.221

出典：Wooldridge (2010) Econometric Analysis of Cross Section and Panel Data, 2nd edition（原典 P.82）。標準誤差は括弧内。LPM の擬似決定係数欄は原典では通常の \(R^2\) に相当する値。

定性的な結果（符号・有意性）は3モデルでよく似ている。しかし係数の大きさはモデル間で異なり、各モデルが固有のスケーリング因子を用いるため、係数の大きさは直接比較できない。異なるモデルを比較するには、APE を計算すべきである。

SECTION 10

内生性 ― IVプロビットと制御関数

説明変数が主方程式の誤差と相関する（内生性, endogeneity）場合、通常のプロビット・ロジット推定量は一致性をもたない。

モデルを次のように書く。\(y_1\) は二値の結果、\(x\) は外生変数、\(y_2\) は内生変数である。操作変数 \(z\) を導入し、内生変数 \(y_2\) について誘導形（reduced form）の方程式を立てる。

\[ \begin{aligned} y_1 &= 1[\, y_1^* > 0 \,] \\[2pt] y_1^* &= x\beta_1 + \alpha_1 y_2 + u_1 \quad &\text{(主方程式)} \\[2pt] y_2 &= x\beta_2 + z\gamma + u_2 \quad &\text{(内生変数の誘導形)} \end{aligned} \]

主方程式は 因果関係を表すのに対し、誘導形はそうではない（相関の整理にすぎない）。

「予測値の代入」（2SLS流）の難点

線形モデルでは「予測した \(y_2\)」を代入すれば内生性が解ける（2SLS）と学んだ。しかしプロビット・ロジット（その他の非線形モデル）では、この方法にいくつかの難点がある。

APE が復元しにくい

スケールされた係数 \(\beta/w\) と \(\alpha_1/w\)（ただし \(w = \mathrm{Var}(u_1 + \alpha_1 u_2)\)）しか得られない。元の係数も限界効果も復元できない。

内生性の検定が簡単でない

内生性の有無を検定する手続きが単純でない。

非線形・交差項で不整合

\(y_2\) の非線形項や交差項（例：\(y_2^2\) や \(y_2 x\)）があると一致性をもたない。

一つの選択肢は、LPM を 2SLS で推定することである。この手続きは比較的容易で、APE の良い推定を与えうる（ただし前述の LPM の難点は依然として残る）。

制御関数アプローチ（Control Function, CF）

最も簡明なのは制御関数アプローチ（control function, CF）である。

\(y_2\) が \(u_1\) と相関するのは、\(u_1\) と \(u_2\) が相関するときに限られる。なぜなら、共分散を展開すると次のようになるからである。

\[ \mathrm{Cov}(u_1, y_2) = \mathrm{Cov}(u_1,\, x\beta_2 + z\gamma + u_2) = \beta_2\mathrm{Cov}(u_1, x) + \gamma\mathrm{Cov}(u_1, z) + \mathrm{Cov}(u_1, u_2) = 0 + 0 + \mathrm{Cov}(u_1, u_2) \]

第1項は \(x\) が外生だからゼロ、第2項は操作変数 \(z\) が誤差と無相関と仮定されるためゼロ。残るは \(\mathrm{Cov}(u_1, u_2)\) のみ。

そこで \((u_1, u_2)\) が 二変量正規分布（bivariate normal）に従うと仮定する。\(u_1\) を「\(u_2\) と相関する部分」と「相関しない部分」に分解すると、同時正規性のもとで次のように書ける。

\[ u_1 = \theta\, u_2 + e \qquad\Longrightarrow\qquad y_1^* = x\beta_1 + \alpha_1 y_2 + \theta\, u_2 + e \]

\(u_2\) は誘導形の残差から得られる。したがって観察できないのは \(e\)（＝誤差項）だけである。\(e\) はいかなる説明変数とも相関しない ― すなわち 内生性が消えた。理由は次のとおり。\(e\) は定義により \(u_2\) と無相関（\(e\) は \(u_1\) のうち \(u_2\) と相関しない部分）。\(e\) は \(x\) が外生だから \(x\) とも無相関：\(\mathrm{Cov}(x, e) = \mathrm{Cov}(x, u_1 - \theta u_2) = \mathrm{Cov}(x, u_1) - \theta\,\mathrm{Cov}(x, u_2) = 0\)。さらに \(y_2 = x\beta_2 + z\gamma + u_2\) を分解すると、\(x\) と \(z\) は外生ゆえ \(e\) と無相関、\(u_2\) と \(e\) も定義により無相関なので、\(y_2\) と \(e\) も無相関である。

Step 1 ― 誘導形の OLS

\(y_2\) を \(x\) と \(z\) に OLS 回帰し、残差 \(\hat{u}_2\) を保存する。

Step 2 ― 残差を加えてプロビット

\(y_1\) を \(x,\ y_2,\ \hat{u}_2\) にプロビット回帰する。これが一致推定量を与える。ただし係数は異なるスケール（\(e\) の分散は \(u_1\) と同じでない）になるため、比較には APE を用いる。

CF が「予測値の代入」より優れる点。(1) 内生性の検定が簡単（\(\theta = 0\) を検定すればよい）。(2) APE が計算しやすい。(3) \(y_2\) の非線形項・交差項（例：\(y_2^2\) や \(y_2 x\)）があっても一致性をもつ。

FIML / CML ― 一段階推定

二段階手続きの代わりに、2本の方程式を一段階で同時推定することもできる。これを 完全情報最尤法（full information maximum likelihood, FIML）あるいは 条件付き最尤推定（conditional maximum likelihood, CML）と呼ぶ。Stata では両者とも ivprobit で実行する。対数尤度関数はやや複雑な形になる（Wooldridge 2010, p.591）。得られる推定量を 操作変数プロビット（instrumental variables probit）と呼ぶ。

表3 CF と FIML の比較（原典 P.84）
観点	CF	FIML
一致性（Consistent?）	yes	yes
効率性（Efficient?）	no	yes
計算が簡単か	yes	no ― 相関係数が \(\pm 1\) へ向かい、反復が収束しにくいことがある
柔軟性（Flexibility）	yes ― \(y_2\) の2次・多項式項を加えても支障なし	no
複数の内生変数	容易（easy）	困難（difficult）

SECTION 11

パネルデータと付随パラメータ問題

次のパネルデータモデルを考える。\(c_i\) は観察されない効果（個体固有・時間不変の要因）である。

\[ y_{it}^* = x_{it}\beta + c_i + u_{it} \]

変量効果（Random effects）

説明変数と観察されない効果の間に相関がないと仮定する。
困難なく実装できるが、この仮定は強すぎる。
Stata：xtlogit または xtprobit。

固定効果（Fixed effects）

説明変数と観察されない効果の相関を許す。
線形パネル法と異なり、\(y_1^*\) が潜在変数のため 時間平均除去・階差は実行不能。
個体ダミーの追加も、プロビット・ロジット等の非線形モデルでは一致推定を与えない。

個体ごとにダミー変数を加えても一致推定が得られないこの現象を 付随パラメータ問題（incidental parameter problem）（Greene, 2002）と呼ぶ。バイアスは 短いパネル（\(T < 10\)）で特に深刻である。

固定効果の定式化を保ちつつ付随パラメータ問題によるバイアスを補正しようとする一連の最近の研究があるが、まだ広くは使われていない。例として Hahn and Kuersteiner (2004)、Hahn and Newey (2005)、Fernandez-Val (2009)（Greene, Econometric Analysis, ch.17.4.5 参照）、および固定効果ロジット（Wooldridge 2010, p.621）が挙げられる。

相関変量効果（CRE）― RE と FE の中間

RE と FE の中間が 相関変量効果（correlated random effects, CRE）である。観察されない効果を次のように特定する（\(\bar{x}_i\) は個体 \(i\) の時間平均、\(e_i\) は \(x\) と無相関と仮定）。

\[ c_i = \bar{x}_i\gamma + e_i \]

これを代入すると、主方程式は次のようになる。

\[ y_{it}^* = x_{it}\beta + c_i + u_{it} = x_{it}\beta + \bar{x}_i\gamma + e_i + u_{it} = x_{it}\beta + \bar{x}_i\gamma + v_{it} \]

新たに定義した誤差項 \(v_{it}\) は \(x\) と無相関なので、通常の手続き（プロビット・ロジット）で推定できる。これを 相関変量効果（CRE）と呼び、Mundlak (1978) と Chamberlain (1980) によって展開された（Wooldridge 2010, p.615）。

SECTION 12

連立体系 ― 二変量プロビット

二値の結果が2本ある連立体系を二変量プロビット（bivariate probit）で扱う。

\[ \begin{aligned} y_1 &= 1[\, x_1\beta_1 + u_1 > 0 \,] \\[2pt] y_2 &= 1[\, x_2\beta_2 + u_2 > 0 \,] \end{aligned} \]

ここで \(u_1\) と \(u_2\) は二変量正規分布に従うと仮定する。

\(\beta_1\) と \(\beta_2\) は、別々のプロビットモデルを推定することでも一致推定できる。しかし \(u_1\) と \(u_2\) が相関する場合、同時推定（joint estimation）の方が、別々のプロビットより効率的である。

ちなみに \(x_1 = x_2\) のときは、各方程式のプロビットに対して同時 MLE から一般に効率性の改善が得られる。これは線形モデルとの対比で興味深い ― 線形モデルでは、各方程式の OLS と実行可能 GLS（feasible GLS）は一致した。

二値の被説明変数が 3本以上あると、多変量正規 cdf の閉じた形を求めるのが困難になる。この場合は 最尤模擬法（maximum simulated likelihood, MSL）を用いるべきである。Train (2009) Discrete Choice Methods with Simulation を参照。

SECTION 13

参考文献（References）

Chamberlain, G. (1980). "Analysis of covariance with qualitative data." Review of Economic Studies XLVII, 225-238.
Greene (2002). "The Bias of the Fixed Effects Estimator in Nonlinear Models", working paper. www.stern.nyu.edu/~wgreene/nonlinearfixedeffects.pdf
Mundlak, Y. (1978). "On the pooling of time series and cross section data." Econometrica, 69-85.
Hahn and Kuersteiner (2004); Hahn and Newey (2005); Fernandez-Val (2009)（Greene, Econometric Analysis, ch.17.4.5 で参照）。固定効果ロジットは Wooldridge (2010), p.621。
Train (2009) Discrete Choice Methods with Simulation, 2nd ed.（3本以上の二値結果に対する MSL）。
Wooldridge (2010) Econometric Analysis of Cross Section and Panel Data, 2nd ed.（IVプロビットの対数尤度 p.591、CRE p.615、固定効果ロジット p.621）; Wooldridge, Introductory Econometrics, ch.17。

出典：原典 P.85（章末参照リスト）および本文中の引用。