SECTION 01
内生性とは ― OLS.3 の破綻
仮定 OLS.3(厳密外生性) が破れると何が起きるか。これが本章の出発点である。
内生性とは 説明変数が誤差項と相関すること ― すなわち \(\mathrm{Cov}(u_i, x_{ki}) \neq 0\) を意味する。
\[ y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \cdots + \beta_K x_{Ki} + u_i \]
内生性(endogeneity)の定義 ― 仮定 OLS.3 の破綻: \(E(u_i \mid X) \neq 0\)。
仮定 OLS.3 は \(\mathrm{Cov}(u_i, x_{ki}) = 0\) を含意する。なぜなら次のように示せるからである。
\[
\begin{aligned}
\mathrm{Cov}(u_i, x_{ki})
&= E(u_i x_{ki}) - E(u_i)\,E(x_{ki}) \\[2pt]
&= E\!\big[E(u_i x_{ki}\mid X)\big] - E\!\big[E(u_i\mid X)\big]\,E(x_{ki})
\quad \text{(全期待値の法則 Law of Total Expectation)} \\[2pt]
&= E\!\big[x_{ki}\,E(u_i\mid X)\big] - E\!\big[E(u_i\mid X)\big]\,E(x_{ki})
\quad \text{(\(x_{ki}\) は \(X\) に含まれるため)} \\[2pt]
&= 0
\quad \text{(\(E(u_i\mid X) = 0\) ゆえ)}
\end{aligned}
\]
出典:Hayashi, Econometrics , pp.8–9。原典 P.50。
したがって、内生性は \(\mathrm{Cov}(u_i, x_{ki}) \neq 0\) を含意する。すなわち 説明変数の一部(\(x_k\))と残差(\(u\))が相関している 状態である。
\(x\) が \(u\) と相関するとき、その \(x\) を 内生変数(endogenous variable) と呼ぶ。相関しない場合は 外生変数(exogenous variable) と呼ぶ。
仮定 OLS.3 の破綻は、バイアスを持ち、かつ一致性を欠く推定量 をもたらす(不偏性と一致性が仮定 OLS.3 を要求していたことを思い出そう)。これは、推定量の条件付き期待値を展開すると確認できる。
\[
E\!\big[\hat{\boldsymbol{\beta}}_1 \mid X\big]
= \boldsymbol{\beta}_1 + (X'X)^{-1} X'\, E[u \mid X]
= \boldsymbol{\beta}_1 + (X'X)^{-1} X'\, \underbrace{E[u \mid X]}_{\neq\,0}
\;\neq\; \boldsymbol{\beta}_1
\]
内生性の問題があるとき、推定された係数は「因果(causality) 」を表さない。むしろそれは単なる「因果+バイアス(causality + bias) 」である。計量経済学の目的は因果を明らかにすることであった。ゆえに、内生性の問題には十分な注意を払わねばならない。
SECTION 02
内生性の原因 ― 5つの類型
内生性をもたらす原因は、大きく 5つの類型 に整理される。以降の節で一つずつ導出していく。
1
欠落変数(交絡変数 / omitted variable, confounder)
\(x\) と相関する観察されない要因が回帰から欠落している場合。
2
同時性バイアス(simultaneity bias)
\(x\) と \(y\) が同時決定される場合(\(x\) が \(y\) を引き起こし、\(y\) が \(x\) を引き起こす「逆の因果 reverse causality」を含む)。
3
測定誤差(変数誤差 / measurement error, errors-in-variables)
\(x\) が誤差を伴って測定される場合。
4
非ランダム抽出(nonrandom sampling)
標本が非ランダムに抽出される場合。
5
パラメータの異質性(parameter heterogeneity)
係数がデータ単位間で共通でない場合。
出典:原典 P.50。
SECTION 03
欠落変数(交絡変数)
\(y\) に影響し、かつ \(x\) と相関する観察されない要因 が存在するとき、その変数を欠落させると内生性が生じ、OLS 推定値はバイアスを持つ。
典型例を2つ挙げる。観察されない要因が誤差項に紛れ込む構造に注目せよ。
\[
\begin{aligned}
\text{Wage}_i &= \beta_0 + \beta_1 \text{Education}_i + u_i \\
&= \beta_0 + \beta_1 \text{Education}_i + \big(\text{Ability}_i + u_i^{*}\big)
\end{aligned}
\]
\[
\begin{aligned}
\text{Yield}_i &= \beta_0 + \beta_1 \text{Fertilizer}_i + u_i \\
&= \beta_0 + \beta_1 \text{Fertilizer}_i + \big(\text{Soil Quality}_i + u_i^{*}\big)
\end{aligned}
\]
賃金式では 能力(Ability) が、収量式では 土壌の質(Soil Quality) が、それぞれ観察されないまま誤差項に含まれる。能力は教育年数と、土壌の質は施肥量と相関しうるため、これらを欠落させると内生性が生じる。
したがって、できるだけ多くの説明変数を用いる ことが重要である。なお、無関係な変数(irrelevant variables)を含めてもバイアスは生じない。ただし標準誤差(s.e.)は大きくなる。
SECTION 04
バッド・コントロール問題
ただし、「応答変数(response variable)」を説明変数に含めてはならない 。
多くの変数を入れることが推奨される一方で、入れてはいけない変数も存在する。
\(T\) が \(D\) に与える影響を知りたい とする。このとき、もし変数 \(A\) が \(T\) によって影響を受けるならば、\(A\) を含めてはならない(下図のパネル A と D を参照)。
たとえば、\(T\) を教育、\(D\) を賃金とする。ここで労働者の産業(\(A\))を制御してしまうと、それが教育の影響の一部(あるいは大部分)を吸収してしまうため、教育の係数は真の効果より小さくなる。これを バッド・コントロール問題(bad control problem) と呼ぶ。
4つのケースの判断基準は次の通りである。Case A:\(A\) を制御しない(バッド・コントロール)。 Case B:\(A\) を制御すべき。 Case C:\(A\) または \(Z\) を制御すべき。 Case D:\(A\) を制御しない(バッド・コントロール)。
原典 P.51 の図(\(T\)・\(D\) の関係に関する有向非巡回グラフ DAG、パネル A〜D の経路図)は本書き起こしでは省略している。各ケースの矢印の向きと交絡経路は原典の図および出典 Buckley, et al. (2014) を参照のこと。
Professor Note ― バッド・コントロール
バッド・コントロール問題は、Angrist and Pischke Mostly Harmless Econometrics の第3.2.2節で詳しく論じられている。直感的には、「処置の結果として決まる変数」を制御変数に入れると、本来測りたい因果経路を塞いでしまう、ということである。
原典 P.51。図の出典:Buckley, J. P., Samet, J. M., & Richardson, D. B. (2014).
SECTION 05
バイアスの向き
欠落変数バイアスの符号 は、単回帰の場合には公式から読み取れる。
\(x\) と欠落変数の相関の向き がバイアスの向きを決める。
単一説明変数のケース \( y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 a_i + u_i \) を考える。変数 \(a\) を欠落させたモデルに OLS を適用すると、次が成り立つ。
\[
\hat{\beta}_2 \;\approx\; \beta_2 + \beta_3 \,\frac{\mathrm{cov}(x_{2i},\, a_i)}{\mathrm{var}(x_{2i})}
\]
正の相関 → 上方バイアス
\(x\) と \(\beta_3 a\) が正に相関するとき、上方バイアス(upward bias)が生じる。
\(\hat{\beta}_2\) は真の \(\beta_2\) より大きく出る。
負の相関 → 下方バイアス
負に相関するとき、下方バイアス(downward bias)が生じる。
\(\hat{\beta}_2\) は真の \(\beta_2\) より小さく出る。
複数説明変数のケースでは、バイアスの向きを導くのはより難しい (Greene 2012, p.96 を参照)。ただし上記の公式は、起こりうるバイアスの大まかな指針を与える(Wooldridge, IE, ch.3)。
Advanced tips ― バイアスの大きさの推定
バイアスの向き だけでなく、大きさ まで推測できる。Altonji et al (2005)、Bellows and Miguel (2009, 付録A)、あるいは Kahn and MacGarvie (2016) が示す手法を用いればよい。また、起こりうる欠落変数バイアスの程度は、Oster (2019) のアプローチによって評価できる。
原典 P.52。
SECTION 06
同時性バイアス ― 需給と逆の因果
\(x\) と \(y\) が 同時に決定される とき、説明変数は誤差項と相関する。
代表例が 需要・供給の同時決定 と 逆の因果(reverse causality) である。
Example 1 ― 需要と供給
30 時点を記録した国レベルのマクロデータを用いて、次のモデルを推定したいとする。
\[
\begin{aligned}
Q_i &= \beta_0 + \beta_1 P_i + v_i \qquad \text{(需要関数 demand function)} \\
Q_i &= \alpha_0 + \alpha_1 P_i + u_i \qquad \text{(供給関数 supply function)}
\end{aligned}
\]
観察されない需要ショック(\(v\))は、市場均衡を通じて価格(\(P\))に影響する。したがって需要関数において \(P\) と \(v\) は相関する。供給関数についても同様である。これは2つの方程式を解くことで数学的に確認できる。
\[
P_i = \frac{\beta_0 - \alpha_0}{\alpha_1 - \beta_1} + \frac{u_i - v_i}{\alpha_1 - \beta_1}
\]
\(P_i\) が \(u_i\) と \(v_i\) の双方を含むことが明示される。ゆえに \(Q\) を \(P\) に回帰しても、需要関数も供給関数も明らかにならない 。
この問題は、国レベルのマクロデータではなく、個票(農場や消費者の)レベルのデータ を扱う場合には無視できる。ただし、製品の特性のような別のメカニズムが価格変数を内生的にする(「操作変数法」の節を参照)。
原典 P.52 の図((a) 複数時点における需要・供給曲線のシフトと均衡点、(b) 均衡価格・数量の散布図)は本書き起こしでは省略している。均衡点が需給双方のシフトの交点として観測される様子は原典の図を参照のこと。
Example 2 ― 逆の因果
次の連立構造を考える。\(x\) が \(y\) を決め、同時に \(y\) が \(x\) を決める。
\[
\begin{aligned}
y_i &= \beta_0 + \beta_1 x_i + u_i \\
x_i &= \alpha_0 + \alpha_1 y_i + v_i
\end{aligned}
\]
両方程式とも内生性の問題に直面する。なぜなら、\(y_i\) を \(x_i\) の式に代入して整理すると次が導かれるからである。
\[
\begin{aligned}
x_i &= \alpha_0 + \alpha_1\big(\beta_0 + \beta_1 x_i + u_i\big) + v_i \\[2pt]
&\Longleftrightarrow\;
x_i = \frac{\alpha_1}{\,1 - \alpha_1\beta_1\,}\, u_i + C \\[2pt]
&\Longleftrightarrow\;
\mathrm{Cov}(x_i, u_i) = E(x_i u_i) - E(x_i)E(u_i)
= E\!\left[\left(\frac{\alpha_1}{1 - \alpha_1\beta_1}\, u_i\right) u_i\right] - 0
= \frac{\alpha_1}{\,1 - \alpha_1\beta_1\,}\, E(u_i^2) \neq 0
\end{aligned}
\]
ここで \(C\) は \(u_i\) を含まない項をまとめたものである。
したがって、\(x\) と \(u\) は相関する。\(y\) を \(x\) に回帰しても \(\beta\) たちは明らかにならない(\(y\) と \(v\) についても同様の議論が成り立つ)。
SECTION 07
測定誤差(Measurement error)
これまで \(x\) は誤差なく測定されると仮定してきたが、現実の経済データはしばしば測定誤差を伴う。
一般に 説明変数の測定誤差はバイアスを生む が、被説明変数の測定誤差はバイアスを生まない (誤差が残差 \(u\) に吸収されるため)。
単一説明変数モデルを考える。真の \(x_i^{*}\) は観察できず、代わりに誤って測定された値 \(x_i\) を観察するとする。
1
真のモデル
\( y_i = \beta_0 + \beta_1 x_i^{*} + u_i \)。ただし真の \(x_i^{*}\) は観察できない。
2
観察される値と測定誤差
\( x_i = x_i^{*} + e_i \)。ここで \(e\) は \(E(e) = 0\) を満たす測定誤差である。
3
実際に推定する式
\( y_i = \beta_0 + \beta_1 x_i + (u_i - \beta_1 e_i) \)。なお \(u\) は \(x_i^{*}\) とも \(x_i\) とも無相関と仮定する。
一般に、\(x\) は \(e\) と相関する。なぜなら次が成り立つからである。
\[
\begin{aligned}
\mathrm{Cov}(x_i, e_i)
&= E(x_i e_i) - E(x_i)\,E(e_i) = E(x_i e_i) \\[2pt]
&= E\!\big[(x_i^{*} + e_i)\,e_i\big]
= E(x_i^{*} e_i) + E(e_i^{2}) \\[2pt]
&= \mathrm{Cov}(x_i^{*}, e_i) + \mathrm{Var}(e_i)
\end{aligned}
\]
非常に特殊なケース(\(\mathrm{Cov}(x_i^{*}, e_i) = -\,\mathrm{Var}(e_i)\))を除けば、\(\mathrm{Cov}(x_i, e_i)\) はゼロにならない。したがって、\(x\) と全体の誤差項 \((u_i - \beta_1 e_i)\) は相関する。
測定誤差のもとでは、推定された係数は ゼロに向かってバイアスを持つ(attenuation bias = 減衰バイアス) 。
直感: 測定誤差が重要であるほどバイアスは深刻になり、極端なケースでは測定誤差がデータを完全に支配し、真のパラメータ値にかかわらず推定係数はゼロに向かう。説明変数がゴミ(真の情報を含まない)であれば、何も説明できない(=非常に低い、あるいはゼロの係数しか得られない)のである。
Professor Note ― 複数説明変数の場合
説明変数が2つ以上ある場合、バイアスはゼロから遠ざかる 方向にも生じうる(Lobell 2013)。直感的には、2つの説明変数が互いに相関し、一方が他方よりはるかに大きな誤差で測定されている場合に起こりうる。Lobell は、起こりうる測定誤差を補正するためにシミュレーションに基づくアプローチを適用している。測定誤差には他にも多くの形態がある(Abay et al 2023 を参照)。
参照:Wooldridge, IE, Ch.9。原典 P.53 脚注16。
SECTION 08
パラメータの異質性
\(x_i\) のパラメータがデータ単位ごとに異なるとする。このとき、異質性が \(x_i\) の大きさに依存する と内生性が生じる。
\(x_i\) のパラメータが個体ごとに \(\alpha_i\) と異なると仮定する。これを平均まわりに展開すると、誤差項に異質性の項が現れる。
\[
y_i = \beta + \alpha_i x_i + u_i
= \beta + E[\alpha_i]\,x_i + \big[\,u_i + (\alpha_i - E[\alpha_i])\,x_i\,\big]
\]
すべての個体について \(\alpha_i\) を推定することはできない。では、平均 \(E[\alpha_i]\) なら推定できるだろうか。鍵は、異質性の項 \((\alpha_i - E[\alpha_i])\) と \(x_i\) が相関するか否かにある。
\((\alpha_i - E[\alpha_i])\) と \(x_i\) が相関 → 内生性
パラメータの異質性が \(x_i\) の大きさに依存する場合。
説明変数 \(x_i\) が全体の誤差項 \([\,u_i + (\alpha_i - E[\alpha_i])\,x_i\,]\) と相関する。
これが内生性を引き起こす。
無相関 → OLS で一致推定可
\((\alpha_i - E[\alpha_i])\) と \(x_i\) が無相関の場合。
平均パラメータ \(E[\alpha_i]\) を OLS で一致推定できる。
Advanced tips ― 固定効果モデルでの異質性
固定効果モデルの下でのパラメータの異質性については、推定された係数は \(\alpha_i\) の分散加重平均(variance-weighted average) であって、\(E[\alpha_i]\) ではない。Carter et al (2018) および Gibbons et al (2018) を参照のこと。
原典 P.54。
SECTION 09
非ランダム抽出(Nonrandom sampling)
標本が非ランダムに抽出される と、OLS 推定値はバイアスを持ちうる。
鍵は 何に基づいて標本が選択されたか である。
2つの例で考える。
調査設計による非ランダム性: \(y\) を米の収量とする。調査が極端に低い収量(たとえば \(y < 100\,\text{kg}/10\text{a}\))を除外している場合、\(y\) の決定要因の一致推定値は得られない。
個人の意思決定による非ランダム性: \(y\) を賃金とする。賃金は実際に職を持つ者についてのみ観察される。この非ランダム性は、個人の意思決定によって生じる(自己選択 self selection、または付随的選択 incidental selection)。
一般則(General rule): \(y\)(または \(u\))に基づく標本選択 → バイアスが生じる。\(x\) に基づく標本選択 → バイアスは生じない。
原典 P.54 の図は、このアイデアを示している。観測値(黒点)の中で \(x\) がゼロに近づくとき \(E(u_i) > 0\) となること、すなわち \(E(u_i \mid X) = 0\) の破綻が容易に見て取れる。
原典 P.54 の散布図(\(y\) または \(u\) に基づく標本切り詰めにより、残された黒点で \(x\to 0\) のとき \(E(u_i) > 0\) となる様子を示す)は本書き起こしでは省略している。詳細は原典の図を参照のこと。
SECTION 10
内生性への解決策
内生性に対しては、問題の型に応じた複数の手法 が用意されている。基本的な解決策と、より発展的な解決策に分けて整理する。
基本的な解決策
Solution 01
説明変数を多く用いる
欠落変数バイアスを避けるため、できるだけ多くの説明変数を用いる(ただしバッド・コントロール問題に注意)。
Solution 02
操作変数法
操作変数法(instrumental variable method)。次章で詳述する。
Solution 03
固定効果・階差
固定効果(fixed effect)、一階差分(first difference)。\(x\) が時間不変の観察されない要因と相関する場合に有効。
Solution 04
標本選択モデル
標本選択モデル(Heckman モデル)。背後にある選択メカニズムを定式化する。操作変数に似た変数が必要となる。
処置効果モデル(treatment effects model): 内生変数がダミー(0/1)である場合に用いる。傾向スコアマッチング(propensity score matching)、差の差分析(difference-in-difference)、合成統制法(synthetic control)、回帰不連続デザイン(regression discontinuity)など。
発展的な解決策
Copula(コピュラ)
\(x\) と \(u\) の相関をモデル化し、その情報を尤度関数に用いて一致推定値を得る(Park and Gupta 2012)。
Lewbel (2012)
外生的な操作変数(exogenous IVs)に頼らない。誤差項の不均一分散(heteroskedasticity)に基づいてモデルを識別 する。誤測定された/内生的な説明変数を持つモデルの識別・推定に用いる。
LiNGAM(Shimizu 2014)
非ガウス性を利用して因果構造を推定する手法。データから「\(a\to b\) なのか \(b\to a\) なのか」を見抜くアプローチ。
全最小二乗法(TLS)
測定誤差に対しては、全最小二乗法(total least squares, TLS)を用いることができる。
SECTION 11
代理変数(Proxy variable)
観察できない変数 \(a\) を欠落させると欠落変数バイアスが生じる。そこで \(a\) の代理変数(proxy)\(a^{*}\) を用いる。
問題は どんな仮定があれば一致推定が得られるか である。
次のモデルを考える。\( y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 a_i + u_i \)。変数 \(a\) は観察できない。これを推定モデルから欠落させると、パラメータはバイアスを持ちうる(欠落変数バイアス)。
そこで、\( a_i = \delta_1 + \delta_2 a_i^{*} + v_i \) を満たす代理変数 \(a_i^{*}\) を持っているとし、\(y_i\) を \(x_{2i}\) と \(a_i^{*}\) に回帰する。\(\beta_2\) の一致推定値を得るには、どんな仮定が必要か。
ケース1 ― 代理変数が \(x_2\) と相関しない場合
\[
\begin{aligned}
y_i &\Longleftrightarrow \beta_1 + \beta_2 x_{2i} + \beta_3\big(\delta_1 + \delta_2 a_i^{*} + v_i\big) + u_i \\[2pt]
&\Longleftrightarrow (\beta_1 + \beta_3\delta_1) + \beta_2 x_{2i} + \beta_3\delta_2 a_i^{*} + \big(\beta_3 v_i + u_i\big)
\end{aligned}
\]
したがって、\((v, u)\) が \((x_2, a_i^{*})\) と無相関であれば、OLS 推定量は \(\beta_2\) の一致推定値を与える。ただし、\(\beta_1\) と \(\beta_3\) は復元できない点に注意せよ。
ケース2 ― \(a_i\) が \(x_{2i}\) とも相関する場合
もし \(a_i\) が \(x_{2i}\) とも相関し \( a_i = \delta_1 + \delta_2 a_i^{*} + \delta_3 x_{2i} + v_i \) であるなら、モデルは次のように書き換えられる。
\[
\begin{aligned}
y_i &\Longleftrightarrow \beta_1 + \beta_2 x_{2i} + \beta_3\big(\delta_1 + \delta_2 a_i^{*} + \delta_3 x_{2i} + v_i\big) + u_i \\[2pt]
&\Longleftrightarrow (\beta_1 + \beta_3\delta_1) + (\beta_2 + \beta_3\delta_3)\,x_{2i} + \beta_3\delta_2 a_i^{*} + \big(\beta_3 v_i + u_i\big)
\end{aligned}
\]
このとき \(\beta_2\) も復元できない。ゆえに、\(a_i^{*}\) を制御した後では、\(a_i\) の期待値が他の説明変数(ここでは \(x_2\))と相関してはならない 。
例として賃金式を考える。\( \text{Wage}_i = \beta_0 + \beta_1 \text{Education}_i + (\text{Ability}_i + u_i^{*}) \)。能力の代理として IQ スコアを用いる場合、上の条件は次を要求する。
\[
E(\text{ability} \mid \text{education}, \text{IQ}) = E(\text{ability} \mid \text{IQ}) = \gamma_1 + \gamma_2\,\text{IQ}
\]
これは現実に成り立ちそうか? ― おそらく成り立つ(probably)。ただし能力は観察できないため、この主張を「検定」することはできない。
Reference
代理変数については Wooldridge, IE, Ch.9.2 を参照。
原典 P.55。
SECTION 12
参考文献(References)
Abay, K. A., Wossen, T., Abate, G. T., Stevenson, J. R., Michelson, H., & Barrett, C. B. (2023). "Inferential and behavioral implications of measurement error in agricultural data." Annual Review of Resource Economics , 15(1), 63-83.
Altonji, Joseph G.; Elder, Todd E.; Taber, Christopher R. (2005) "Selection on Observed and Unobserved Variables: Assessing the Effectiveness of Catholic Schools." Journal of Political Economy , February 2005, v.113, issue 1, pp.151-84.
Bellows, J., & Miguel, E. (2009). "War and local collective action in Sierra Leone." Journal of Public Economics , 93(11), 1144-1157.
Buckley, J. P., Samet, J. M., & Richardson, D. B. (2014). "Commentary: Does air pollution confound studies of temperature?" Epidemiology , 25(2), 242-245.
Carter, C., Cui, X., Ghanem, D., & Mérel, P. (2018). "Identifying the Economic Impacts of Climate Change on Agriculture." Annual Review of Resource Economics , 10, 361-380.
Gibbons, C. E., Serrato, J. C. S., & Urbancic, M. B. (2018). "Broken or fixed effects?" Journal of Econometric Methods , 8(1).
Kahn, S., & MacGarvie, M. J. (2016). "How Important is US Location for Research in Science?" Review of Economics and Statistics , 98(2), 397-414.
Lewbel, A. (2012). "Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models." Journal of Business & Economic Statistics , 30(1), 67-80.
Lobell, D. B. (2013). "Errors in climate datasets and their effects on statistical crop models." Agricultural and Forest Meteorology , 170, 58-66.
Oster, E. (2019). "Unobservable selection and coefficient stability: theory and evidence." J. Bus. Econ. Stat. 37(2), 187-204.
Park, S. and Gupta, S. (2012). "Handling endogenous regressors by joint estimation using copulas." Marketing Science , 31(4):567-586.
Shimizu, S. (2014). "LiNGAM: Non-Gaussian methods for estimating causal structures." Behaviormetrika , 41(1), 65-98.
出典:原典 P.56。本文で言及される Hayashi Econometrics 、Wooldridge Introductory Econometrics (IE) 、Angrist and Pischke Mostly Harmless Econometrics 、Greene (2012) は「推薦教科書」(第1章)も参照。
Chapter 8
標準誤差と不均一分散
Chapter 10
操作変数法