Chapter 10 · Part III 内生性と識別 · 原典 P.57–67

操作変数法

説明変数が誤差項と相関するとき、OLS 推定量はバイアスを持つ。説明変数と相関しつつ誤差項とは無相関な「操作変数」を見つけられれば、パラメータを一致推定できる。本章は IV の直観・2条件・2SLS・識別・需給の同時性・各種検定・弱操作変数問題、そして需給推定のシミュレーション付録までを通して扱う。

操作変数 2SLS 関連性外生性弱操作変数需要と供給

川崎賢太郎（東京大学大学院農学生命科学研究科）原典 P.57–67 Instrumental variable

図解で読む原文に忠実な和訳

Contents

01. 概観 ― IV の直観
02. IV 推定量（単一操作変数）
03. 推測 ― IV 推定量の分散
04. 2SLS 推定量（複数操作変数）
05. 例 1〜4 ― 良い IV とは何か
06. 例 3 詳説 ― 需要と供給
07. いくつかの注意点
08. 内生性の検定（Hausman / DWH）
09. IV の妥当性検定・弱操作変数
10. 発展的ティップス
11. 付録 ― 需給推定のシミュレーション
12. 参考文献

SECTION 01

概観 ― IV の直観

[参考文献] Wooldridge, IE, Ch.15 ／ Wooldridge, 2010, Ch.5 ／ Angrist and Krueger (2001).

\(x\) が \(u\) と相関する次のモデルを考える。これは仮定 OLS.3 に違反するため、 \(\beta_0,\beta_1\) いずれの OLS 推定量もバイアスを持つ。

\[ y = \beta_0 + \beta_1 x + u \qquad (x \text{ と } u \text{ が相関}) \]

もし \(x\) とは相関するが \(u\) とは無相関な 操作変数（instrumental variable）\(z\) を見つけられれば、パラメータを一致推定（consistently estimate）できる。\(z\) は \(x\) に作用するが、\(y\) には \(x\) を通じてのみ作用する（\(u\) には直接作用しない）。

\[ z \;\longrightarrow\; x \;\longrightarrow\; y \;\longleftarrow\; u \qquad (z \perp u) \]

操作変数 \(z\) は内生変数 \(x\) に効き、\(x\) を経由して \(y\) に効く。誤差項 \(u\) とは結ばれない（原典 P.57・P.58 の関係図）。

直観：IV は \(x\) を2つの部分に分解する ― すなわち、\(u\) と相関しうる部分と、相関しない部分とに。\(u\) と相関しない部分だけを取り出すことで、パラメータの一致推定が可能になる。

\[ y = \beta_0 + \beta_1 \underbrace{x_1(z)}_{\text{相関なし！}} + (\beta_1 x_2 + u) \]

\(x_1(z)\) は \(z\) で説明される（\(u\) と相関しない）部分。これを使うことで一致推定が成り立つ。

SECTION 02

IV 推定量（単一操作変数）

内生変数の数と操作変数の数がともに 1つのときは、きわめて単純な計算が可能である。

推定しようとするモデルを書き下す。\(y = \beta_0 + \beta_1 x + u\)、ただし \(x\) は \(u\) と相関する。

IV は次の2条件を満たさねばならない ― 関連性 \(\mathrm{Cov}(z,x)\neq 0\) と 外生性 \(\mathrm{Cov}(z,u)=0\)。したがって次が成り立つ。

\[ \mathrm{Cov}(z,y) = \mathrm{Cov}\!\big(z,\ \beta_0 + \beta_1 x + u\big) = \beta_1\,\mathrm{Cov}(z,x) + \underbrace{\mathrm{Cov}(z,u)}_{=\,0} \]

\[ \Longrightarrow\quad \beta_1 = \frac{\mathrm{Cov}(z,y)}{\mathrm{Cov}(z,x)} \]

このようにしてパラメータを解くことができる。最後の段階は、母共分散を標本共分散で置き換えることである。

\[ \hat{\beta}_1 = \frac{\displaystyle\sum_{i=1}^{n}(z_i-\bar{z})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^{n}(z_i-\bar{z})(x_i-\bar{x})} \qquad\qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1\,\bar{x} \]

これを IV 推定量（IV estimator）、または ワルド推定量（Wald estimator） と呼ぶ。

Professor Note ― 複数の説明変数があるとき（脚注17）

説明変数が複数ある場合、すなわち \(y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \dots + \beta_k x_{ki} + u_i\) で、\(x_{ki}\) のみが誤差項と相関するとき、IV 推定量は次の形になる。

\[ \hat{\boldsymbol{\beta}} = \big[\mathrm{E}(\mathbf{z}'\mathbf{x})\big]^{-1}\mathrm{E}(\mathbf{z}'\mathbf{y}) \]

詳細は Wooldridge, 2010, p.91 を参照。

原典 P.58 脚注17。

SECTION 03

推測 ― IV 推定量の分散

大標本では、推定量の標本分布は正規分布に従う。推測（仮説検定・信頼区間）は通常どおり、たとえば \(\pm 1.96\,SE\) の形で進める。

いまは不均一分散（heteroskedasticity）の問題がないと仮定しよう。すなわち、

\[ V(u) = \mathrm{E}(u^2 \mid \mathbf{X}) = \sigma^2 \]

このとき、IV 推定量の分散は次で与えられる。

\[ V(\hat{\beta}_1) = \frac{\sigma^2}{n\,\sigma_x^2\,\rho_{x,z}^2} \]

ここで \(\sigma^2\) は \(u\) の母分散、\(\sigma_x^2\) は \(x\) の母分散、\(\rho_{x,z}\) は \(x\) と \(z\) の母相関係数である。

真のパラメータを推定値で置き換える。

\[ \hat{V}(\hat{\beta}_1) = \frac{\hat{\sigma}^2}{n\,\hat{\sigma}_x^2\,\hat{\rho}_{x,z}^2} \]

他方、OLS 推定量の分散は次のように与えられる（Wooldridge, IE, ch.2 を参照）。

\[ \hat{V}(\hat{\beta}_1)^{OLS} = \frac{\hat{\sigma}^2}{n\,\hat{\sigma}_x^2} \]

いまや OLS と IV の分散を比較でき、きわめて重要な差が見える。\(\rho_{x,z} < 1\) であるかぎり、IV 推定量の分散は常に OLS 推定量の分散より大きくなる。

したがって、IV 推定を行うとき、われわれは次を必要とする。

強い IV を見つける

\(\rho_{x,z}\) ができるだけ高くなるように。すなわち、操作変数が内生変数と強く相関するように。

大きな標本サイズを確保する

\(n\,\sigma_x^2\) ができるだけ高くなるように。

SECTION 04

2SLS 推定量（複数操作変数）

操作変数の数 ≥ 内生変数の数のとき、異なる戦略が必要になる。これが 2段階最小二乗法（two stage least square, 2SLS）である。

構造方程式（structural equation）は次のとおり。

\[ \mathbf{y} = \mathbf{Y}\boldsymbol{\beta}_1 + \mathbf{X}\boldsymbol{\beta}_2 + \mathbf{u} \]

\(\mathbf{Y}\) は内生変数のベクトル、\(\mathbf{X}\) は外生変数のベクトルである（係数 \(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2\) は別）。

第1段階（first stage）を OLS で推定する

次の第1段階方程式を OLS で推定する。\(\mathbf{Z}\) は操作変数のベクトルである。

\[ \mathbf{Y} = \mathbf{Z}\boldsymbol{\gamma}_1 + \mathbf{X}\boldsymbol{\gamma}_2 + \mathbf{v} \]

予測値を計算し、第2段階を OLS で推定する

予測値 \(\hat{\mathbf{Y}} = (\mathbf{Z}\hat{\boldsymbol{\gamma}}_1 + \mathbf{X}\hat{\boldsymbol{\gamma}}_2)\) を計算し、次の方程式を OLS で推定する。

\[ \mathbf{y} = \hat{\mathbf{Y}}\boldsymbol{\beta}_1 + \mathbf{X}\boldsymbol{\beta}_2 + \mathbf{u} \]

識別（identification）について：操作変数 \(\mathbf{Z}\) の数は、内生変数 \(\mathbf{Y}\) の数と等しいか、それより多くなければならない（次数条件）。

第2段階では、\(\mathbf{Y}\) の真値ではなく予測値を用いるため、通常の標準誤差は正しくない。予測誤差を考慮する必要がある（もちろんソフトウェアが自動的に補正するので、心配は要らない）。

\(\#\mathbf{Y} = \#\mathbf{Z} = 1\) のとき、2SLS 推定量と IV 推定量は一致する。

SECTION 05

例 1〜4 ― 良い IV とは何か

何が良い IV かは、2条件（関連性・外生性）に照らして判定する。具体例で感覚をつかむ。

Example 1 ― 生産関数（production function）

\[ \mathrm{Yield}_i = \beta_0 + \beta_1 \mathrm{Fertilizer}_i + \beta_2 \mathrm{Pesticide}_i + \beta_3 \mathrm{Labor}_i + u_i \]

\[ = \beta_0 + \beta_1 \mathrm{Fertilizer}_i + \beta_2 \mathrm{Pesticide}_i + \beta_3 \mathrm{Labor}_i + (\text{Soil Quality}_i + \text{Pest pressure}_i + \text{Farmer's skill}_i + \text{other factors}_i) \]

ここで投入要素（inputs）は、観察できない要因と相関するため内生的になりやすい。では何が良い IV か。

候補の判定

天候（雨・気温）？ → 無効（Invalid）。投入要素とは相関しそうだが、誤差項とも相関する。説明変数（regressor）として使うべきである。
投入価格（肥料価格・農薬価格・労賃）→ 有効（Valid）。投入要素と相関しそうだが、誤差項とは無相関である。

Professor Note ― 操作変数に頼らない方法（脚注18）

Olley and Pakes (1996) は、操作変数に頼ることなく、生産関数における同時性バイアス（simultaneity bias）を制御する。彼らのアプローチは潜在的な選択バイアス（生産性の低い農場が産業から退出し、より生産性の高い農場に置き換わる）も制御する。Levinsohn and Petrin (2003) は、投資の代わりに中間投入（intermediate inputs）を用いることで Olley and Pakes (1996) のアプローチを修正することを提案している。

原典 P.59 脚注18。

Example 2 ― 賃金方程式（wage equation）

\[ \mathrm{Wage}_i = \beta_0 + \beta_1 \mathrm{Education}_i + u_i = \beta_0 + \beta_1 \mathrm{Education}_i + (\mathrm{Ability}_i + \text{other factors}_i) \]

ここで教育（education）は、観察できない要因と相関するため内生的になる。では何が良い IV か。

候補の判定

IQ テストのスコア → 無効。誤差項と相関する。説明変数として使うべき。（IQ を能力の代理変数 proxy として使えば、内生性の問題は消えるかもしれない。「代理変数（Proxy variable）」の節を参照。）
学生の住所の郵便番号 → 無効。誤差項とは無相関だが、内生変数とも無相関である（＝関連性を満たさない）。
母親の学歴 → 無効。誤差項と相関する。
兄弟姉妹の数 → おそらく有効（Maybe valid）。（ただし、説明変数 education との相関が弱すぎるかもしれない。）

Example 4 ― 差別化財の需要システム（demand system for differentiated products）

\[ Q_{ij} = \beta_{0j} + \beta_{1j} P_j + \mathbf{x}\boldsymbol{\beta} + \mathbf{z}\boldsymbol{\gamma} + v_{ij} \]

ここで \(i\) はデータ単位（例：世帯）、\(j\) は製品、\(Q\) は需要、\(P\) は価格、\(\mathbf{x}\) は製品特性、\(\mathbf{z}\) は消費者特性である。

たとえば米の需要では、\(j\) は品種（新潟コシヒカリ、北海道ゆめぴりか）を表し、\(\mathbf{x}\) はタンパク質含有量・生産年などにあたる。\(P_j\) は内生的である ― 広告努力や陳列棚の位置のような、観察できない製品特性と相関するためである。

\[ Q_{ij} = \beta_{0j} + \beta_{1j} P_j + \mathbf{x}\boldsymbol{\beta} + \mathbf{z}\boldsymbol{\gamma} + (\text{product quality}_j + \text{other factor}_{ij}) \]

この場合に考えられる IV

製品固有のコストシフター（product-specific cost shifters）。
ライバル財の特性（characteristics of rival goods）。もし \(\mathbf{x}\) が \(P\) の設定より前に選択されるなら、競合財の特性 \(\mathbf{x}\) は観察できない要因と直交（無相関）するが、\(P\) とは体系的に関連するはずである（Berry, Levinsohn and Pakes 1995）。ただし、意思決定のタイミングが上記の筋書きと異なる場合、操作変数は妥当でないかもしれない。さらに、操作変数は妥当ではあっても弱い（weak）かもしれない。

その他の IV の選び方については Angrist and Krueger (2001) および川崎 (2022) を参照。

SECTION 06

例 3 詳説 ― 需要と供給

需要・供給の連立方程式では、価格 \(P\) は内生的である。需給は同じ価格・数量で同時に決まるため、片方の方程式だけを OLS で推定すると同時性バイアスが生じる。

需要関数（demand function）

\[ Q_i = \alpha_0 + \alpha_1 P_i + v_i \]

需要関数の推定には 供給シフター（supply shifter）、たとえば天候を IV として使える。
供給側を動かすが需要には直接効かないため、価格 \(P\) とは相関し誤差 \(v\) とは無相関になる。

供給関数（supply function）

\[ Q_i = \beta_0 + \beta_1 P_i + u_i \]

供給関数の推定には 需要シフター（demand shifter）、たとえば家計所得を IV として使える。
需要側を動かすが供給には直接効かないため、価格 \(P\) とは相関し誤差 \(u\) とは無相関になる。

シフターの使い分けが識別の鍵。需要を推定したいなら供給を動かす変数を、供給を推定したいなら需要を動かす変数を IV にする。数値例は本章末の付録（SECTION 11）を参照。

原典 P.60 には、需給均衡が価格・数量を決定し、供給曲線がシフトする様子を示した図（"Equilibrium price and quantity when only the supply curve shifts"）が掲載されている。本図解では割愛し、その意味を上の対比で示した。原典 P.60 の図を参照のこと。

SECTION 07

いくつかの注意点（Some caveats）

IV／2SLS は万能ではない。内生性がないなら OLS のほうが効率的であり、2SLS は「一致するが、決して不偏ではない」。

内生性がなければ OLS が効率的

内生性が存在しないとき、OLS は 2SLS よりも効率的である。

不均一分散には頑健標準誤差を

不均一分散が存在するときは頑健標準誤差（robust standard error）を用いる。あるいは GMM を使うこともできる。GMM は 2SLS より効率的だが、小標本特性が悪い。

IV を見つけるのは常に難しい

操作変数は2条件 \(\mathrm{Cov}(z, \mathbf{Y})\neq 0\) と \(\mathrm{Cov}(z, u)=0\) を満たす必要がある。

一致するが、決して不偏ではない

2SLS 推定量は、大標本で真のパラメータに近づくことだけを約束する。小標本では、2SLS 推定値が真のパラメータから体系的にずれることがある。極端な場合、2SLS 推定量は OLS 推定量に向かってバイアスする。

Professor Note ― 直観的な理由

内生的な説明変数が1つあり、操作変数の数が観測値の数に等しい（＝小標本）と仮定しよう。この場合、第1段階回帰は \(R^2 = 1\) となり、第1段階における内生変数の予測値は実際の値と一致する。すると 2SLS 推定量は OLS 推定量と正確に一致してしまう。

バイアスは次の3つの要因で大きくなる ― 操作変数の数、内生変数と残差の相関、操作変数と内生変数の弱い相関。

原典 P.60–61。

SECTION 08

内生性の検定（Hausman / DWH）

内生性がなければ OLS のほうが効率的である。ゆえに、内生性が存在するかどうかを検定することが重要になる。内生性の検定には妥当な操作変数が必要である。

Hausman 検定

Hausman 検定は、OLS 推定値と 2SLS 推定値を比較し、有意な差があるかを調べる。

内生性がなければ（\(H_0\)）、OLS と 2SLS はともに一致する。
内生性があれば（\(H_1\)）、2SLS のみが一致する。

The general idea: The Hausman test compares an estimator which is consistent under both H0 and H1, with another estimator which is consistent only under H0. If H0 is true, then two estimators should differ only because of sampling error - i.e. they should not give significantly different results, while if H1 is true, then two estimators differ significantly.

一般的な考え方：Hausman 検定は、\(H_0\) と \(H_1\) の両方の下で一致する推定量と、\(H_0\) の下でのみ一致する推定量とを比較する。\(H_0\) が真なら、2つの推定量は標本誤差によってのみ異なるはずである ― すなわち有意に異なる結果を与えないはずである。\(H_1\) が真なら、2つの推定量は有意に異なる。

回帰ベースの Hausman 検定（Durbin-Wu-Hausman test）

より単純な検定も利用でき、2段階で進む。

第1段階の誘導形（reduced form）を OLS で推定する

\[ \mathbf{Y} = \mathbf{Z}\boldsymbol{\gamma}_1 + \mathbf{X}\boldsymbol{\gamma}_2 + \mathbf{v} \]

第1段階の残差を構造方程式に含めて OLS で推定する

第1段階回帰の残差 \(\hat{\mathbf{v}}\) を構造方程式に含めて OLS 推定する。

\[ \mathbf{y} = \mathbf{Y}\boldsymbol{\beta}_1 + \mathbf{X}\boldsymbol{\beta}_2 + \rho\,\hat{\mathbf{v}} + \mathbf{u} \]

単純な \(t\) 検定を用いる。係数 \(\rho\) がゼロと有意に異なれば、説明変数 \(\mathbf{Y}\) は内生的である。

興味深いことに、第2段階で得られる係数は 2SLS と数値的に同一である。ただし標準誤差は異なる（2SLS のものが妥当である）。

SECTION 09

IV の妥当性検定・弱操作変数

IV は 2条件を満たさねばならない。どちらかが破れれば、2SLS は大標本でもバイアスを持ち、推測は信頼できない。

条件1 ― 関連性（非・弱 IV）

\[ \mathrm{Cov}(z, \mathbf{Y}) \neq 0 \]

IV は内生変数と相関しているべきである。

条件2 ― 外生性（除外制約）

\[ \mathrm{Cov}(z, u) = 0 \]

IV は誤差項と無相関であるべきである（過剰識別制約 overidentifying restrictions）。

研究者は、IV が 概念的にも統計的にも 妥当であることを示すべきである。

弱操作変数の検定（\(\mathrm{Cov}(z,\mathbf{Y})\neq 0\)?）

良い参考文献：Andrews, et al. (2019)。

均一分散の仮定の下（実務では制約的だが…）、かつ内生変数が1つのとき、操作変数の係数がすべてゼロであることを検定する F 統計量が 10 未満 なら、通常は弱操作変数の問題があることを示す（Stock and Yogo, 2005）。

Under heteroskedasticity assumption, use the test of Olea and Pflueger (2013) (stata code: weakivtest). This test is robust to heteroskedasticity, autocorrelation, and clustering, and is efficient regardless of the strength of the instruments, and so should be reported regardless of the value of the first-stage F. (Andrews, et al. 2019)

不均一分散の仮定の下では、Olea and Pflueger (2013) の検定を用いる（Stata コード：weakivtest）。この検定は不均一分散・自己相関・クラスタリングに頑健で、操作変数の強さによらず効率的である。ゆえに、第1段階 F の値によらず報告すべきである。

除外（過剰識別）制約の検定（\(\mathrm{Cov}(z,u)=0\)?）

操作変数の数 > 内生変数の数（過剰識別 overidentified）なら、IV の外生性（IV が誤差項と無相関か、すなわち IV を構造方程式から除外できるか）を検定できる。

操作変数の数＝内生変数の数（ちょうど識別 exactly identified）なら、外生性は検定できない。IV がアウトカムに直接影響しないことを、概念的に説明すべきである。

基本的な考え方：内生変数が1つ、IV が2つあるとしよう。2つの 2SLS を比較できる ― 一方は第1の IV を、他方は第2の IV を使う。両方の IV が外生的なら、両者は互いに近くなる傾向がある。だが2つの推定量が大きく異なるなら、片方または両方の IV は外生的でない。

SECTION 10

発展的ティップス（Advanced Tips）

[参考文献] Angrist and Pischke (2008) ch.4.6

内生変数がダミー変数のとき

内生変数がダミー変数だと仮定しよう。\(y = \beta_0 + \beta_1 D + \mathbf{X}\boldsymbol{\beta} + u\)。ここで \(D\) と \(u\) は相関すると仮定する。

2SLS を使うとき、第1段階を（たとえば）プロビット（probit）モデルで推定したくなるかもしれない。しかし、第1段階が正しく特定されていない限り、それは一致性を保証しない（Wooldridge 2010, p.941）。

内生変数がダミー変数であっても、第1段階には線形 OLS を使うべきである。あるいは次を試す。

第1段階をプロビットで推定し、予測確率を計算する

予測確率を操作変数として（説明変数としてではなく）2SLS で第2段階を推定する

Wooldridge 2010, p.939。

内生変数の非線形項があるとき

同様に、内生変数の非線形項があるとき：\(y = \beta_0 + \beta_1 Y + \beta_2 Y^2 + \mathbf{X}\boldsymbol{\beta} + u\)。

\(Y\) について1つだけ第1段階回帰を走らせ、その予測値とその2乗を主方程式に差し込みたくなるかもしれない。だがこれは誤りである！ 2つの第1段階回帰を走らせる必要がある ― 1つは \(Y\) について、もう1つは \(Y^2\) について。

Professor Note ― 操作変数の数の使い分け

実務では、厳密に必要な数より多くの操作変数を持つのがしばしば良い考えである。追加の操作変数は弱 IV 問題を回避でき、過剰識別制約の妥当性の検定（操作変数の妥当性にいくらかの光を当てる）を構成できるためである。

しかし、標本サイズに比して非常に多くの操作変数を持つと、深刻なバイアスを招きうることもよく知られている。とりわけ操作変数が内生的説明変数と弱くしか相関しない場合である。多すぎる（弱い）操作変数を使うと、2SLS 推定量を OLS 推定量に向かってバイアスさせる傾向がある。

操作変数が弱いときは、ちょうど識別の 2SLS（内生変数の数＝ IV の数）または LIML（limited information maximum likelihood, 制限情報最尤法） を試す。これらは近似的に不偏な推定量だからである。Angrist and Pischke (2008) ch.4.6.4 を参照。

原典 P.62。

交互作用項があるとき

モデルが内生変数と外生変数の交互作用項を含むとき、交互作用項の係数は標準的な IV を使わずに一致推定できる。Bun and Harrison (2019) は、外生変数の非線形項を IV として使うか、単純に OLS を適用することを提案している。Annan and Schlenker (2015) はこれを天候と保険の交互作用項に適用した。

弱操作変数の下での信頼区間

ちょうど識別モデル（内生変数の数＝ IV の数）

Anderson-Rubin (AR) 信頼区間を報告する。これらは操作変数の強さによらず効率的であり、第1段階 F の値によらず報告すべきである。

過剰識別モデル（内生変数の数 < IV の数）

単一の内生的説明変数と均一分散誤差の下では、Moreira (2003) の条件付き尤度比検定（conditional likelihood ratio, CLR test）が良い性質を持つ。最近のレビューは Andrews et al (2019) を参照。

2つの操作変数の候補があるなら、2つの IV の交互作用項は、それぞれの IV を線形に使うより容易に除外制約を通過するかもしれない。Bettinger, et al. (2017) を参照。
IV が誤差項と相関する（＝IV が無効）なら、不偏推定値は得られないが、真のパラメータの上下限・区間を得ることはできる（部分識別 partial identification）。レビューは奥村 (2018) を参照。
2条件を満たす IV を見つけられないとき、Lewbel 型 IV（Lewbel, 2012, 2018）を使える。Lewbel 型 IV（\(z\)）は \(\mathrm{Cov}(u, z)=0\) かつ \(\mathrm{Var}(u \mid z)\neq 0\) を満たさねばならないが、内生的説明変数と相関する必要はない。

SECTION 11

付録 ― 需給推定のシミュレーション

需要・供給関数推定のシミュレーション例（simulated example）。データ生成過程（DGP）を自分で組み、OLS が機能せず 2SLS がうまく機能することを確認する。

Stata コード

/*
Supply & demand function
*/

***0 Top

clear
version 10.1
set more off
set seed 123456789

gl dir0 = "D:¥data/13 class"
cd "$dir0"

***0 DGP
// supply S  = $bs0 + $bs1*P + es
// demand D  = $bd0 + $bd1*P + ed
// From S = D, P = 1/($bs1 - $bd1)*(($bd0 - $bs0) + (ed - es))
// supply shock es = $bz1*z1 + $bz2*z2 + vs
// demand shock ed = $bz3*z3 +  vd
// vs, vd, ed ~ N(0,1)
// z1 and z2 are weather shocks, while z3 is income

gl bs0 = 5
gl bs1 = 0.1

gl bd0 = 5
gl bd1 = -0.05

gl bz1 = -1
gl bz2 = 1
gl bz3 = 1

set obs 1000
qui gen vs = rnormal(0, 1)
qui gen z1 = rnormal(0, 1)
qui gen z2 = rnormal(0, 1)
qui gen es = $bz1*z1 + $bz2*z2 + vs

qui gen vd = rnormal(0, 1)
qui gen z3 = rnormal(0, 1)
qui gen ed = $bz3*z3 +  vd

qui gen P = 1/($bs1 - $bd1)*(($bd0 - $bs0) + (ed - es))
qui gen S  = $bs0 + $bs1*P + es
qui gen D  = $bd0 + $bd1*P + ed

qui gen Q = S //Q=S=D

su _all, sep(0)
scatter P Q

***0 Regression

reg Q P
//regressing Q on P is meaningless

//######   Demand function   ######

reg Q P z3
//adding income shock (z3) does not work

//iv = z1 = supply shock
ivregress 2sls Q (P = z1)

//iv = z2 = supply shock
ivregress 2sls Q (P = z1 z2)

//2SLS works well!

//######   Supply function   ######

//iv = z3 = demand shock = income

ivregress 2sls Q (P = z3), first

//2SLS works well!

exit

DGP の設計意図。真の供給傾き \(\beta_{s1}=0.1\)、真の需要傾き \(\beta_{d1}=-0.05\)。供給ショック \(es\) は天候 \(z1,z2\) で、需要ショック \(ed\) は所得 \(z3\) で動く。需要を推定するには供給シフター \(z1,z2\) を、供給を推定するには需要シフター \(z3\) を IV にする ― それが下の出力で確認される。

Stata 出力 ― 記述統計と OLS

. su _all, sep(0)
    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
          vs |      1000     .007703    1.040135  -3.058428   3.095353
          z1 |      1000    .0464206     1.01628  -3.534935   3.094861
          z2 |      1000    -.019329    .9872461  -3.250259    2.87227
          es |      1000   -.0580466     1.70969  -5.094702   5.716356
          vd |      1000     .026278    1.004637  -3.239537   3.528268
          z3 |      1000   -.0046541    1.023093  -3.287805   3.226589
          ed |      1000     .021624     1.42423   -4.06461    4.18514
           P |      1000    .5311372    15.18189  -42.63594   52.64279
           S |      1000    4.995067    1.083598   1.448721   8.490314
           D |      1000    4.995067    1.083598   1.448721   8.490314
           Q |      1000    4.995067    1.083598   1.448721   8.490314

. reg Q P    （Q を P に回帰）
      Source |       SS       df       MS              Number of obs =    1000
-------------+------------------------------           F(  1,   998) =   29.34
       Model |  33.5018415     1  33.5018415           Prob > F      =  0.0000
    Residual |  1139.50929   998  1.14179287           R-squared     =  0.0286
-------------+------------------------------           Adj R-squared =  0.0276
       Total |  1173.01113   999  1.17418531           Root MSE      =  1.0685

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |   .0120622   .0022268     5.42   0.000     .0076924     .016432
       _cons |    4.98866   .0338111   147.54   0.000     4.922311    5.055009
------------------------------------------------------------------------------
// regressing Q on P is meaningless（Q を P に回帰しても無意味）

素朴な OLS（reg Q P）の \(P\) の係数は \(+0.0120\)。需要傾き \(-0.05\) とも供給傾き \(+0.1\) とも一致しない。需給が混ざった無意味な推定である。

. reg Q P z3    （所得ショック z3 を加える）
      Source |       SS       df       MS              Number of obs =    1000
-------------+------------------------------           F(  2,   997) =  315.21
       Model |  454.393328     2  227.196664           Prob > F      =  0.0000
    Residual |  718.617799   997  .720780139           R-squared     =  0.3874
-------------+------------------------------           Adj R-squared =  0.3861
       Total |  1173.01113   999  1.17418531           Root MSE      =  .84899

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |  -.0100726   .0019923    -5.06   0.000    -.0139822   -.0061629
          z3 |   .7144198   .0295645    24.16   0.000     .6564041    .7724355
       _cons |   5.003742    .026871   186.21   0.000     4.951012    5.056472
------------------------------------------------------------------------------
// adding income shock (z3) does not work（所得ショック z3 を加えても機能しない）

原典 P.66 には scatter P Q による散布図（縦軸 \(P\)：\(-40\)〜\(60\)、横軸 \(Q\)：\(2\)〜\(8\)）が掲載されている。価格 \(P\) の分散が大きく、\(Q\) との関係が一見不明瞭であることを示す。原典 P.66 の散布図を参照のこと。

Stata 出力 ― 需要関数の 2SLS

. ivregress 2sls Q (P = z1)    （IV ＝ z1 ＝供給ショック）
Instrumental variables (2SLS) regression               Number of obs =    1000
                                                       Wald chi2(1)  =   45.42
                                                       Prob > chi2   =  0.0000
                                                       R-squared     =       .
                                                       Root MSE      =  1.3855

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |  -.0461453   .0068473    -6.74   0.000    -.0595657   -.0327249
       _cons |   5.019577   .0439645   114.17   0.000     4.933408    5.105745
------------------------------------------------------------------------------
Instrumented:  P
Instruments:   z1

. ivregress 2sls Q (P = z1 z2)    （IV ＝ z1, z2 ＝供給ショック）
Instrumental variables (2SLS) regression               Number of obs =    1000
                                                       Wald chi2(1)  =   92.14
                                                       Prob > chi2   =  0.0000
                                                       R-squared     =       .
                                                       Root MSE      =  1.3643

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |  -.0439281   .0045764    -9.60   0.000    -.0528977   -.0349584
       _cons |   5.018399   .0432118   116.13   0.000     4.933705    5.103093
------------------------------------------------------------------------------
Instrumented:  P
Instruments:   z1 z2
//2SLS works well!（2SLS はうまく機能する！）

供給シフター \(z1\)（および \(z1\ z2\)）を IV にすると、\(P\) の係数は \(-0.0461\)／\(-0.0439\) となり、真の需要傾き \(-0.05\) に近い。需要関数が正しく識別された。

Stata 出力 ― 供給関数の 2SLS

. ivregress 2sls Q (P = z3)    （IV ＝ z3 ＝需要ショック＝所得）
Instrumental variables (2SLS) regression               Number of obs =    1000
                                                       Wald chi2(1)  =  160.89
                                                       Prob > chi2   =  0.0000
                                                       R-squared     =       .
                                                       Root MSE      =  1.6461

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |   .0946429   .0074615    12.68   0.000     .0800186    .1092672
       _cons |   4.944799   .0522062    94.72   0.000     4.842477    5.047121
------------------------------------------------------------------------------
Instrumented:  P
Instruments:   z3
//2SLS works well!（2SLS はうまく機能する！）

. exit
end of do-file

需要シフター \(z3\)（所得）を IV にすると、\(P\) の係数は \(+0.0946\) となり、真の供給傾き \(+0.1\) に近い。供給関数が正しく識別された。シフターの使い分けが識別を実現することを、シミュレーションが裏づけている。

Professor Note ― コードと出力の対応

本付録の Stata コード（原典 P.65）と出力（原典 P.66–67）は同一の do-file から得られている。コード末尾の ivregress 2sls Q (P = z3), first の , first オプションは第1段階回帰の出力も表示させる指定だが、原典 P.67 の出力には第1段階表は掲載されていない（本体の 2SLS 結果のみ）。

原典 P.65（コード）・P.66–67（出力）。

SECTION 12

参考文献（References）

Andrews, I., Stock, J. H., & Sun, L. (2019). Weak Instruments in Instrumental Variables Regression: Theory and Practice. Annual Review of Economics, 11, 727-753.
Angrist, J. D., & Krueger, A. B. (2001). Instrumental variables and the search for identification: From supply and demand to natural experiments. Journal of Economic Perspectives, 15(4), 69-85.
Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion. Princeton university press.
Annan, F., & Schlenker, W. (2015). Federal crop insurance and the disincentive to adapt to extreme heat. American Economic Review, 105(5), 262-266.
Berry, Levinsohn, and Pakes, 1995. "Automobile Prices in Market Equilibrium," Econometrica, 63(4), pp. 841-90.
Bettinger, E. P., Fox, L., Loeb, S., & Taylor, E. S. (2017). Virtual classrooms: How online college courses affect student success. American Economic Review, 107(9), 2855-75.
Bun, M. J., & Harrison, T. D. (2019). OLS and IV estimation of regression models including endogenous interaction terms. Econometric Reviews, 38(7), 814-827.
Levinsohn, J., Petrin, A., 2003. Estimating production functions using inputs to control for unobservables. Review of Economic Studies 70, 317-342.
Lewbel, A. 2012. "Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models." Journal of Business & Economic Statistics 30: 67–80.
Lewbel, A. 2018. "Identification and Estimation Using Heteroscedasticity Without Instruments: The Binary Endogenous Regressor Case." Economics Letters 165: 10–12.
Moreira, M. J. (2003). A conditional likelihood ratio test for structural models. Econometrica, 71(4), 1027-1048.
Nevo, A., & Rosen, A. M. (2012). Identification with imperfect instruments. Review of Economics and Statistics, 94(3), 659-671.
Olea, J. L. M., & Pflueger, C. (2013). A robust test for weak instruments. Journal of Business & Economic Statistics, 31(3), 358-369.
Olley, S., Pakes, A., 1996. The dynamics of productivity in the telecommunications equipment industry. Econometrica 64 (6), 1263–1298.
奥村綱雄（2018）『部分識別入門』日本評論社.
川崎賢太郎 (2022)「農業政策の効果測定手法：操作変数法」『農林水産政策研究』第36号、pp.13-29、2022年2月. http://doi.org/10.34444/00000142

出典：原典 P.63–64。

概観 ― IV の直観

IV 推定量（単一操作変数）

推測 ― IV 推定量の分散

強い IV を見つける

大きな標本サイズを確保する

2SLS 推定量（複数操作変数）

第1段階（first stage）を OLS で推定する

予測値を計算し、第2段階を OLS で推定する

例 1〜4 ― 良い IV とは何か

例 3 詳説 ― 需要と供給

需要関数（demand function）

供給関数（supply function）

いくつかの注意点（Some caveats）

内生性がなければ OLS が効率的

不均一分散には頑健標準誤差を

IV を見つけるのは常に難しい

一致するが、決して不偏ではない

内生性の検定（Hausman / DWH）

Hausman 検定

回帰ベースの Hausman 検定（Durbin-Wu-Hausman test）

第1段階の誘導形（reduced form）を OLS で推定する

第1段階の残差を構造方程式に含めて OLS で推定する

IV の妥当性検定・弱操作変数

条件1 ― 関連性（非・弱 IV）

条件2 ― 外生性（除外制約）

弱操作変数の検定（\(\mathrm{Cov}(z,\mathbf{Y})\neq 0\)?）

除外（過剰識別）制約の検定（\(\mathrm{Cov}(z,u)=0\)?）

発展的ティップス（Advanced Tips）

内生変数がダミー変数のとき

第1段階をプロビットで推定し、予測確率を計算する

予測確率を操作変数として（説明変数としてではなく）2SLS で第2段階を推定する

内生変数の非線形項があるとき

交互作用項があるとき

弱操作変数の下での信頼区間

ちょうど識別モデル（内生変数の数 ＝ IV の数）

過剰識別モデル（内生変数の数 < IV の数）

付録 ― 需給推定のシミュレーション

Stata コード

Stata 出力 ― 記述統計と OLS

Stata 出力 ― 需要関数の 2SLS

Stata 出力 ― 供給関数の 2SLS

参考文献（References）

ちょうど識別モデル（内生変数の数＝ IV の数）