図解で読む原文に忠実な和訳

Spring 2026 ／ Kentaro Kawasaki

操作変数法Instrumental variable

［参考文献］Wooldridge, IE, Ch.15 ／ Wooldridge, 2010, Ch.5 ／ Angrist and Krueger (2001).

概観Overview

\(x\) が \(u\) と相関する次のモデルを考える。これは仮定 OLS.3（Assumption OLS.3）に違反するため、\(\beta_0\) と \(\beta_1\) のいずれの OLS 推定量もバイアスを持つ。

\[ y = \beta_0 + \beta_1 x + u \]

もし \(x\) とは相関するが \(u\) とは無相関な操作変数（instrumental variable） \(z\) を見つけられれば、パラメータを一致推定（consistently estimate）できる。

\[ y = \underset{\textstyle\ \uparrow\ z}{\beta_0 + \beta_1 x} + u \]

※ 原典 P.57 では、操作変数 \(z\) が説明変数 \(x\) を指す矢印として図示されている。

直観（Intuition）：IV は \(x\) を2つの部分に分解する ― すなわち、\(u\) と相関しうる部分と、相関しない部分とに。\(u\) と相関しない部分を取り出すことによって、パラメータを一致推定することが可能になる。

\[ y = \beta_0 + \beta_1\,\underbrace{x_1(z)}_{\text{相関なし！}} + (\beta_1 x_2 + u) \]

IV 推定量（単一操作変数）IV estimator (single instrument)

内生変数の数と操作変数の数がともに1つのときは、きわめて単純な計算が可能である。

推定しようとするモデルを書き下そう。\(y = \beta_0 + \beta_1 x + u\)、ただし \(x\) は \(u\) と相関する。

IV は次の2条件を満たさねばならない ― \(\mathrm{Cov}(z,x) \neq 0\) と \(\mathrm{Cov}(z,u) = 0\)。したがって、

\[ \mathrm{Cov}(z,y) = \mathrm{Cov}(z,\,\beta_0 + \beta_1 x + u) = \beta_1\,\mathrm{Cov}(z,x) + \underbrace{\mathrm{Cov}(z,u)}_{=\,0} \]

\[ \Longrightarrow\quad \beta_1 = \frac{\mathrm{Cov}(z,y)}{\mathrm{Cov}(z,x)} \]

このようにしてパラメータを解くことができる。最後の段階は、母共分散（population covariance）を標本共分散（sample covariance）で置き換えることである。

\[ \hat{\beta}_1 = \frac{\displaystyle\sum_{i=1}^{n}(z_i-\bar{z})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^{n}(z_i-\bar{z})(x_i-\bar{x})} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1\,\bar{x}. \]

これを IV 推定量（IV estimator）（またはワルド推定量（Wald estimator））と呼ぶ¹⁷。

推測Inference

大標本では、推定量の標本分布は正規分布（normal）に従う。

推測（仮説検定・信頼区間）は通常どおりに進める。たとえば \(\pm 1.96\,SE\)。

いまは、モデルに不均一分散（heteroskedasticity）の問題がないと仮定しよう。

\[ V(u) = \mathrm{E}(u^2 \mid \mathbf{X}) = \sigma^2 \]

このとき、IV 推定量の分散は次で与えられる。

\[ V(\hat{\beta}_1) = \frac{\sigma^2}{n\,\sigma_x^2\,\rho_{x,z}^2} \]

ここで \(\sigma^2\) は \(u\) の母分散、\(\sigma_x^2\) は \(x\) の母分散、\(\rho_{x,z}\) は \(x\) と \(z\) のあいだの母相関係数（population correlation coefficient）である。

真のパラメータを推定されたものに置き換える。

\[ \hat{V}(\hat{\beta}_1) = \frac{\hat{\sigma}^2}{n\,\hat{\sigma}_x^2\,\hat{\rho}_{x,z}^2} \]

他方、OLS 推定量の分散は次のように与えられる（Wooldridge, IE, ch.2 を参照）。

\[ \hat{V}(\hat{\beta}_1) = \frac{\hat{\sigma}^2}{n\,\hat{\sigma}_x^2} \]

いまや OLS と IV の推定量の分散を比較でき、きわめて重要な差を見ることができる。\(\rho_{x,z} < 1\) であるかぎり、IV 推定量の分散は常に OLS 推定量の分散より大きくなる。

ゆえに、IV 推定を行うとき、われわれは次を必要とする。

強い IV を見つけること（\(\rho_{x,z}\) ができるだけ高くなるように）。
大きな標本サイズを確保すること（\(n\sigma_x^2\) ができるだけ高くなるように）。

2SLS 推定量（複数操作変数）2SLS estimator (multiple instruments)

操作変数の数 ≥ 内生変数の数のとき、異なる戦略が必要になる。

構造方程式（structural equation）：\(\mathbf{y} = \mathbf{Y}\boldsymbol{\beta}_1 + \mathbf{X}\boldsymbol{\beta}_2 + \mathbf{u}\)。ここで \(\mathbf{Y}\) は内生変数のベクトル、\(\mathbf{X}\) は外生変数のベクトルである。

次の第1段階方程式（first stage equation）を OLS で推定する。\(\mathbf{Y} = \mathbf{Z}\boldsymbol{\gamma}_1 + \mathbf{X}\boldsymbol{\gamma}_2 + \mathbf{v}\)。ここで \(\mathbf{Z}\) は IV のベクトルである。

予測値（predicted values） \(\hat{\mathbf{Y}} = (\mathbf{Z}\hat{\boldsymbol{\gamma}}_1 + \mathbf{X}\hat{\boldsymbol{\gamma}}_2)\) を計算し、次の方程式を OLS で推定する。

\[ \mathbf{y} = \hat{\mathbf{Y}}\boldsymbol{\beta}_1 + \mathbf{X}\boldsymbol{\beta}_2 + \mathbf{u} \]

これが 2段階最小二乗（two stage least square, 2SLS） 推定量である。

識別（identification）のためには、操作変数（\(\mathbf{Z}\)）の数は、内生変数（\(\mathbf{Y}\)）の数と等しいか、それより多くなければならない。

第2段階では、\(\mathbf{Y}\) の真値ではなく予測値を用いるため、通常の標準誤差は正しくない。よって予測誤差（prediction error）を考慮する必要がある（もちろん、ソフトウェアのパッケージが自動的に補正するので、心配する必要はない）。

\(\#\mathbf{Y} = \#\mathbf{Z} = 1\) のとき、2SLS 推定量と IV 推定量は同一である。

例 1：生産関数Example 1: production function

\[ \mathrm{Yield}_i = \beta_0 + \beta_1 \mathrm{Fertilizer}_i + \beta_2 \mathrm{Pesticide}_i + \beta_3 \mathrm{Labor}_i + u_i \]

\[ = \beta_0 + \beta_1 \mathrm{Fertilizer}_i + \beta_2 \mathrm{Pesticide}_i + \beta_3 \mathrm{Labor}_i + (\text{Soil Quality}_i + \text{Pest pressure}_i + \text{Farmer's skill}_i + \text{other factors}_i) \]

ここで、投入要素（inputs）は、観察できない要因と相関するため内生的になりやすい。

何が良い IV か。¹⁸

天候（雨・気温）？：無効（Invalid）。投入要素と相関しそうではあるが、誤差項とも相関する。説明変数（regressor）として使うべきである。

投入価格（肥料価格・農薬価格・労賃）：有効（Valid）。投入要素と相関しそうであり、かつ誤差項とは無相関である。

例 2：賃金方程式Example 2: Wage equation

\[ \mathrm{Wage}_i = \beta_0 + \beta_1 \mathrm{Education}_i + u_i = \beta_0 + \beta_1 \mathrm{Education}_i + (\mathrm{Ability}_i + \text{other factors}_i) \]

ここで、教育（education）は、観察できない要因と相関するため内生的になる。

何が良い IV か。

IQ テストのスコア：無効。誤差項と相関する。説明変数として使うべきである。（もし IQ を能力（ability）の代理変数（proxy）として使えば、内生性の問題は消えるかもしれない。「代理変数（Proxy variable）」の節を参照。）

学生の住所の郵便番号：無効。誤差項とは無相関だが、内生変数とも無相関である。

母親の学歴：無効。誤差項と相関する。

兄弟姉妹の数：おそらく有効（Maybe valid）。（ただし、説明変数（教育）との相関が弱すぎるかもしれない。）

例 3：供給と需要Example 3: Supply & demand

\[ \begin{aligned} Q_i &= \alpha_0 + \alpha_1 P_i + v_i \qquad &\text{(需要関数, demand function)}\\ Q_i &= \beta_0 + \beta_1 P_i + u_i \qquad &\text{(供給関数, supply function)} \end{aligned} \]

供給・需要方程式において、価格は内生的である。

需要関数では供給シフター（supply shifter）（例：天候）を IV として使え、供給関数では需要シフター（demand shifter）（例：家計所得）を IV として使える。

数値例は付録を参照。

原典 P.60 には、需給図（価格を縦軸・数量を横軸にとり、供給曲線のみがシフトしたときの均衡価格・数量を示す図 ― "Equilibrium price and quantity when only the supply curve shifts"）が画像として掲載されている。本和訳ではその図の内容は割愛する。原典 P.60 の図を参照のこと。

例 4：差別化財の需要システムExample 4: Demand system for differentiated products

\[ Q_{ij} = \alpha_{0j} + \alpha_{1j} P_j + \mathbf{x}_j\boldsymbol{\beta} + \mathbf{z}_i\boldsymbol{\gamma} + v_{ij} \]

ここで \(i\) はデータ単位（例：世帯）、\(j\) は製品、\(Q\) は需要、\(P\) は価格、\(\mathbf{x}\) は製品特性、\(\mathbf{z}\) は消費者特性である。

例：米の需要では、\(j\) は品種（新潟コシヒカリ、北海道ゆめぴりか）を表し、\(\mathbf{x}\) はタンパク質含有量・生産年などにあたる。

\(P_j\) は内生的である。なぜなら、広告努力や陳列棚の位置のような、観察できない製品特性と相関するからである。

\[ Q_{ij} = \alpha_{0j} + \alpha_{1j} P_j + \mathbf{x}_j\boldsymbol{\beta} + \mathbf{z}_i\boldsymbol{\gamma} + (\text{product quality}_j + \text{other factor}_{ij}) \]

この場合に考えられる IV は次のとおりである。

製品固有のコストシフター（product-specific cost shifters）
ライバル財の特性（characteristics of rival goods）：もし \(\mathbf{x}\) が \(P\) の設定より前に選択されるなら、競合財の特性（\(\mathbf{x}\)）は観察不能な要因に対して直交（無相関）するが、\(P\) とは体系的に関連するはずである（Berry, Levinsohn and Pakes 1995）。ただし、意思決定のタイミングが上記の筋書きと異なる場合、操作変数は妥当でないかもしれない。さらに、操作変数は妥当ではあっても弱い（weak）かもしれない。

その他の IV の選び方については、Angrist and Krueger (2001) および川崎 (2022) を参照。

いくつかの注意点Some caveats

内生性が存在しないとき、OLS は 2SLS よりも効率的である。

不均一分散が存在するときは、頑健標準誤差（robust standard error）を用いる。あるいは GMM を使うこともできる。GMM は 2SLS より効率的である（ただし GMM は小標本特性が悪い）。

操作変数を見つけるのは常に難しい。操作変数は2条件、\(\mathrm{Cov}(z, \mathbf{Y}) \neq 0\) と \(\mathrm{Cov}(z, u) = 0\) を満たさねばならない。

一致するが、決して不偏ではない（Consistent but never unbiased）。

2SLS 推定量は、大標本で真のパラメータに近づくことだけを約束する。小標本では、2SLS 推定値は真のパラメータから体系的にずれうる。極端な場合、2SLS 推定量は OLS 推定量に向かってバイアスする。

直観的な理由：内生的な説明変数が1つあり、操作変数の数が観測値の数に等しい（すなわち小標本）と仮定しよう。この場合、第1段階回帰は \(R^2 = 1\) という結果になり、第1段階における内生変数の予測値は実際の値と一致する。

あなたの 2SLS 推定量は OLS 推定量と正確に一致してしまう。

バイアスは次の3つの要因で大きくなる ― 操作変数の数、内生変数と残差の相関、そして操作変数と内生変数の弱い相関である。

内生性の検定Testing endogeneity

内生性が存在しないとき、OLS のほうが効率的である。したがって、内生性が存在するかどうかを検定することが重要である。内生性を検定するには、妥当な操作変数が必要である。

Hausman 検定Hausman test

Hausman 検定は、OLS 推定値と 2SLS 推定値を比較して、有意な差があるかを調べる。

もし内生性がなければ（\(H_0\)）、OLS と 2SLS はともに一致する。一方、内生性があれば（\(H_1\)）、2SLS のみが一致する。

一般的な考え方：Hausman 検定は、\(H_0\) と \(H_1\) の両方の下で一致する推定量を、\(H_0\) の下でのみ一致する別の推定量と比較する。もし \(H_0\) が真なら、2つの推定量は標本誤差によってのみ異なるはずである ― すなわち、有意に異なる結果を与えないはずである。一方、もし \(H_1\) が真なら、2つの推定量は有意に異なる。

回帰ベースの Hausman 検定（Durbin-Wu-Hausman test）Regression-based Hausman test

より単純な検定も利用でき、これは2段階で進む。

第1段階の誘導形（reduced form）を OLS で推定する。\(\mathbf{Y} = \mathbf{Z}\boldsymbol{\gamma}_1 + \mathbf{X}\boldsymbol{\gamma}_2 + \mathbf{v}\)。

第1段階回帰の残差（\(\hat{\mathbf{v}}\)）を構造方程式の回帰に含め、それを OLS で推定する。

\[ \mathbf{y} = \mathbf{Y}\boldsymbol{\beta}_1 + \mathbf{X}\boldsymbol{\beta}_2 + \rho\,\hat{\mathbf{v}} + \mathbf{u} \]

単純な \(t\) 検定を用いる。もし係数 \(\rho\) がゼロと有意に異なれば、説明変数 \(\mathbf{Y}\) は内生的である。

興味深いことに、第2段階で得られる係数は 2SLS と数値的に同一である。ただし標準誤差は異なる（2SLS のものが妥当である）。

IV の妥当性検定Testing validity of IV

IV は次の2条件を満たさねばならない。

（非・弱 IV） \(\mathrm{Cov}(z, \mathbf{Y}) \neq 0\)：IV は内生変数と相関しているべきである。
（除外／過剰識別制約（exclusion / overidentifying restrictions）） \(\mathrm{Cov}(z, u) = 0\)：IV は誤差項と無相関であるべきである。

2条件のいずれかが破れると、2SLS は大標本でもバイアスを持ち、推測は信頼できない。

研究者は、IV が概念的にも統計的にも妥当であることを示すべきである。

弱操作変数の検定（\(\mathrm{Cov}(z, \mathbf{Y}) \neq 0\) か？）Testing weak instrument

良い参考文献：Andrews, et al. (2019)。

均一分散（homoscedasticity）の仮定の下（これは実務では制約的だが…）、かつ内生変数が1つのとき、操作変数のすべての係数がゼロであることを検定する F 統計量が 10 未満であれば、通常は弱操作変数の問題があることを示す

（Stock and Yogo, 2005）。

不均一分散の仮定の下では、Olea and Pflueger (2013) の検定を用いる（Stata コード：weakivtest）。この検定は不均一分散・自己相関・クラスタリングに頑健であり、操作変数の強さによらず効率的である。ゆえに、第1段階 F の値によらず報告すべきである（Andrews, et al. 2019）。

除外（過剰識別）制約の検定（\(\mathrm{Cov}(z, u) = 0\) か？）Testing exclusion (overidentifying) restrictions

操作変数の数 > 内生変数の数（過剰識別（overidentified））であれば、IV の外生性（IV が誤差項と無相関か、すなわち IV が構造方程式から除外できるか）を検定できる。

操作変数の数＝内生変数の数（ちょうど識別（exactly identified））であれば、外生性は検定できない。IV がアウトカムに直接影響しないことを、概念的に説明すべきである。

基本的な考え方は次のとおりである。内生変数が1つ、IV が2つあるとしよう。すると、2つの異なる 2SLS を比較できる ― 一方は第1の IV を、他方は第2の IV を使う。もし両方の IV が外生的なら、両者は互いに近くなる傾向がある。だが、これら2つの推定量が大きく異なるなら、片方または両方の IV は外生的でない。

発展的ティップスAdvanced Tips

［参考文献］Angrist and Pischke (2008) ch.4.6

内生変数がダミー変数だと仮定しよう。\(y = \beta_0 + \beta_1 D + \mathbf{X}\boldsymbol{\beta} + u\)。

ここで \(D\) と \(u\) は相関すると仮定する。

2SLS を使うとき、第1段階を（たとえば）プロビット（probit）モデルで推定したくなるかもしれない。

しかし、第1段階が正しく特定されていない限り、それは一致性を保証しない（Wooldridge 2010, p.941）。

内生変数がダミー変数であっても、第1段階には線形 OLS を使うべきである。あるいは次を試す。

第1段階をプロビットで推定し、予測確率（predicted probability）を計算する。

予測確率を操作変数として（説明変数としてではなく）使い、第2段階を 2SLS で推定する（Wooldridge 2010, p.939）。

同様に、内生変数の非線形項があるとき：\(y = \beta_0 + \beta_1 Y + \beta_2 Y^2 + \mathbf{X}\boldsymbol{\beta} + u\)。

\(Y\) について1つだけ第1段階回帰を走らせ、その予測値とその2乗を主方程式に差し込みたくなるかもしれない。だが、これは誤りである！

2つの第1段階回帰を走らせる必要がある。1つは \(Y\) について、もう1つは \(Y^2\) についてである。

実務では、厳密に必要な数より多くの操作変数を持つのがしばしば良い考えである。追加の操作変数は弱 IV 問題を回避でき、また過剰識別制約の妥当性の検定（操作変数の妥当性にいくらかの光を当てる）を構成できるためである。

しかし、標本サイズに比して非常に多くの操作変数を持つと、深刻なバイアスを招きうることが、いまやよく知られている。とりわけ、操作変数が内生的説明変数と弱くしか相関しない場合である。多すぎる（弱い）操作変数を使うと、2SLS 推定量を OLS 推定量に向かってバイアスさせる傾向がある。

操作変数が弱いときは、ちょうど識別の 2SLS（内生変数の数＝ IV の数）または LIML（limited information maximum likelihood, 制限情報最尤法）を試す。なぜなら、これらは近似的に不偏な推定量だからである。Angrist and Pischke (2008) ch.4.6.4 を参照。

モデルが内生変数と外生変数の交互作用項を含むとき、交互作用項の係数は

標準的な IV を使わずに一致推定できる。Bun and Harrison (2019) は、外生変数の非線形項を IV として使うか、単純に OLS を適用することを提案している。Annan and Schlenker (2015) は、これを天候と保険の交互作用項に適用した。

弱操作変数の下で、信頼区間をどのように計算するか。

ちょうど識別モデル（内生変数の数＝ IV の数）では、Anderson-Rubin (AR) 信頼区間を報告する。これらは操作変数の強さによらず効率的であり、ゆえに第1段階 F の値によらず報告すべきである。
過剰識別モデル（内生変数の数 < IV の数）で、単一の内生的説明変数と均一分散誤差を持つ場合、Moreira (2003) の条件付き尤度比（conditional likelihood ratio, CLR）検定が良い性質を持つ。
最近のレビューは Andrews et al (2019) を参照。

2つの操作変数の候補があるなら、2つの IV の交互作用項は、それぞれの IV を線形に使うよりも容易に除外制約を通過するかもしれない。Bettinger, et al. (2017) を参照。

もし IV が誤差項と相関するなら（すなわち IV が無効なら）、不偏推定値を得ることはできないが、真のパラメータの上下限・区間を得ることはできる（「部分識別（partial identification）」）。レビューは奥村 (2018) を参照。

2条件を満たす IV を見つけられないとき、Lewbel 型 IV（Lewbel, 2012, 2018）を使える。Lewbel 型 IV（\(z\)）は \(\mathrm{Cov}(u, z) = 0\) かつ \(\mathrm{Var}(u \mid z) \neq 0\) を満たさねばならないが、内生的説明変数と相関する必要はない。

参考文献References

Andrews, I., Stock, J. H., & Sun, L. (2019). Weak Instruments in Instrumental Variables Regression: Theory and Practice. Annual Review of Economics, 11, 727-753.
Angrist, J. D., & Krueger, A. B. (2001). Instrumental variables and the search for identification: From supply and demand to natural experiments. Journal of Economic Perspectives, 15(4), 69-85.
Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion. Princeton university press.
Annan, F., & Schlenker, W. (2015). Federal crop insurance and the disincentive to adapt to extreme heat. American Economic Review, 105(5), 262-266.
Berry, Levinsohn, and Pakes, 1995. "Automobile Prices in Market Equilibrium," Econometrica, 63(4), pp. 841-90.
Bettinger, E. P., Fox, L., Loeb, S., & Taylor, E. S. (2017). Virtual classrooms: How online college courses affect student success. American Economic Review, 107(9), 2855-75.
Bun, M. J., & Harrison, T. D. (2019). OLS and IV estimation of regression models including endogenous interaction terms. Econometric Reviews, 38(7), 814-827.
Levinsohn, J., Petrin, A., 2003. Estimating production functions using inputs to control for unobservables. Review of Economic Studies 70, 317-342.
Lewbel, A. 2012. "Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models." Journal of Business & Economic Statistics 30: 67–80.
Lewbel, A. 2018. "Identification and Estimation Using Heteroscedasticity Without Instruments: The Binary Endogenous Regressor Case." Economics Letters 165: 10–12.

Moreira, M. J. (2003). A conditional likelihood ratio test for structural models. Econometrica, 71(4), 1027-1048.
Nevo, A., & Rosen, A. M. (2012). Identification with imperfect instruments. Review of Economics and Statistics, 94(3), 659-671.
Olea, J. L. M., & Pflueger, C. (2013). A robust test for weak instruments. Journal of Business & Economic Statistics, 31(3), 358-369.
Olley, S., Pakes, A., 1996. The dynamics of productivity in the telecommunications equipment industry. Econometrica 64 (6), 1263–1298.
奥村綱雄（2018）『部分識別入門』日本評論社
川崎賢太郎 (2022)「農業政策の効果測定手法：操作変数法」『農林水産政策研究』第36号、pp.13-29、2022年2月 http://doi.org/10.34444/00000142

付録Appendix

供給・需要関数推定のシミュレーション例Simulated example of supply & demand function estimation

Stata コードは次のとおりである。

/*
Supply & demand function
*/

***0 Top

clear
version 10.1
set more off
set seed 123456789

gl dir0 = "D:¥data/13 class"
cd "$dir0"

***0 DGP
// supply S  = $bs0 + $bs1*P + es
// demand D  = $bd0 + $bd1*P + ed
// From S = D, P = 1/($bs1 - $bd1)*(($bd0 - $bs0) + (ed - es))
// supply shock es = $bz1*z1 + $bz2*z2 + vs
// demand shock ed = $bz3*z3 +  vd
// vs, vd, ed ~ N(0,1)
// z1 and z2 are weather shocks, while z3 is income

gl bs0 = 5
gl bs1 = 0.1

gl bd0 = 5
gl bd1 = -0.05

gl bz1 = -1
gl bz2 = 1
gl bz3 = 1

set obs 1000
qui gen vs = rnormal(0, 1)
qui gen z1 = rnormal(0, 1)
qui gen z2 = rnormal(0, 1)
qui gen es = $bz1*z1 + $bz2*z2 + vs

qui gen vd = rnormal(0, 1)
qui gen z3 = rnormal(0, 1)
qui gen ed = $bz3*z3 +  vd

qui gen P = 1/($bs1 - $bd1)*(($bd0 - $bs0) + (ed - es))
qui gen S  = $bs0 + $bs1*P + es
qui gen D  = $bd0 + $bd1*P + ed

qui gen Q = S //Q=S=D

su _all, sep(0)
scatter P Q

***0 Regression

reg Q P
//regressing Q on P is meaningless

//######   Demand function   ######

reg Q P z3
//adding income shock (z3) does not work

//iv = z1 = supply shock
ivregress 2sls Q (P = z1)

//iv = z2 = supply shock
ivregress 2sls Q (P = z1 z2)

//2SLS works well!


//######   Supply function   ######

//iv = z3 = demand shock = income

ivregress 2sls Q (P = z3), first

//2SLS works well!

exit

Stata 出力は次のとおりである。

. su _all, sep(0)

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
          vs |      1000     .007703    1.040135  -3.058428   3.095353
          z1 |      1000    .0464206     1.01628  -3.534935   3.094861
          z2 |      1000    -.019329    .9872461  -3.250259    2.87227
          es |      1000   -.0580466     1.70969  -5.094702   5.716356
          vd |      1000     .026278    1.004637  -3.239537   3.528268
          z3 |      1000   -.0046541    1.023093  -3.287805   3.226589
          ed |      1000     .021624     1.42423   -4.06461    4.18514
           P |      1000    .5311372    15.18189  -42.63594   52.64279
           S |      1000    4.995067    1.083598   1.448721   8.490314
           D |      1000    4.995067    1.083598   1.448721   8.490314
           Q |      1000    4.995067    1.083598   1.448721   8.490314

. scatter P Q

. ***0 Regression

. reg Q P

      Source |       SS       df       MS              Number of obs =    1000
-------------+------------------------------           F(  1,   998) =   29.34
       Model |  33.5018415     1  33.5018415           Prob > F      =  0.0000
    Residual |  1139.50929   998  1.14179287           R-squared     =  0.0286
-------------+------------------------------           Adj R-squared =  0.0276
       Total |  1173.01113   999  1.17418531           Root MSE      =  1.0685

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |   .0120622   .0022268     5.42   0.000     .0076924     .016432
       _cons |    4.98866   .0338111   147.54   0.000     4.922311    5.055009
------------------------------------------------------------------------------

. //regressing Q on P is meaningless

. //######   Demand function   ######

. reg Q P z3

      Source |       SS       df       MS              Number of obs =    1000
-------------+------------------------------           F(  2,   997) =  315.21
       Model |  454.393328     2  227.196664           Prob > F      =  0.0000
    Residual |  718.617799   997  .720780139           R-squared     =  0.3874
-------------+------------------------------           Adj R-squared =  0.3861
       Total |  1173.01113   999  1.17418531           Root MSE      =  .84899

※ 原典 P.66 末尾には scatter P Q による散布図（縦軸 \(P\)：約 \(-40\) 〜 \(60\)、横軸 \(Q\)：約 \(2\) 〜 \(8\)）が画像として掲載されている。原典 P.66 の散布図を参照のこと。

           Q |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |  -.0100726   .0019923    -5.06   0.000    -.0139822   -.0061629
          z3 |   .7144198   .0295645    24.16   0.000     .6564041    .7724355
       _cons |   5.003742    .026871   186.21   0.000     4.951012    5.056472
------------------------------------------------------------------------------

. //adding income shock (z3) does not work

. //iv = z1 = supply shock
. ivregress 2sls Q (P = z1)

Instrumental variables (2SLS) regression               Number of obs =    1000
                                                       Wald chi2(1)  =   45.42
                                                       Prob > chi2   =  0.0000
                                                       R-squared     =       .
                                                       Root MSE      =  1.3855

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |  -.0461453   .0068473    -6.74   0.000    -.0595657   -.0327249
       _cons |   5.019577   .0439645   114.17   0.000     4.933408    5.105745
------------------------------------------------------------------------------
Instrumented:  P
Instruments:   z1

. //iv = z2 = supply shock
. ivregress 2sls Q (P = z1 z2)

Instrumental variables (2SLS) regression               Number of obs =    1000
                                                       Wald chi2(1)  =   92.14
                                                       Prob > chi2   =  0.0000
                                                       R-squared     =       .
                                                       Root MSE      =  1.3643

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |  -.0439281   .0045764    -9.60   0.000    -.0528977   -.0349584
       _cons |   5.018399   .0432118   116.13   0.000     4.933705    5.103093
------------------------------------------------------------------------------
Instrumented:  P
Instruments:   z1 z2

. //2SLS works well!

. //######   Supply function   ######

. //iv = z3 = demand shock = income

. ivregress 2sls Q (P = z3)

Instrumental variables (2SLS) regression               Number of obs =    1000
                                                       Wald chi2(1)  =  160.89
                                                       Prob > chi2   =  0.0000
                                                       R-squared     =       .
                                                       Root MSE      =  1.6461

------------------------------------------------------------------------------
           Q |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           P |   .0946429   .0074615    12.68   0.000     .0800186    .1092672
       _cons |   4.944799   .0522062    94.72   0.000     4.842477    5.047121
------------------------------------------------------------------------------
Instrumented:  P
Instruments:   z3

. //2SLS works well!

. exit

end of do-file

脚注

複数の説明変数があるとき、すなわち \(y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \dots + \beta_k x_{ki} + u_i\) で、\(x_{ki}\) のみが誤差項と相関するとき、IV 推定量は \(\boldsymbol{\beta} = [\mathrm{E}(\mathbf{z}'\mathbf{x})]^{-1}\mathrm{E}(\mathbf{z}'\mathbf{y})\) となる。Wooldridge, 2010, p.91 を参照。↩
Olley and Pakes (1996) は、操作変数に頼ることなく、生産関数における同時性バイアス（simultaneity bias）を制御する。彼らのアプローチは、潜在的な選択バイアス（すなわち、生産性の低い農場が産業から退出し、より生産性の高い農場に置き換わること）も制御する。Levinsohn and Petrin (2003) は、投資の代わりに中間投入（intermediate inputs）を用いることによって、Olley and Pakes (1996) のアプローチを修正することを提案している。↩