本ページは、川崎賢太郎『数量経済分析』2026 S1 講義ノート第12章の原文に忠実な全文和訳である。要約・再構成は行わず、原文の論理展開・脚注・参考文献の順序をそのまま日本語に移している。直観的な理解には図解版を併用されたい。
Spring 2026 / Kentaro Kawasaki
内生変数(endogenous variables)を含まない \(G\) 本の方程式からなる体系を考える。
例:\(y_1\) は食料への支出、\(y_2\) は衣服への支出、……であり、\(\mathbf{x}\) には所得・世帯規模などが含まれる。
\(\mathbf{x}_g\) は \((G \times K_g)\)、\(\boldsymbol{\beta}_g\) は \((K_g \times 1)\) であり、\(K = \sum K_g\) とおく。
多くの応用では \(\mathbf{x}_g\) はすべての \(g\) について同一であるが、一般的なモデルでは \(\mathbf{x}_g\) の要素および次元が方程式ごとに異なることを許す。
この体系はしばしば Zellner (1962) の見かけ上無関係な回帰(Seemingly Unrelated Regressions, SUR)モデルと呼ばれる。この名称は、体系内の各方程式がそれぞれ独自のベクトル \(\boldsymbol{\beta}_g\) をもつために、諸方程式が一見すると無関係に見える、という事実に由来する。
これは次のように表現できる。\(\mathbf{y}_i = \mathbf{x}_i\boldsymbol{\beta} + \mathbf{u}_i\)、ただし
(次元はそれぞれ \(\mathbf{y}_i\):\((G \times 1)\)、\(\mathbf{x}_i\):\((G \times K)\)、\(\boldsymbol{\beta}\):\((K \times 1)\)、\(\mathbf{u}_i\):\((G \times 1)\)。)
\(\mathbf{x}_g\) の厳密外生性(strict exogeneity)を仮定する。すなわち \(E[\mathbf{u}_i \mid \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_g] = 0\)。また均一分散(homoscedasticity)を仮定する。すなわち \(\mathrm{Var}(u_g) = \sigma_g^2\)。
さらに、誤差項は観測値間では無相関であるが方程式間では相関する、と仮定する。すなわち \(\mathrm{Cov}(u_{gi}, u_{hi}) = \sigma_{gh}\) かつ \(\mathrm{Cov}(u_{gi}, u_{hj}) = 0\)。
各方程式は仮定 OLS.1 から OLS.4 を満たす。したがって、効率的ではないにせよ、パラメータは1本ずつ方程式を OLS で推定することで一致推定できる。
しかし、方程式間の相関を除去する GLS(あるいは FGLS)の方がより効率的である。
OLS の代わりに GLS を用いることでどれほどの効率が得られるのかを問うのは興味深い。
重要なのは、SUR 体系のすべての方程式が同一の回帰変数を含む場合でさえ、なお SUR を用いる十分な理由が存在するという点である。すなわち、異なる方程式に属するパラメータにまたがる同時仮説(joint hypotheses)の検定に関心があるかもしれない。それを行うには \(\boldsymbol{\beta}\) の分散行列を推定する必要がある。各方程式を OLS で推定しても、異なる方程式の推定量の間の共分散は直接には得られない。
ここで内生性(endogeneity)を導入する。
次の2本の方程式からなる構造モデル(structural model)を考える。
ここで \(z\) は外生(exogenous)であると仮定する。
一般に \(y_2\) は \(u_1\) と相関し、\(y_1\) は \(u_2\) と相関する。なぜか。
したがって OLS 推定量は一致性をもたない。パラメータを識別するには操作変数(instrumental variable)が必要である。
モデルの外に変数が存在しない場合、これらの方程式のうちどれが推定できるだろうか。すなわち、これらの方程式のうちどれが識別(identified)できるだろうか。結論を言えば、第2の方程式は識別されるが、第1の方程式は識別されない。
これは、操作変数推定に関する我々のルール ― すなわち「除外された操作変数の数 \(\geq\) その方程式における内生変数の数」 ― を用いれば容易に分かる。
第2の方程式における \(y_1\) に対しては、\(z\) を除外操作変数(excluded IV)として用いることができる。しかし \(z\) は第1の方程式に現れるため、第1の方程式における \(y_2\) に対しては除外操作変数が存在しない(両方の方程式に現れない除外操作変数をもつ場合を除く)。
次の3本の方程式からなる構造モデルを考える。
外生変数:\(z_1, z_2, z_3, z_4\)。
これらの方程式のうちどれが識別できるか(モデルの外に利用可能な変数がないものとする)。
第1の方程式:除外された操作変数の数 \((3)\) \(>\) その方程式における内生変数の数 \((2)\)。識別される。
第2の方程式:除外された操作変数の数 \((\;\;)\) \(\;\;\) その方程式における内生変数の数 \((\;\;)\)。
第3の方程式:除外された操作変数の数 \((\;\;)\) \(\;\;\) その方程式における内生変数の数 \((\;\;)\)。
この検定は次数条件(order condition)と呼ばれる。
次数条件は識別のための必要条件にすぎず、十分条件ではない。たとえば \(\gamma_5 = 0\) であれば、\(z_4\) は体系のどこにも現れず、それは \(z_4\) が \(y_1, y_2, y_3\) のいずれとも相関しないことを意味する。このとき第2の方程式は識別されない。なぜなら \(z_4\) は \(y_1\) に対する操作変数として役に立たないからである。したがって、第2の方程式を識別するには \(\gamma_5\) は非ゼロでなければならない(弱操作変数(weak IV)問題と類似している)。
これは階数条件(rank condition)と呼ばれ、識別のための十分条件である。
ある方程式が識別されることを確認したならば、モデルを推定する方法は数多く存在する。
最も単純な方法は、方程式ごとの 2SLS であろう。
2SLS は一致推定値を与えるが、多くの場合、連立方程式モデルを同時に(jointly)推定することで、より効率的な推定量を得ることができる。すなわち、方程式間の誤差項の相関を考慮するために体系的手続き(system procedure)を用いるのである。
この効率の利得は、SUR 体系において OLS よりも実行可能 GLS(feasible GLS)を用いることで実現できる利得と類似している。
方程式の体系全体の同時推定には、一般に3つの操作変数的手法が用いられる。すなわち、三段階最小二乗法(three-stage least squares, 3SLS)21、一般化モーメント法(generalized method of moments, GMM)、および完全情報最尤法(full information maximum likelihood, FIML)である(Greene, 7e, p.370)。ここでは GMM を考える。
モデル:\(\mathbf{y}_i = \mathbf{x}_i\boldsymbol{\beta} + \mathbf{u}_i\)。
\(\mathbf{y}_i\):\((G \times 1)\)、\(\mathbf{x}_i\):\((G \times K)\)(一部の要素は内生的)、\(\mathbf{u}_i\):誤差の \((G \times 1)\) ベクトル、\(\boldsymbol{\beta}\):パラメータの \((K \times 1)\) ベクトル。
階数条件は満たされていると仮定する。
操作変数からなる \((G \times L)\) 行列 \(\mathbf{z}_i\)(除外操作変数 + \(\mathbf{x}_i\) の中の外生変数)をもつとしよう。操作変数は誤差項と無相関であるべきであり、したがって次のモーメント条件(直交条件)(moment / orthogonality condition)が成り立たなければならない。
次を満たすように \(\boldsymbol{\beta}\) を選ぶ。
この方法はモーメント法(method of moments, MM)推定量と呼ばれる(モーメントとは確率変数のべき乗の期待値である)。
この方法は最小二乗法や最尤法とはかなり異なることに注意したい。我々はまずモーメント条件を特定し、しかるのちにその条件を満たすようにパラメータを選ぶ。
まず \(L = K\) の場合(ちょうど識別される(just-identified)場合)を考える。このとき \(\boldsymbol{\beta}\) は一意な解をもつ。
これは操作変数(IV)推定量と等価である。すなわち、IV 推定量は MM の特殊な場合である。
また、内生性が存在しない場合(すなわち \(\mathbf{z}_i = \mathbf{x}_i\) の場合)には、
これは OLS 推定量と等価である。すなわち、OLS は MM の特殊な場合である。
\(L > K\)(過剰識別される(over-identified)場合) ― すなわち識別(未知数)に必要な数よりも多くの操作変数(方程式)をもつ場合 ― には、\(\boldsymbol{\beta}\) の選択はより複雑になる。特殊な場合を除き、\(\mathbf{m}(\boldsymbol{\beta}) = \mathbf{0}\) は解をもたない。そこで代わりに、この式をできるだけ小さくするように \(\boldsymbol{\beta}\) を選ぶ。正と負の値が打ち消し合うのを避けるため、二次形式(quadratic form)をとる。
すなわち、次を最小化するように \(\boldsymbol{\beta}\) を選ぶ。
(これはスカラーである。)
例:2つの操作変数(\(L = 2\))と1つのパラメータ \(\beta\)(\(K = 1\))があるとしよう。データを代入すると \(\mathbf{m}(\boldsymbol{\beta}) = \begin{bmatrix} 3 - \beta \\ 2 - \beta \end{bmatrix}\) が得られたとする。すなわち、2つのモーメント条件が存在する(1つ目の操作変数から1つ、2つ目の操作変数からもう1つ)。1つの未知パラメータでは、両方の条件を同時にゼロにすること(すなわち \(3 - \beta = 2 - \beta = 0\))は不可能である。したがって MM は次の式を最小化する。
多少の計算ののち、最小値が \(\beta = 2.5\) で達成されることが容易に示せる。
この方法は各モーメント条件を等しく(すなわち同一のウェイトで)扱っていることに注意したい。これは一致推定値を与えるものの、より効率的な方法が存在する。すなわち、パラメータの分散をより小さくするために、各モーメント条件にウェイトを適用するのである。
一般化モーメント法(generalized method of moments, GMM)推定量は次を最小化する。
ここで \(\mathbf{W}\) はウェイト行列(weight matrix)(\(L \times L\) の対称・半正定値行列)である。
これは \(\boldsymbol{\beta}\) の二次関数であるため、解析的に解くことができる。
例:\(\mathbf{m}(\boldsymbol{\beta}) = \begin{bmatrix} 3 - \beta \\ 2 - \beta \end{bmatrix}\) かつ \(\mathbf{W} = \begin{bmatrix} a & c \\ c & b \end{bmatrix}\) とする。このとき
ここから \(\mathbf{W}\) が2つのモーメント条件に対するウェイトであることが見て取れる。
問題は \(\mathbf{W}\) をどう選ぶかである。\(\mathbf{W}\) の最適な選択は、最小の分散をもつ GMM 推定量を生み出すものである。
Hansen (1982) は、最適なウェイトが \(\mathbf{W} = \mathbf{S}^{-1}\) で与えられることを示した。ここで \(\mathbf{S} = \mathrm{Var}(\mathbf{m}(\boldsymbol{\beta})) = \mathrm{Var}(\mathbf{z}'\mathbf{u}) = E(\mathbf{z}'\mathbf{u}\mathbf{u}'\mathbf{z})\)。
直観:最適 GMM は、分散がより小さく「より信頼できる」モーメント条件に対して、より高いウェイトを与える。
しかし、\(\mathbf{u}\) は観察できないため \(\mathbf{S}\) を直接計算することはできない。そこで2段階で進める。誤差が独立だが必ずしも同一分布に従わない(すなわち不均一分散(heteroskedasticity))と仮定すると、次の2段階アプローチが GMM 推定量の最小分散を達成する。
第1段階:\(\mathbf{W} = \mathbf{W}_1\) と設定して GMM を推定する。ここで
(\(\mathbf{W}_1\) を用いると、GMM 推定量は 2SLS と等価であることに注意。Wooldridge (2010), ch.8.3.2 および 8.3.3 を参照。)
推定された係数 \(\hat{\boldsymbol{\beta}}_0\) を用いて、残差を得る。\(\mathbf{u}_{0i} = \mathbf{y}_i - \mathbf{x}_i\hat{\boldsymbol{\beta}}_0\)(\((G \times 1)\) ベクトル)。
第2段階:\(\mathbf{W} = \mathbf{W}_2\) と設定して GMM を推定する。ここで
第1のウェイトの選択は誤差構造に依存する。たとえば、誤差が相関すると仮定するならば、第1段階で異なるウェイトを用いるべきである。
モデルがちょうど識別される(\(L = K\))場合、GMM の解は \(\mathbf{W}\) の選択に依存しない。
GMM は単一方程式モデルにも適用できる。実際、不均一分散のもとでは、少なくとも大標本においては、GMM は OLS・2SLS・FE よりも効率的でありうる。ただし小標本では、GMM 推定量の有限標本バイアス(finite-sample bias)が問題となる。
しかし、実証研究者のほぼ全員は GMM ではなく最小二乗法を用いてきた。その理由は、不均一分散が明らかに存在する場合でさえ、それが係数の推定値や統計的有意性に与える影響はしばしば軽微にすぎないからであろう。さらに、不均一分散に頑健な標準誤差を計算する方法も存在する。GMM を用いることによる追加的な利得は小さいかもしれない。
GMM が頻繁に適用される重要な分野は、動的パネルデータモデル(dynamic panel data models)、非線形モデル(例:\(y = \beta_0 + \beta_1 x^{\beta_2}\))、および時系列分析である(Wooldridge 2001, JEP)。