数量経済分析 図解ポータル
Chapter 8  ·  Part II 線形回帰  ·  原典 P.44–49  ·  全文和訳

標準誤差と不均一分散 ― Standard errors / Heteroskedasticity

本ページは、川崎賢太郎『数量経済分析』2026 S1 講義ノート第8章の原文に忠実な全文和訳である。要約・再構成は行わず、原文の論理展開・脚注・参考文献の順序をそのまま日本語に移している。直観的な理解には図解版を併用されたい。

川崎賢太郎(東京大学大学院農学生命科学研究科) 原典 P.44–49 全文和訳
図解で読む 原文に忠実な和訳

Spring 2026 / Kentaro Kawasaki

[参考文献]Wooldridge, IE, Ch.8

動機Motivation

仮定 OLS.5 が破られると何が起こるか。

仮定 OLS.5:

\(E(u_i^2 \mid \boldsymbol{X}) = \sigma^2\)(均一分散(homoskedasticity))かつ \(E(u_i u_j \mid \boldsymbol{X}) = 0,\ \forall\, i \neq j\)(無相関(no-correlation))。

行列形(分散共分散行列(variance-covariance matrix))で書くと:

\[ \begin{aligned} V(\boldsymbol{u} \mid \boldsymbol{X}) &= E(\boldsymbol{u}\boldsymbol{u}' \mid \boldsymbol{X}) = E\!\left[ \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix} \begin{pmatrix} u_1 & u_2 & \cdots & u_n \end{pmatrix} \,\middle|\, \boldsymbol{X} \right] \\[6pt] &= E\!\left[ \begin{pmatrix} u_1^2 & u_1 u_2 & \cdots & u_1 u_n \\ u_2 u_1 & u_2^2 & \cdots & u_2 u_n \\ \vdots & \vdots & \ddots & \vdots \\ u_n u_1 & u_n u_2 & \cdots & u_n^2 \end{pmatrix} \,\middle|\, \boldsymbol{X} \right] \\[6pt] &= \begin{pmatrix} E(u_1^2 \mid \boldsymbol{X}) & E(u_1 u_2 \mid \boldsymbol{X}) & \cdots & E(u_1 u_n \mid \boldsymbol{X}) \\ E(u_2 u_1 \mid \boldsymbol{X}) & E(u_2^2 \mid \boldsymbol{X}) & \cdots & E(u_2 u_n \mid \boldsymbol{X}) \\ \vdots & \vdots & \ddots & \vdots \\ E(u_n u_1 \mid \boldsymbol{X}) & E(u_n u_2 \mid \boldsymbol{X}) & \cdots & E(u_n^2 \mid \boldsymbol{X}) \end{pmatrix} \\[6pt] &= \begin{pmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{pmatrix} = \sigma^2 \boldsymbol{I}_{n \times n} \end{aligned} \]

不均一分散下の OLSOLS under heteroskedasticity

OLS 推定量の不偏性と一致性には仮定 OLS.1 から OLS.4 が必要であったことを思い出そう。仮定 OLS.5 は、OLS が不偏あるいは一致であることを示すうえで何の役割も果たさなかった。

したがって、OLS 推定量は不均一分散および/または系列相関のもとでも依然として不偏かつ一致である。

しかし、係数の分散の推定値 \(\mathrm{Var}(\hat{\boldsymbol{\beta}})\) は OLS.5 なしでは偏りをもつ。これは、OLS 標準誤差・信頼区間・t 統計量がもはや有効でないことを意味する。

この問題は標本サイズを大きくしても解決されない。

また、OLS が最良線形不偏推定量(best linear unbiased, BLUE)であると述べるガウス=マルコフの定理(Gauss-Markov theorem)が、仮定 OLS.5 に依拠していることも知っている。これが破られると OLS はもはや BLUE ではなくなり、より効率的な推定量(すなわち \(\hat{\boldsymbol{\beta}}\) の分散がより小さい推定量)が利用可能となる。

2つのアプローチがある。変数を変換することで不均一分散を補正する GLS(一般化最小二乗法(generalized least squares))か、不均一分散に頑健な標準誤差(heteroskedasticity-robust standard errors)を用いるかである。

一般化最小二乗法(GLS)Generalized least squares (GLS)

[参考文献]Hayashi, Ch.1.6

誤差が均一分散でなければ、\(V(\boldsymbol{u} \mid \boldsymbol{X})\) の対角要素の値は等しくない。また観測値間で誤差項に相関があれば、非対角要素の値はゼロではない。

正のスカラー \(\sigma^2\) と \(n \times n\) 行列 \(\boldsymbol{V}\) を、\(V(\boldsymbol{u} \mid \boldsymbol{X}) = E(\boldsymbol{u}\boldsymbol{u}' \mid \boldsymbol{X}) = \sigma^2 \boldsymbol{V}\) となるように定義する。

\(E(\boldsymbol{u}\boldsymbol{u}' \mid \boldsymbol{X})\) を成分 \(\sigma^2\) と \(\boldsymbol{V}\) に分解する理由は、効率的な推定のために \(\sigma^2\) の値を知る必要がないからである。仮定 OLS.5 を \(E(\boldsymbol{u}\boldsymbol{u}' \mid \boldsymbol{X}) = \sigma^2 \boldsymbol{V}\) で置き換えたモデルを、一般化回帰モデル(generalized regression model)と呼ぶ。

行列関数 \(\boldsymbol{V}\) の値が既知であるとき、一般化回帰モデルに対する BLUE は存在するか。答えはイエスであり、その推定量は一般化最小二乗法(GLS)推定量と呼ばれる。以下これを導出する。基本的な考え方は、元のモデルを均一分散の仮定を満たすモデルへと変換することである。

\(\boldsymbol{V}\) は分散共分散行列であるから、対称かつ正定値である。したがって、\(\boldsymbol{V}^{-1} = \boldsymbol{C}'\boldsymbol{C}\) を満たす非特異な \(n \times n\) 行列 \(\boldsymbol{C}\) が存在する。13

モデルを \(\boldsymbol{y}^{*} = \boldsymbol{X}^{*}\boldsymbol{\beta} + \boldsymbol{u}^{*}\) へと変換する。ここで \(\boldsymbol{y}^{*} = \boldsymbol{C}\boldsymbol{y}\)、\(\boldsymbol{X}^{*} = \boldsymbol{C}\boldsymbol{X}\)、\(\boldsymbol{u}^{*} = \boldsymbol{C}\boldsymbol{u}\) である。

この変換後のモデルでは仮定 OLS.5 が満たされる。なぜなら

\[ \begin{aligned} E(\boldsymbol{u}^{*}\boldsymbol{u}^{*\prime} \mid \boldsymbol{X}^{*}) &= E(\boldsymbol{u}^{*}\boldsymbol{u}^{*\prime} \mid \boldsymbol{X}) \quad (\boldsymbol{X}^{*} \text{ と } \boldsymbol{X} \text{ は同じ情報を含むため}) \\[4pt] &= E(\boldsymbol{C}\boldsymbol{u}\boldsymbol{u}'\boldsymbol{C}' \mid \boldsymbol{X}) = \boldsymbol{C}\,E(\boldsymbol{u}\boldsymbol{u}' \mid \boldsymbol{X})\,\boldsymbol{C}' = \boldsymbol{C}\,\sigma^2 \boldsymbol{V}\,\boldsymbol{C}' = \sigma^2 \boldsymbol{C}\boldsymbol{V}\boldsymbol{C}' = \sigma^2 \boldsymbol{I}_n \end{aligned} \]

だからである。最後の等号は、\(\boldsymbol{V}^{-1} = \boldsymbol{C}'\boldsymbol{C}\) であることから \((\boldsymbol{C}')^{-1}\boldsymbol{V}^{-1}\boldsymbol{C}^{-1} = \boldsymbol{I}_n\) が従う、という事実を用いている。よって \(\boldsymbol{C}\boldsymbol{V}\boldsymbol{C}' = \boldsymbol{I}_n\) である(\((\boldsymbol{A}\boldsymbol{B})^{-1} = \boldsymbol{B}^{-1}\boldsymbol{A}^{-1}\)、かつ \(\boldsymbol{I}_n^{-1} = \boldsymbol{I}_n\) であるため)。

したがって変換後の誤差ベクトル \(\boldsymbol{u}^{*}\) は仮定 OLS.5 を満たす。

これは、変換後のモデル \(\boldsymbol{y}^{*} = \boldsymbol{X}^{*}\boldsymbol{\beta} + \boldsymbol{u}^{*}\) に OLS を適用すると、元のモデルに OLS を適用するよりも効率的な推定量(BLUE)が得られ、正しい t 統計量と F 統計量が得られることを意味する。

実行可能一般化最小二乗法(FGLS)Feasible Generalized least squares (FGLS)

しかし、ほとんどの場合 \(\boldsymbol{V}\) の正確な形は未知である。まず \(\boldsymbol{V}\) の未知パラメータの一致推定量を見つけなければならない。通常は2つの方法、2段階 GLS と最尤法が用いられる。ここでは2段階推定量を考える。14

\(\boldsymbol{V}\) は \(n(n+1)/2\) 個の追加パラメータをもち、これは \(n\) 個の観測値で推定するにはあまりにも多すぎる。明らかに、先に進むためにはモデルに何らかの構造を課さなければならない。

観測値間で誤差項に相関がなく(したがって行列 \(V(\boldsymbol{u}\mid\boldsymbol{X})\) は対角行列となる)、不均一分散が存在するという特殊ケースを考える。

ここでは、ある特定の、かなり柔軟なアプローチを考える。\(\mathrm{Var}(u_i \mid x_i) = \sigma^2 \exp(x_i \delta)\) と仮定する。

なぜ指数関数なのか。分散は正でなければならないからである。

このとき次の手続きを実行可能一般化最小二乗法(FGLS)と呼ぶ。これは一致推定量であり、(大標本 \(N\) において)漸近的に OLS よりも効率的である。

加重最小二乗法(WLS)Weighted Least square (WLS)

観測値間で誤差項に相関がなく、不均一分散が存在するとする。\(\mathrm{Var}(u_i \mid x_i) = \sigma_i^2\)。

\(\sigma_i\) が既知であれば、次の手続きは OLS よりも効率的である。

\(y_i^{*} = y_i / \sigma_i\)、\(x_i^{*} = x_i / \sigma_i\)、\(u_i^{*} = u_i / \sigma_i\) と定義する。

\(y_i^{*} = x_i^{*}\boldsymbol{\beta} + u_i^{*}\) について OLS を実行する。

これが加重最小二乗法(WLS)推定量である。この名は、\(\hat{\boldsymbol{\beta}}\) が加重残差平方和を最小化することに由来する。ここで各残差の平方は \(1/\sigma_i^2\) で重みづけされる。考え方は、誤差分散の大きい観測値ほど小さなウェイトを与えるというものである。

WLS は GLS の特殊ケースである。

いつ加重が必要か:集計(グループ)データWhen do we need weight?: Aggregate (group) data

WLS に必要なウェイトが、背後にある計量経済モデルから自然に生じる場合が1つある。これは、個人レベルのデータを用いる代わりに、あるグループや地理的地域にわたるデータの平均しか手元にない場合に起こる。

個人レベルの式が均一分散の仮定を満たし、\(\mathrm{Cov}(u_{gi}, u_{gj}) = 0\) であるとする:

\[ y_{gi} = x_{gi}\boldsymbol{\beta} + u_{gi} \qquad \text{かつ} \qquad \mathrm{Var}(u_{gi} \mid x_{gi}) = \sigma^2 \]

ここで \(g\) はグループ、\(i\) は個人である。

このとき集計レベルの式は次のようになる:15

\[ \bar{y}_g = \bar{x}_g \boldsymbol{\beta} + \bar{u}_g \]

ここで、たとえば \(\bar{y}_g\) は \(y_{gi}\) のグループ平均である。

すると

\[ \mathrm{Var}(\bar{u}_g) = \mathrm{Var}\!\left( \frac{1}{m_g} \sum_{i=1}^{m_g} u_{gi} \right) = \frac{1}{m_g^2} \sum_{i=1}^{m_g} \mathrm{Var}(u_{gi}) = \frac{1}{m_g^2} \, m_g \, \sigma^2 = \frac{\sigma^2}{m_g} \]

ここで \(m_g\) はグループ \(g\) 内の個人数である。私は公式 \(\mathrm{Var}(aX) = a^2 \mathrm{Var}(X)\) および \(\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\mathrm{Cov}(X,Y)\) を用いた。

したがって集計レベルの式は不均一分散をもつ。分散は \(m_g\) が増えるにつれて減少する。

この場合、最も効率的な手続きは、ウェイトを \(m_g\) に等しくとった加重最小二乗法である。

いつ加重が必要か:標本ウェイトWhen do we need weight?: Sampling weight

[参考文献]Cameron and Trivedi, ch. 24

実務では、調査費用を削減するため、また特に関心のある母集団の部分集団について推定精度を高めるため、データはしばしば非無作為標本抽出設計(non-random sampling design)で収集される。

たとえば、農業経済調査ではまず農場を経営規模(例:1〜2 ha、2〜3 ha)と農業類型(例:稲作農家、酪農家)でいくつかの部分集団に層化(stratify)し、部分集団ごとに異なる抽出率を用いる。

一般的なルールは次のとおりである(詳細は Wooldridge, 2010, Ch.20 を参照)。

予測値 \(y\) の平均(集計)を知るには、加重は常に必要である:

\[ \hat{Y} \equiv E[\hat{y}_i] = \sum_{i=1}^{N} w_i \hat{y}_i \]

モデルが線形であれば、部分(限界)効果を計算するのに加重は不要である。たとえばモデルが \(y = \beta_0 + \beta_1 x_1\) であれば、\(x_1\) の部分効果は単に

\[ E\!\left( \frac{\partial y}{\partial x_1} \right) = \beta_1 \]

として与えられる。

しかし、モデルが非線形(\(y = \beta_0 + g(x)\))であれば、\(g(\cdot)\) が非線形であるため、予測効果は評価点 \(x\) によって変化する。母集団における平均的な応答の推定値(平均部分効果(average partial effects))は:

\[ E\!\left( \frac{\partial y}{\partial \boldsymbol{x}} \right) = \sum_{i=1}^{N} w_i \, \frac{\partial g(\boldsymbol{x})}{\partial \boldsymbol{x}} \]

ここで \(w\) は標本ウェイトである。

頑健標準誤差Robust standard error

FGLS の弱点は、分散の決定要因の特定化を誤ると非効率な推定量になることである(例:関数形 \(\mathrm{Var}(u_i \mid x_i) = \sigma^2 \exp(x_i \delta)\) は正しく特定化されているか?)。

この理由から、FGLS によって不均一分散を補正する代わりに、多くの研究は不均一分散に頑健な標準誤差(heteroskedasticity-robust standard errors)を用いる。

これは任意の形の不均一分散を許容する(ただし誤差間の相関は許容しない)。

Stata では、オプション「robust」を用いる。

頑健標準誤差と頑健 t 統計量は、標本サイズが大きくなる場合にのみ正当化される。

不均一分散の存在を検定するさまざまな方法がある。Wooldridge, IE Chapter 8 を参照。

頑健標準誤差の数学Mathmatics of robust standard error

均一分散のもとでは、次が成り立つことを見た。

\[ \begin{aligned} V(\hat{\boldsymbol{\beta}} \mid \boldsymbol{X}) &= V\big( \boldsymbol{\beta} + (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{u} \mid \boldsymbol{X} \big) = (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\, V(\boldsymbol{u} \mid \boldsymbol{X})\, \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1} \\[4pt] &= \sigma^2 (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{I}_n \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1} = \sigma^2 (\boldsymbol{X}'\boldsymbol{X})^{-1} \end{aligned} \]

しかし、これは不均一分散のもとでは成り立たない。なぜなら \(V(\boldsymbol{u})\) を上のように簡約できないからである。

上の式において、頑健標準誤差は残差 \(\hat{u}_i = y_i - x_i \hat{\boldsymbol{\beta}}\) から推定される \(V(\boldsymbol{u})\) を用いる。

\[ \begin{aligned} V(\boldsymbol{u}) &= E(\boldsymbol{u}\boldsymbol{u}') - E(\boldsymbol{u})E(\boldsymbol{u}') = E\!\left[ \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix} \begin{pmatrix} u_1 & u_2 & \cdots & u_n \end{pmatrix} \right] \\[6pt] &= \begin{pmatrix} E(u_1^2) & E(u_1 u_2) & \cdots & E(u_1 u_n) \\ E(u_2 u_1) & E(u_2^2) & \cdots & E(u_2 u_n) \\ \vdots & \vdots & \ddots & \vdots \\ E(u_n u_1) & E(u_n u_2) & \cdots & E(u_n^2) \end{pmatrix} = \begin{pmatrix} E(u_1^2) & 0 & \cdots & 0 \\ 0 & E(u_2^2) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & E(u_n^2) \end{pmatrix} \end{aligned} \]

クラスター標準誤差Clustered standard error

クラスター標準誤差は、「クラスター」(またはグループ)内での任意の形の不均一分散と相関を許容する。異なるクラスター間の相関はゼロと仮定される。

\(y\) を米の収量、データ単位を市とする。すると、相関が生じうるいくつかのメカニズムが考えられる。

クラスター標準誤差は、先に頑健推定量について論じたのと同様の有限(小)標本の偏りを被る。この文脈で問題となるのは、標本サイズではなくクラスターの数である。すなわち、クラスターの数が少ないと、クラスター標準誤差は誤った結論を導きうる(Angrist and Pischke ch.8.2.3、Cameron et al 2008)。

Kezdi (2004) は、50 クラスターあれば正確な推論に十分近いことが多いと示しているが、この結論は特定の型のモデルについてのシミュレーションから導かれたものである。

クラスターの大きさ(各クラスター内の観測値数)は、クラスターに頑健な標準誤差を導出するうえで何の役割も果たさない(ただし、すべてのクラスターが観測値を1つしかもたない場合は問題である)。Cameron and Miller (2015) の式 (10) と (11) を参照。

本当にクラスターについて調整する必要があるかを確かめるには、クラスター化の存在を検定できる(Stata では cltest および xtcltest)。

空間相関と時間相関の両方を考慮したい場合は、以下で論じる空間 HAC 標準誤差を用いる。

空間 HAC 標準誤差Spatial HAC standard error

パネルデータを扱うとき、誤差項には2種類の相関がありうる。空間相関(隣接する単位の誤差項が相関する)と時間相関(今日と過去の誤差項が相関する)である。

また、相関に「減衰(decay)」を仮定したい場合もある。すなわち、2つの誤差項間の(空間的または時間的な)距離の一定の上限まで相関は線形に減少し、それを超えると相関はゼロと仮定する、というものである。

これらの問題に対処するには、不均一分散・自己相関一致(Heteroskedasticity- and Autocorrelation-Consistent, HAC)標準誤差を用いる。

Stata では、ユーザー作成のコマンド「acreg」「ols_spatial_HAC」または「reg2hdfespatial」によってこれを実行できる。詳細は Colella et al. (2020) を参照。

空間相関標準誤差Spatially correlated standard error

空間相関の構造をより明示的に明らかにしたい場合は、次のモデルを用いることができる。

参考文献:Anselin (1988, 2001)、Brady and Irwin (2011)、Le Sage and Pace (2009)。

空間誤差(SE)モデル(Spatial error (SE) model)

\[ \begin{aligned} y_i &= x_i \boldsymbol{\beta} + u_i \\[4pt] u_i &= \lambda \sum_{j=1}^{n} W_{ij} u_j + v_i = \lambda \boldsymbol{W}\boldsymbol{u} + v_i \end{aligned} \]

ここでスカラー \(\lambda\) は推定可能な空間自己回帰係数(spatial autoregression coefficient)である。

\(W_{ij}\) は既知と仮定される空間ウェイト(spatial weights)である。典型的には \(W_{ij}\) は、\(i, j\) のペアが隣接していれば1に等しく、そうでなければゼロとなる。あるいは、\(W_{ij}\) は空間にわたる距離を反映してもよく、その場合 \(W_{ij}\) は \(i\) と \(j\) のあいだの空間的距離が増えるにつれて減少する。

空間自己回帰(SAR)モデル、または空間ラグモデル(Spatial autoregressive (SAR) model, or Spatial lag model)

\[ y_i = \rho \sum_{j=1}^{n} W_{ij} y_j + x_i \boldsymbol{\beta} + u_i = \rho \boldsymbol{W}\boldsymbol{y} + x_i \boldsymbol{\beta} + u_i \]

空間ラグ説明変数(SLX)モデル(Spatially lagged explanatory variable (SLX) model)

\[ y_i = \rho \sum_{j=1}^{n} W_{ij} x_j + x_i \boldsymbol{\beta} + u_i = \rho \boldsymbol{W}\boldsymbol{x}_j + x_i \boldsymbol{\beta} + u_i \]

どのモデルを用いるか。原則として、モデルの選択はモデル化しようとする相互作用の型に依存すべきである。たとえば Pinkse, Slade, and Brett (2002) のように、隣接する競合企業の価格(\(y_j\))が企業自身の価格設定(\(y_i\))に影響するならば、SAR モデルが正しい選択である。対照的に、隣接者の製品特性(\(x_j\))が関連すると仮定されるならば、SLX モデルが適切な選択である。

Gibbons and Overman (2012) は、多くの状況において SLX モデルが SAR モデルよりも信頼できる代替案であると論じている。彼らは、SAR モデルが識別問題(identification problem)を被りうると論じている。

パラメータの結合に対する標準誤差Standard error for the combinations of parameters

次のモデルを推定するとしよう:

\[ y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \cdots + \beta_k x_{ki} + u_i \]

これは各係数の標準誤差 \(\mathrm{se}(\hat{\beta}_k)\) を与える。

パラメータの線形結合の標準誤差を計算するのに難しさはない(Stata では lincom コマンドを用いる)。たとえば、公式により \(\mathrm{Var}(\hat{\beta}_2 + \hat{\beta}_3) = \mathrm{Var}(\hat{\beta}_2) + \mathrm{Var}(\hat{\beta}_3) + 2\mathrm{Cov}(\hat{\beta}_2, \hat{\beta}_3)\) である。したがって \(\mathrm{se}(\hat{\beta}_2 + \hat{\beta}_3) = \mathrm{Var}(\hat{\beta}_2 + \hat{\beta}_3)^{0.5}\) となる。

しかし、\(\mathrm{se}(\hat{\beta}_2 / \hat{\beta}_3)\) のようなパラメータの非線形結合の標準誤差には、デルタ法(Delta method)(1次のテイラー級数展開)、Krinsky-Robb 法、ブートストラップ法(bootstrap method)といった特別な技法が必要である。Holmes, et al (2017, p.163) を参照。

参考文献References

脚注
  1. この分解は一意ではなく、\(\boldsymbol{C}\) には複数の選択肢があるが、以下の議論から明らかなように、\(\boldsymbol{C}\) の選択は問題にならない。
  2. 最尤推定については Greene, ch.14 を参照。
  3. 交差項がある場合、集計はそれほど単純ではない。Blundell and Stoker (2007) "Models of Aggregate Economic Relationships That Account for Heterogeneity," in J. Heckman (ed.) Handbook of Econometrics, Chapter 68, pp 4609-4666 を参照。