数量経済分析 図解ポータル
Chapter 5  ·  Part II 線形回帰  ·  原典 P.25–28

OLS ― 係数の推定

最小二乗法(OLS)は最も基本的な回帰手法である。本章は OLS の二要素のうち「係数の点推定値」を扱う。残差二乗和を最小化する1階条件から、単回帰の正規方程式と重回帰の正規方程式 \(\hat\beta=(X'X)^{-1}X'y\) を一段ずつ導き、4つの仮定と不偏性の証明まで追う。

OLS 最小二乗法 正規方程式 仮定OLS.1-4 不偏性
川崎賢太郎(東京大学大学院農学生命科学研究科) 原典 P.25–28 OLS: Estimating coefficients
図解で読む 原文に忠実な和訳
Contents
  1. 01. OLS とは ― 二つの構成要素
  2. 02. 単回帰 ― モデルと残差
  3. 03. 単回帰の最小化 ― FOC と正規方程式
  4. 04. 単回帰の推定量
  5. 05. 重回帰 ― 行列による定式化
  6. 06. 目的関数の展開と微分
  7. 07. 重回帰の正規方程式と推定量
  8. 08. 仮定 OLS.1〜OLS.4
  9. 09. 不偏性の証明
  10. 10. 推定結果表の読み方(Rice Yield)
  11. 11. 参考文献
SECTION 01

OLS とは ― 二つの構成要素

OLS(Ordinary Least Square、最小二乗法)は、最も基本的な回帰手法である。 OLS は二つの要素から成る ― 係数の推定値(点推定値, point estimates)と、 その分布(すなわち分散または標準誤差)である。

OLS (Ordinary Least Square) is the most basic regression technique. OLS has two components: the estimated values of coefficients (point estimates) and their distributions (i.e. variance or standard error).
OLS は最も基本的な回帰手法である。OLS は二つの構成要素をもつ ― 係数の推定値(点推定値)と、その分布(すなわち分散または標準誤差)である。

本章は前者(係数の点推定値)の問題に焦点を当てる。後者(分布)は次章で議論する。

Component 1 ― 本章

係数の点推定値

残差二乗和を最小化して係数 \(\hat\beta\) の具体的な値を求める。単回帰では \(\hat\beta_0,\hat\beta_1\)、重回帰では \(\hat\beta=(X'X)^{-1}X'y\)。

Component 2 ― 次章

推定量の分布

推定値の分散・標準誤差を求める。これにより仮説検定や信頼区間の構築、そして推定量の優劣の評価が可能になる。

SECTION 02

単回帰 ― モデルと残差

説明変数が1つの場合(single regressor)から始める。母集団モデル(計量経済学者には観察できない真のモデル)は次式で与えられる。

[参考]Wooldridge, Introductory Econometrics (IE), Ch.2
\[ y_i = \beta_0 + \beta_1 x_i + u_i \qquad (i = 1, 2, \dots, n) \]

上の式(モデル)は「因果関係(causal relationship)」を表していることに注意せよ。したがって \(\beta\) を正しく推定できれば、それは \(y\) と \(x\) の因果関係 ―― すなわち \(x\) が \(y\) に与える影響であって、その逆ではない ―― を教えてくれる。

ハット記号と予測値・残差

\(\hat\beta_0\) と \(\hat\beta_1\) を OLS 推定値とする。真の値と推定値を区別するため、計量経済学者は一般に推定値に「ハット(hat, \(\hat{\ }\))」記号を付ける。このとき、\(y\) の予測値(predicted value)は次のように与えられる。

\[ \hat{y}_i = \hat\beta_0 + \hat\beta_1 x_i \]

そして残差(residual)は次のように定義される。

\[ \hat{u}_i = y_i - \hat{y}_i = y_i - \hat\beta_0 - \hat\beta_1 x_i \]
記号意味
\(\beta_0,\beta_1\)母集団の真のパラメータ(観察不能)。\(\beta_0\) は切片、\(\beta_1\) は傾き
\(u_i\)母集団モデルの誤差項・撹乱項(観察できない要因)
\(\hat\beta_0,\hat\beta_1\)OLS 推定値(データから計算される、真値の推定)
\(\hat{y}_i\)予測値(推定された回帰直線が与える \(y\) の値)
\(\hat{u}_i\)残差(実測値 \(y_i\) と予測値 \(\hat y_i\) の差)。誤差 \(u_i\) とは区別される
誤差 \(u_i\) と残差 \(\hat u_i\) は別物である。\(u_i\) は観察できない母集団モデルの撹乱項、\(\hat u_i\) は推定後にデータから計算できる量である。後出の仮定 OLS.3 は誤差 \(u\) についての条件であって、残差 \(\hat u\) についての条件ではない。
SECTION 03

単回帰の最小化 ― FOC と正規方程式

OLS は残差二乗和(sum of squared residuals)を最小化する。

\[ \min_{\hat\beta_0,\hat\beta_1} \ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \sum_{i=1}^{n}\left(y_i-\hat{y}_i\right)^2 = \sum_{i=1}^{n}\left(y_i-\hat\beta_0-\hat\beta_1 x_i\right)^2 \]
原典 P.26 右側には、観測点とあてはめ直線、残差を描いたグラフィカルなイメージが掲載されている。ただしこの図は、後に学ぶ内生性(endogeneity)のケースについては誤解を招く(misleading)点に注意せよ。

最小化は次の手順で進める ―― 1階の導関数(first derivative)を取り、得られた方程式をゼロと置き、未知のパラメータについて解く

FOC(1階条件, first order conditions)

\[ \frac{\partial\!\left(\sum \hat{u}_i^{\,2}\right)}{\partial\hat\beta_0} = -2\sum_{i=1}^{n}\left(y_i-\hat\beta_0-\hat\beta_1 x_i\right) = 0 \]
\[ \frac{\partial\!\left(\sum \hat{u}_i^{\,2}\right)}{\partial\hat\beta_1} = -2\sum_{i=1}^{n}\left(y_i-\hat\beta_0-\hat\beta_1 x_i\right)x_i = 0 \]

これらを整理すると(両辺を \(-2\) で割り、和を分配すると)、次の正規方程式(normal equations)が得られる。

\[ \sum y_i = n\,\hat\beta_0 + \hat\beta_1\sum x_i \]
\[ \sum y_i x_i = \hat\beta_0\sum x_i + \hat\beta_1\sum x_i^{2} \]
これは \(\hat\beta_0,\hat\beta_1\) に関する2本の連立1次方程式である。これを解けば OLS 推定量が陽に求まる。
SECTION 04

単回帰の推定量

正規方程式を解くと、OLS 推定量について次の公式が得られる。

\[ \hat\beta_1 = \frac{\,n\sum x_i y_i - \sum x_i \sum y_i\,}{\,n\sum x_i^{2} - \left(\sum x_i\right)^2\,} \]
\[ \hat\beta_0 = \frac{\sum y_i - \hat\beta_1\sum x_i}{n} = \bar{y} - \hat\beta_1\bar{x} \]

分子・分母を \(n\) で割れば、傾きの推定量は次の見慣れた形 ―― すなわち偏差積和を偏差平方和で割った形―― にも書ける。両者は同値である。

\[ \hat\beta_1 = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} = \frac{\widehat{\mathrm{Cov}}(x,y)}{\widehat{\mathrm{Var}}(x)} \]
切片の式 \(\hat\beta_0=\bar y-\hat\beta_1\bar x\) は、あてはめ直線が標本平均点 \((\bar x,\bar y)\) を必ず通ることを意味する。
上の偏差積和・分散表示は、原典 P.26 の公式を等価変形して補ったものである。原典本文に直接掲載されているのは、最初に示した \(n\) を含む形 \(\hat\beta_1=\dfrac{n\sum x_iy_i-\sum x_i\sum y_i}{n\sum x_i^2-(\sum x_i)^2}\) と \(\hat\beta_0=\dfrac{\sum y_i-\hat\beta_1\sum x_i}{n}\) である。
SECTION 05

重回帰 ― 行列による定式化

次に、説明変数が複数の場合(multiple regressors)を考える。母集団モデルは次式で与えられる。

[参考]Wooldridge, IE, Ch.3, Appendix E、および Hayashi, Ch.1
\[ y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \dots + \beta_k x_{ki} + u_i \qquad (i=1,2,\dots,n) \]

これを各データ単位について並べて書くと、次のようになる。

\[ \begin{aligned} y_1 &= \beta_1 + \beta_2 x_{21} + \beta_3 x_{31} + \dots + \beta_k x_{k1} + u_1 \\ y_2 &= \beta_1 + \beta_2 x_{22} + \beta_3 x_{32} + \dots + \beta_k x_{k2} + u_2 \\ &\ \ \vdots \\ y_n &= \beta_1 + \beta_2 x_{2n} + \beta_3 x_{3n} + \dots + \beta_k x_{kn} + u_n \end{aligned} \]

そこで、次の行列・ベクトルを定義する。

\[ \mathbf{y}=\begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ \vdots \\ y_n \end{bmatrix},\quad \boldsymbol{\beta}=\begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \\ \vdots \\ \beta_k \end{bmatrix},\quad \mathbf{u}=\begin{bmatrix} u_1 \\ u_2 \\ u_3 \\ \vdots \\ u_n \end{bmatrix},\quad \mathbf{X}=\begin{bmatrix} \mathbf{x}_1 \\ \mathbf{x}_2 \\ \mathbf{x}_3 \\ \vdots \\ \mathbf{x}_n \end{bmatrix} =\begin{bmatrix} 1 & x_{21} & x_{31} & x_{41} & \cdots & x_{k1} \\ 1 & x_{22} & x_{32} & x_{42} & \cdots & x_{k2} \\ 1 & x_{23} & x_{33} & x_{43} & \cdots & x_{k3} \\ & & & \vdots & & \\ 1 & x_{2n} & x_{3n} & x_{4n} & \cdots & x_{kn} \end{bmatrix} \]
各行列の次元
記号名称次元
\(\mathbf{y}\)被説明変数ベクトル\(n\times 1\)
\(\boldsymbol{\beta}\)係数ベクトル\(k\times 1\)
\(\mathbf{u}\)誤差ベクトル\(n\times 1\)
\(\mathbf{X}\)計画行列(説明変数行列、第1列は定数項の1)\(n\times k\)

すると、母集団モデルは次のように簡潔に書ける。

\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} \]
各データ単位については \(y_i = \mathbf{x}_i\boldsymbol{\beta} + u_i\) が成り立つ。ここで \(\mathbf{x}_i\) は \(1\times k\) の行ベクトルである。なお教科書によっては \(y_i = \mathbf{x}_i'\boldsymbol{\beta} + u_i\)(\(\mathbf{x}_i\) を \(k\times 1\) の列ベクトルとする)と書くものもある。
SECTION 06

目的関数の展開と微分

行列形式では、残差二乗和はベクトルの内積として表される。

\[ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \underbrace{\hat{\mathbf{u}}'}_{1\times n}\ \underbrace{\hat{\mathbf{u}}}_{n\times 1} \qquad (\text{結果は } 1\times 1\ \text{のスカラー}) \]

したがって OLS の目的関数は、次のように書ける。

\[ \min_{\boldsymbol{\beta}}\ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})'(\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) \]

推定量を導くため、行列の転置の規則を用いる。

\[ (\mathbf{J}-\mathbf{L}\mathbf{M})' = \mathbf{J}' - \mathbf{M}'\mathbf{L}' \]

これを使って目的関数を展開すると、次のように変形できる。

1

転置の規則を適用

\(\hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})'(\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) = (\mathbf{y}'-\boldsymbol{\beta}'\mathbf{X}')(\mathbf{y}-\mathbf{X}\boldsymbol{\beta})\)

2

展開(4項)

\(= \mathbf{y}'\mathbf{y} - \mathbf{y}'\mathbf{X}\boldsymbol{\beta} - \boldsymbol{\beta}'\mathbf{X}'\mathbf{y} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}\)

3

中央2項をまとめる

\(= \mathbf{y}'\mathbf{y} - 2\,\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}\)

最後のステップは、次の性質に依拠している ―― \(\boldsymbol{\beta}'\mathbf{X}'\mathbf{y}\) と \(\mathbf{y}'\mathbf{X}\boldsymbol{\beta}\) はいずれもスカラー(\(1\times 1\))であり互いに転置の関係にあるため、等しい。

\[ \boldsymbol{\beta}'\mathbf{X}'\mathbf{y} = \mathbf{y}'\mathbf{X}\boldsymbol{\beta} \qquad (\text{スカラーゆえ}) \]

微分に用いる行列代数

1階条件を取るために、次の行列微分の公式を思い出す。

\[ \frac{\partial\, \mathbf{a}\boldsymbol{\beta}}{\partial\boldsymbol{\beta}} = \mathbf{a}',\qquad \frac{\partial\, \boldsymbol{\beta}'\mathbf{X}\boldsymbol{\beta}}{\partial\boldsymbol{\beta}} = 2\mathbf{X}\boldsymbol{\beta} \]
SECTION 07

重回帰の正規方程式と推定量

目的関数を \(\boldsymbol{\beta}\) で微分してゼロと置くと(FOC)、次が得られる。

\[ \frac{\partial\!\left(\mathbf{y}'\mathbf{y} - 2\,\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}\right)}{\partial\boldsymbol{\beta}} = -2\,\mathbf{X}'\mathbf{y} + 2\,\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0 \]

これを整理すると、重回帰の正規方程式が得られる。

\[ \mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{X}'\mathbf{y} \]

両辺に \((\mathbf{X}'\mathbf{X})^{-1}\) を左から掛ければ、OLS 推定量の公式に到達する。

\[ \boxed{\ \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}\ } \]
これが OLS 推定量の最も基本的な行列表現である。\((\mathbf{X}'\mathbf{X})^{-1}\) が存在する(\(\mathbf{X}'\mathbf{X}\) が正則である)ことが前提であり、その保証が次節の仮定 OLS.4 である。
Professor Note ― なぜ「二乗」か(原典 P.26 脚注6)

なぜ「二乗(square)」するのか。二乗が有用なのは、もとの値(符号付きの残差)をそのまま使うと、正の残差と負の残差が互いに相殺してしまうからである。では、残差の絶対値の和を最小化するのはどうか。この手法は「最小絶対偏差(least absolute deviations, LAD)」と呼ばれ、「分位点回帰(quantile regression)」で広く用いられる。OLS と比べて、LAD は外れ値(outliers)に対して感応度が低い(頑健である)

原典 P.26 脚注6。
Professor Note ― FOC の解は本当に最小か(原典 P.27 脚注7)

FOC の解は、最小ではなく最大になりうる。しかし、\(\boldsymbol{\beta}\) に関する2階の導関数 \(2\mathbf{X}'\mathbf{X}\) は、仮定 OLS.4 のもとで正定値行列(positive definite matrix)である。したがって、この解は最小値である。

原典 P.27 脚注7。
SECTION 08

仮定 OLS.1〜OLS.4

OLS の性質を調べる前に、4つの仮定を明確にしておく。

OLS
.1

線形性(linearity)

母集団モデルはパラメータについて線形である:\(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}\)。
たとえば \(y_i = \beta_0 + \beta_1 x_i^{\,\beta_2} + u_i\) はこの仮定を満たさないが、\(y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^{2} + u_i\) は満たす(\(x_i^2\) という変数についての線形結合として書けるため)。

OLS
.2

無作為抽出(random sampling)

我々のデータは、母集団からの無作為標本(random sample)である。

OLS
.3

ゼロ条件付き平均/厳密外生性(zero conditional mean, strict exogeneity)

誤差は、説明変数のいかなる値が与えられても、期待値ゼロをもつ:
\(E(\mathbf{u}\mid\mathbf{X}) = 0\)(残差 \(\hat{\mathbf{u}}\) ではなく、誤差 \(\mathbf{u}\) についての条件であることに注意)。

OLS
.4

多重共線性なし(no multicollinearity, 多重共線性・マルチコ)

\(n\times k\) 行列 \(\mathbf{X}\) の階数(rank)が \(k\) である(列フルランク, full column rank)。言い換えれば、どの説明変数も他の説明変数の線形結合になっていない(完全な共線性が存在しない)。この仮定は、\(\mathbf{X}'\mathbf{X}\) が可逆(正則, non-singular)であり、最小二乗最小化問題に唯一の解が存在することを保証するために必要である。

たとえば、もし \(x_i\) が他の説明変数の線形結合であれば、次が成り立ってしまう。

\[ x_i = \sum_{j\neq i} k_j\, x_j \]
この場合 \(\mathbf{X}\) は列フルランクでなくなり、\(\mathbf{X}'\mathbf{X}\) は特異(非可逆)となるため、\((\mathbf{X}'\mathbf{X})^{-1}\) が定義できず OLS 推定量を求められない。
SECTION 09

不偏性の証明

仮定 OLS.1〜OLS.4 のもとで、OLS 推定量は母集団パラメータの不偏推定量(unbiased estimator)である。

[参考]Wooldridge, IE, Ch.3
\[ E(\hat{\boldsymbol{\beta}}\mid\mathbf{X}) = \boldsymbol{\beta} \]

証明(Proof)

まず、推定量に \(\mathbf{y}=\mathbf{X}\boldsymbol{\beta}+\mathbf{u}\) を代入して整理する。

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\,\underbrace{(\mathbf{X}\boldsymbol{\beta}+\mathbf{u})}_{\mathbf{y}} = \underbrace{(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{X}}_{\mathbf{I}}\,\boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u} = \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u} \]

次に、\(\mathbf{X}\) を所与として条件付き期待値を取る。仮定 OLS.3 より \(E(\mathbf{u}\mid\mathbf{X})=0\) を用いる。

\[ E(\hat{\boldsymbol{\beta}}\mid\mathbf{X}) = E\!\left[\boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}\ \middle|\ \mathbf{X}\right] = \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\,\underbrace{E[\mathbf{u}\mid\mathbf{X}]}_{0} = \boldsymbol{\beta} \]
以上より \(E(\hat{\boldsymbol{\beta}}\mid\mathbf{X})=\boldsymbol{\beta}\)。OLS 推定量は母集団パラメータの不偏推定量である。(証明終)

なお、不偏なパラメータを与える推定量(推定法)は他にも存在しうる。推定量の優劣は、推定されたパラメータの分布(分散または標準誤差)によって評価できる ―― これが次章の主題である。最小の分散を達成する推定量は「有効(efficient)」推定量と呼ばれる。

次章への橋渡し。本章は「点推定値」を確定させた。次章では「分布」を扱い、不偏性に加えて有効性(最小分散)や仮説検定を論じる。
SECTION 10

推定結果表の読み方(Rice Yield)

原典 P.25 には、米の収量(Rice Yield)を被説明変数とする回帰結果が 3通りの括弧表記で示されている。点推定値は3表とも共通で、括弧内の数値だけが異なる。

被説明変数はいずれも Rice Yield(米の収量)。説明変数は Pesticide(農薬)、Fertilizer(肥料)、Labor(労働)。係数の下の角括弧 \([\ ]\) に入る数値が、表ごとに標準誤差/\(t\) 統計量/\(p\) 値と切り替わる。アスタリスクは有意水準を示す ―― \(*\)=10%、\(**\)=5%、\(***\)=1%。

表 Rice Yield に対する回帰結果(3通りの括弧表記)
説明変数 係数(点推定値) [ 標準誤差 ] [ t 統計量 ] [ p 値 ]
Pesticide(農薬)0.143[0.042]***[3.40]***[0.0007]***
Fertilizer(肥料)0.028[0.014]**[2.00]**[0.045]**
Labor(労働)0.201[0.324][0.62][0.535]

注(原典の3表の脚注):括弧内はそれぞれ「標準誤差」「\(t\) 統計量」「\(p\) 値」。アスタリスク \(*\)、ダブルアスタリスク \(**\)、トリプルアスタリスク \(***\) は、それぞれ10%・5%・1%水準での有意性を示す。

読み取り例。Pesticide と Fertilizer は係数が有意(前者は1%、後者は5%水準)だが、Labor は係数 0.201 と最大の点推定値をもつにもかかわらず、いずれの基準でも有意でない(標準誤差 0.324 が大きく、\(t=0.62\)、\(p=0.535\))。点推定値の大きさと統計的有意性は別問題であることがわかる。標準誤差・\(t\) 統計量・\(p\) 値がどう定まるかは、まさに次章「分布」の主題である。
本表は原典 P.25 に並ぶ3つの結果表(標準誤差版・\(t\) 統計量版・\(p\) 値版)を、点推定値が共通であることを踏まえて1表に統合し直したものである。原典では同一の係数値を持つ3表として横並びに掲載されている。
SECTION 11

参考文献(References)

  • Wooldridge, J. M., Introductory Econometrics: A Modern Approach(単回帰は Ch.2、重回帰・不偏性は Ch.3、行列代数は Appendix E).
  • Hayashi, F., Econometrics, Ch.1(重回帰の行列による定式化).
出典:原典 P.25(単回帰)・P.26–27(重回帰の行列定式化)・P.28(仮定・不偏性)の各 [Reference] 表記による。