SECTION 01
OLS とは ― 二つの構成要素
OLS(Ordinary Least Square、最小二乗法) は、最も基本的な回帰手法である。
OLS は二つの要素から成る ― 係数の推定値(点推定値, point estimates) と、
その分布(すなわち分散または標準誤差) である。
OLS (Ordinary Least Square) is the most basic regression technique. OLS has two components: the estimated values of coefficients (point estimates) and their distributions (i.e. variance or standard error).
OLS は最も基本的な回帰手法である。OLS は二つの構成要素をもつ ― 係数の推定値(点推定値)と、その分布(すなわち分散または標準誤差)である。
本章は前者(係数の点推定値)の問題に焦点を当てる。 後者(分布)は次章で議論する。
Component 1 ― 本章
係数の点推定値
残差二乗和を最小化して係数 \(\hat\beta\) の具体的な値を求める。単回帰では \(\hat\beta_0,\hat\beta_1\)、重回帰では \(\hat\beta=(X'X)^{-1}X'y\)。
Component 2 ― 次章
推定量の分布
推定値の分散・標準誤差を求める。これにより仮説検定や信頼区間の構築、そして推定量の優劣の評価が可能になる。
SECTION 02
単回帰 ― モデルと残差
説明変数が1つの場合(single regressor )から始める。母集団モデル(計量経済学者には観察できない真のモデル)は次式で与えられる。
[参考]Wooldridge, Introductory Econometrics (IE), Ch.2
\[ y_i = \beta_0 + \beta_1 x_i + u_i \qquad (i = 1, 2, \dots, n) \]
上の式(モデル)は「因果関係(causal relationship) 」を表していることに注意せよ。したがって \(\beta\) を正しく推定できれば、それは \(y\) と \(x\) の因果関係 ―― すなわち \(x\) が \(y\) に与える影響 であって、その逆ではない ―― を教えてくれる。
ハット記号と予測値・残差
\(\hat\beta_0\) と \(\hat\beta_1\) を OLS 推定値とする。真の値と推定値を区別するため、計量経済学者は一般に推定値に「ハット(hat, \(\hat{\ }\))」記号を付ける。このとき、\(y\) の予測値(predicted value) は次のように与えられる。
\[ \hat{y}_i = \hat\beta_0 + \hat\beta_1 x_i \]
そして残差(residual) は次のように定義される。
\[ \hat{u}_i = y_i - \hat{y}_i = y_i - \hat\beta_0 - \hat\beta_1 x_i \]
記号 意味
\(\beta_0,\beta_1\) 母集団の真のパラメータ(観察不能)。\(\beta_0\) は切片、\(\beta_1\) は傾き
\(u_i\) 母集団モデルの誤差項・撹乱項(観察できない要因)
\(\hat\beta_0,\hat\beta_1\) OLS 推定値(データから計算される、真値の推定)
\(\hat{y}_i\) 予測値(推定された回帰直線が与える \(y\) の値)
\(\hat{u}_i\) 残差(実測値 \(y_i\) と予測値 \(\hat y_i\) の差)。誤差 \(u_i\) とは区別される
誤差 \(u_i\) と残差 \(\hat u_i\) は別物である。 \(u_i\) は観察できない母集団モデルの撹乱項、\(\hat u_i\) は推定後にデータから計算できる量である。後出の仮定 OLS.3 は誤差 \(u\) についての条件であって、残差 \(\hat u\) についての条件ではない。
SECTION 03
単回帰の最小化 ― FOC と正規方程式
OLS は残差二乗和(sum of squared residuals) を最小化する。
\[ \min_{\hat\beta_0,\hat\beta_1} \ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \sum_{i=1}^{n}\left(y_i-\hat{y}_i\right)^2 = \sum_{i=1}^{n}\left(y_i-\hat\beta_0-\hat\beta_1 x_i\right)^2 \]
原典 P.26 右側には、観測点とあてはめ直線、残差を描いたグラフィカルなイメージが掲載されている。ただしこの図は、後に学ぶ内生性(endogeneity)のケースについては誤解を招く(misleading) 点に注意せよ。
最小化は次の手順で進める ―― 1階の導関数(first derivative)を取り、得られた方程式をゼロと置き、未知のパラメータについて解く 。
FOC(1階条件, first order conditions)
\[ \frac{\partial\!\left(\sum \hat{u}_i^{\,2}\right)}{\partial\hat\beta_0} = -2\sum_{i=1}^{n}\left(y_i-\hat\beta_0-\hat\beta_1 x_i\right) = 0 \]
\[ \frac{\partial\!\left(\sum \hat{u}_i^{\,2}\right)}{\partial\hat\beta_1} = -2\sum_{i=1}^{n}\left(y_i-\hat\beta_0-\hat\beta_1 x_i\right)x_i = 0 \]
これらを整理すると(両辺を \(-2\) で割り、和を分配すると)、次の正規方程式(normal equations) が得られる。
\[ \sum y_i = n\,\hat\beta_0 + \hat\beta_1\sum x_i \]
\[ \sum y_i x_i = \hat\beta_0\sum x_i + \hat\beta_1\sum x_i^{2} \]
これは \(\hat\beta_0,\hat\beta_1\) に関する2本の連立1次方程式である。これを解けば OLS 推定量が陽に求まる。
SECTION 04
単回帰の推定量
正規方程式を解くと、OLS 推定量について次の公式 が得られる。
\[ \hat\beta_1 = \frac{\,n\sum x_i y_i - \sum x_i \sum y_i\,}{\,n\sum x_i^{2} - \left(\sum x_i\right)^2\,} \]
\[ \hat\beta_0 = \frac{\sum y_i - \hat\beta_1\sum x_i}{n} = \bar{y} - \hat\beta_1\bar{x} \]
分子・分母を \(n\) で割れば、傾きの推定量は次の見慣れた形 ―― すなわち偏差積和を偏差平方和で割った形 ―― にも書ける。両者は同値である。
\[ \hat\beta_1 = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} = \frac{\widehat{\mathrm{Cov}}(x,y)}{\widehat{\mathrm{Var}}(x)} \]
切片の式 \(\hat\beta_0=\bar y-\hat\beta_1\bar x\) は、あてはめ直線が標本平均点 \((\bar x,\bar y)\) を必ず通る ことを意味する。
上の偏差積和・分散表示は、原典 P.26 の公式を等価変形して補ったものである。原典本文に直接掲載されているのは、最初に示した \(n\) を含む形 \(\hat\beta_1=\dfrac{n\sum x_iy_i-\sum x_i\sum y_i}{n\sum x_i^2-(\sum x_i)^2}\) と \(\hat\beta_0=\dfrac{\sum y_i-\hat\beta_1\sum x_i}{n}\) である。
SECTION 05
重回帰 ― 行列による定式化
次に、説明変数が複数の場合(multiple regressors )を考える。母集団モデルは次式で与えられる。
[参考]Wooldridge, IE, Ch.3, Appendix E、および Hayashi, Ch.1
\[ y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \dots + \beta_k x_{ki} + u_i \qquad (i=1,2,\dots,n) \]
これを各データ単位について並べて書くと、次のようになる。
\[
\begin{aligned}
y_1 &= \beta_1 + \beta_2 x_{21} + \beta_3 x_{31} + \dots + \beta_k x_{k1} + u_1 \\
y_2 &= \beta_1 + \beta_2 x_{22} + \beta_3 x_{32} + \dots + \beta_k x_{k2} + u_2 \\
&\ \ \vdots \\
y_n &= \beta_1 + \beta_2 x_{2n} + \beta_3 x_{3n} + \dots + \beta_k x_{kn} + u_n
\end{aligned}
\]
\[
\mathbf{y}=\begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ \vdots \\ y_n \end{bmatrix},\quad
\boldsymbol{\beta}=\begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \\ \vdots \\ \beta_k \end{bmatrix},\quad
\mathbf{u}=\begin{bmatrix} u_1 \\ u_2 \\ u_3 \\ \vdots \\ u_n \end{bmatrix},\quad
\mathbf{X}=\begin{bmatrix} \mathbf{x}_1 \\ \mathbf{x}_2 \\ \mathbf{x}_3 \\ \vdots \\ \mathbf{x}_n \end{bmatrix}
=\begin{bmatrix}
1 & x_{21} & x_{31} & x_{41} & \cdots & x_{k1} \\
1 & x_{22} & x_{32} & x_{42} & \cdots & x_{k2} \\
1 & x_{23} & x_{33} & x_{43} & \cdots & x_{k3} \\
& & & \vdots & & \\
1 & x_{2n} & x_{3n} & x_{4n} & \cdots & x_{kn}
\end{bmatrix}
\]
各行列の次元
記号 名称 次元
\(\mathbf{y}\) 被説明変数ベクトル \(n\times 1\)
\(\boldsymbol{\beta}\) 係数ベクトル \(k\times 1\)
\(\mathbf{u}\) 誤差ベクトル \(n\times 1\)
\(\mathbf{X}\) 計画行列(説明変数行列、第1列は定数項の1) \(n\times k\)
\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} \]
各データ単位については \(y_i = \mathbf{x}_i\boldsymbol{\beta} + u_i\) が成り立つ。ここで \(\mathbf{x}_i\) は \(1\times k\) の行ベクトルである。なお教科書によっては \(y_i = \mathbf{x}_i'\boldsymbol{\beta} + u_i\)(\(\mathbf{x}_i\) を \(k\times 1\) の列ベクトルとする)と書くものもある。
SECTION 06
目的関数の展開と微分
行列形式では、残差二乗和 はベクトルの内積として表される。
\[
\sum_{i=1}^{n}\hat{u}_i^{\,2}
= \underbrace{\hat{\mathbf{u}}'}_{1\times n}\ \underbrace{\hat{\mathbf{u}}}_{n\times 1}
\qquad (\text{結果は } 1\times 1\ \text{のスカラー})
\]
したがって OLS の目的関数は、次のように書ける。
\[
\min_{\boldsymbol{\beta}}\ \sum_{i=1}^{n}\hat{u}_i^{\,2}
= \hat{\mathbf{u}}'\hat{\mathbf{u}}
= (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})'(\mathbf{y}-\mathbf{X}\boldsymbol{\beta})
\]
\[ (\mathbf{J}-\mathbf{L}\mathbf{M})' = \mathbf{J}' - \mathbf{M}'\mathbf{L}' \]
これを使って目的関数を展開すると、次のように変形できる。
1
転置の規則を適用
\(\hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})'(\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) = (\mathbf{y}'-\boldsymbol{\beta}'\mathbf{X}')(\mathbf{y}-\mathbf{X}\boldsymbol{\beta})\)
2
展開(4項)
\(= \mathbf{y}'\mathbf{y} - \mathbf{y}'\mathbf{X}\boldsymbol{\beta} - \boldsymbol{\beta}'\mathbf{X}'\mathbf{y} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}\)
3
中央2項をまとめる
\(= \mathbf{y}'\mathbf{y} - 2\,\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}\)
最後のステップは、次の性質に依拠している ―― \(\boldsymbol{\beta}'\mathbf{X}'\mathbf{y}\) と \(\mathbf{y}'\mathbf{X}\boldsymbol{\beta}\) はいずれもスカラー(\(1\times 1\))であり互いに転置の関係 にあるため、等しい。
\[ \boldsymbol{\beta}'\mathbf{X}'\mathbf{y} = \mathbf{y}'\mathbf{X}\boldsymbol{\beta} \qquad (\text{スカラーゆえ}) \]
微分に用いる行列代数
1階条件を取るために、次の行列微分の公式を思い出す。
\[ \frac{\partial\, \mathbf{a}\boldsymbol{\beta}}{\partial\boldsymbol{\beta}} = \mathbf{a}',\qquad \frac{\partial\, \boldsymbol{\beta}'\mathbf{X}\boldsymbol{\beta}}{\partial\boldsymbol{\beta}} = 2\mathbf{X}\boldsymbol{\beta} \]
SECTION 07
重回帰の正規方程式と推定量
目的関数を \(\boldsymbol{\beta}\) で微分してゼロと置くと(FOC )、次が得られる。
\[
\frac{\partial\!\left(\mathbf{y}'\mathbf{y} - 2\,\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}\right)}{\partial\boldsymbol{\beta}}
= -2\,\mathbf{X}'\mathbf{y} + 2\,\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0
\]
\[ \mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{X}'\mathbf{y} \]
両辺に \((\mathbf{X}'\mathbf{X})^{-1}\) を左から掛ければ、OLS 推定量の公式に到達する。
\[ \boxed{\ \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}\ } \]
これが OLS 推定量の最も基本的な行列表現である。\((\mathbf{X}'\mathbf{X})^{-1}\) が存在する(\(\mathbf{X}'\mathbf{X}\) が正則である)ことが前提であり、その保証が次節の仮定 OLS.4 である。
Professor Note ― なぜ「二乗」か(原典 P.26 脚注6)
なぜ「二乗(square)」するのか。二乗が有用なのは、もとの値(符号付きの残差)をそのまま使うと、正の残差と負の残差が互いに相殺してしまうからである。では、残差の絶対値の和 を最小化するのはどうか。この手法は「最小絶対偏差(least absolute deviations, LAD) 」と呼ばれ、「分位点回帰(quantile regression) 」で広く用いられる。OLS と比べて、LAD は外れ値(outliers)に対して感応度が低い(頑健である) 。
原典 P.26 脚注6。
Professor Note ― FOC の解は本当に最小か(原典 P.27 脚注7)
FOC の解は、最小ではなく最大 になりうる。しかし、\(\boldsymbol{\beta}\) に関する2階の導関数 \(2\mathbf{X}'\mathbf{X}\) は、仮定 OLS.4 のもとで正定値行列(positive definite matrix) である。したがって、この解は最小値である。
原典 P.27 脚注7。
SECTION 08
仮定 OLS.1〜OLS.4
OLS の性質を調べる前に、4つの仮定 を明確にしておく。
OLS .1
線形性(linearity)
母集団モデルはパラメータについて線形 である:\(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}\)。
たとえば \(y_i = \beta_0 + \beta_1 x_i^{\,\beta_2} + u_i\) はこの仮定を満たさないが、\(y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^{2} + u_i\) は満たす(\(x_i^2\) という変数についての線形結合として書けるため)。
OLS .2
無作為抽出(random sampling)
我々のデータは、母集団からの無作為標本(random sample) である。
OLS .3
ゼロ条件付き平均/厳密外生性(zero conditional mean, strict exogeneity)
誤差は、説明変数のいかなる値が与えられても、期待値ゼロをもつ:
\(E(\mathbf{u}\mid\mathbf{X}) = 0\)(残差 \(\hat{\mathbf{u}}\) ではなく、誤差 \(\mathbf{u}\) についての条件であることに注意)。
OLS .4
多重共線性なし(no multicollinearity, 多重共線性・マルチコ)
\(n\times k\) 行列 \(\mathbf{X}\) の階数(rank)が \(k\) である(列フルランク, full column rank)。言い換えれば、どの説明変数も他の説明変数の線形結合になっていない(完全な共線性が存在しない)。この仮定は、\(\mathbf{X}'\mathbf{X}\) が可逆(正則, non-singular) であり、最小二乗最小化問題に唯一の解 が存在することを保証するために必要である。
たとえば、もし \(x_i\) が他の説明変数の線形結合であれば、次が成り立ってしまう。
\[ x_i = \sum_{j\neq i} k_j\, x_j \]
この場合 \(\mathbf{X}\) は列フルランクでなくなり、\(\mathbf{X}'\mathbf{X}\) は特異(非可逆)となるため、\((\mathbf{X}'\mathbf{X})^{-1}\) が定義できず OLS 推定量を求められない。
SECTION 09
不偏性の証明
仮定 OLS.1〜OLS.4 のもとで、OLS 推定量は母集団パラメータの不偏推定量(unbiased estimator) である。
[参考]Wooldridge, IE, Ch.3
\[ E(\hat{\boldsymbol{\beta}}\mid\mathbf{X}) = \boldsymbol{\beta} \]
証明(Proof)
まず、推定量に \(\mathbf{y}=\mathbf{X}\boldsymbol{\beta}+\mathbf{u}\) を代入して整理する。
\[
\hat{\boldsymbol{\beta}}
= (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\,\underbrace{(\mathbf{X}\boldsymbol{\beta}+\mathbf{u})}_{\mathbf{y}}
= \underbrace{(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{X}}_{\mathbf{I}}\,\boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}
= \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}
\]
次に、\(\mathbf{X}\) を所与として条件付き期待値を取る。仮定 OLS.3 より \(E(\mathbf{u}\mid\mathbf{X})=0\) を用いる。
\[
E(\hat{\boldsymbol{\beta}}\mid\mathbf{X})
= E\!\left[\boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}\ \middle|\ \mathbf{X}\right]
= \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\,\underbrace{E[\mathbf{u}\mid\mathbf{X}]}_{0}
= \boldsymbol{\beta}
\]
以上より \(E(\hat{\boldsymbol{\beta}}\mid\mathbf{X})=\boldsymbol{\beta}\)。OLS 推定量は母集団パラメータの不偏推定量である。(証明終)
なお、不偏なパラメータを与える推定量(推定法)は他にも存在しうる 。推定量の優劣は、推定されたパラメータの分布(分散または標準誤差) によって評価できる ―― これが次章の主題である。最小の分散を達成する推定量は「有効(efficient) 」推定量と呼ばれる。
次章への橋渡し。 本章は「点推定値」を確定させた。次章では「分布」を扱い、不偏性に加えて有効性(最小分散) や仮説検定を論じる。
SECTION 10
推定結果表の読み方(Rice Yield)
原典 P.25 には、米の収量(Rice Yield)を被説明変数とする回帰結果が 3通りの括弧表記 で示されている。点推定値は3表とも共通で、括弧内の数値だけが異なる。
被説明変数はいずれも Rice Yield(米の収量) 。説明変数は Pesticide(農薬)、Fertilizer(肥料)、Labor(労働)。係数の下の角括弧 \([\ ]\) に入る数値が、表ごとに標準誤差/\(t\) 統計量/\(p\) 値 と切り替わる。アスタリスクは有意水準を示す ―― \(*\)=10%、\(**\)=5%、\(***\)=1%。
表 Rice Yield に対する回帰結果(3通りの括弧表記)
説明変数
係数(点推定値)
[ 標準誤差 ]
[ t 統計量 ]
[ p 値 ]
Pesticide(農薬) 0.143 [0.042]*** [3.40]*** [0.0007]***
Fertilizer(肥料) 0.028 [0.014]** [2.00]** [0.045]**
Labor(労働) 0.201 [0.324] [0.62] [0.535]
注(原典の3表の脚注): 括弧内はそれぞれ「標準誤差」「\(t\) 統計量」「\(p\) 値」。アスタリスク \(*\)、ダブルアスタリスク \(**\)、トリプルアスタリスク \(***\) は、それぞれ10%・5%・1%水準での有意性を示す。
読み取り例。 Pesticide と Fertilizer は係数が有意(前者は1%、後者は5%水準)だが、Labor は係数 0.201 と最大の点推定値をもつにもかかわらず、いずれの基準でも有意でない (標準誤差 0.324 が大きく、\(t=0.62\)、\(p=0.535\))。点推定値の大きさと統計的有意性は別問題であることがわかる。標準誤差・\(t\) 統計量・\(p\) 値がどう定まるかは、まさに次章「分布」の主題である。
本表は原典 P.25 に並ぶ3つの結果表(標準誤差版・\(t\) 統計量版・\(p\) 値版)を、点推定値が共通であることを踏まえて1表に統合し直したものである。原典では同一の係数値を持つ3表として横並びに掲載されている。
SECTION 11
参考文献(References)
Wooldridge, J. M., Introductory Econometrics: A Modern Approach (単回帰は Ch.2、重回帰・不偏性は Ch.3、行列代数は Appendix E).
Hayashi, F., Econometrics , Ch.1(重回帰の行列による定式化).
出典:原典 P.25(単回帰)・P.26–27(重回帰の行列定式化)・P.28(仮定・不偏性)の各 [Reference] 表記による。
Chapter 4
行列代数の復習
Chapter 6
OLS ― 分布と仮説検定