Spring 2026 / Kentaro Kawasaki
OLS:係数の推定OLS: Estimating coefficients
- OLS(Ordinary Least Square、最小二乗法)は、最も基本的な回帰手法である。
- OLS は二つの構成要素をもつ ―― 係数の推定値(点推定値(point estimates))と、その分布(すなわち分散または標準誤差)である。
本章は前者の問題に焦点を当て、後者は次章で論じる。
単回帰(説明変数が1つの場合)OLS with single regressor
[参考]Wooldridge, Introductory Econometrics (IE), Ch.2
母集団モデル(計量経済学者には観察できない真のモデル)が次式で与えられているとする。
\[ y_i = \beta_0 + \beta_1 x_i + u_i \qquad (i = 1, 2, \ldots, n) \]
上の式(モデル)は「因果関係(causal relationship)」を表していることに注意したい。したがって、もし \(\beta\) を正しく推定できれば、それは \(y\) と \(x\) の因果関係(\(x\) が \(y\) に与える影響であって、その逆ではない)を教えてくれる。
\(\hat{\beta}_0\) と \(\hat{\beta}_1\) を OLS 推定値とする(真の値と推定値を区別するため、計量経済学者は一般に推定値に「ハット(hat)」記号を付ける)。このとき、\(y\) の予測値(predicted value)は次のように与えられ、
\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \]
残差(residuals)は次のように与えられる。
\[ \hat{u}_i \equiv y_i - \hat{y}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \]
原典 P.25 には、米の収量(Rice Yield)を被説明変数とする回帰結果が、3つの表として横並びに掲載されている。3表とも点推定値(係数)は共通で、係数の下の角括弧 \([\ ]\) に入る数値だけが、標準誤差 → \(t\) 統計量 → \(p\) 値 と切り替わる。以下に内容を再現する。
被説明変数:Rice Yield ― 表1(角括弧内は標準誤差)
| 説明変数 | 係数 | [標準誤差] |
| Pesticide | 0.143 | [0.042]*** |
| Fertilizer | 0.028 | [0.014]** |
| Labor | 0.201 | [0.324] |
注:角括弧内は標準誤差。アスタリスク(*)、ダブルアスタリスク(**)、トリプルアスタリスク(***)は、それぞれ10%・5%・1%水準での有意性を示す。
被説明変数:Rice Yield ― 表2(角括弧内は \(t\) 統計量)
| 説明変数 | 係数 | [\(t\) 統計量] |
| Pesticide | 0.143 | [3.40]*** |
| Fertilizer | 0.028 | [2.00]** |
| Labor | 0.201 | [0.62] |
注:角括弧内は \(t\) 統計量。アスタリスク(*)、ダブルアスタリスク(**)、トリプルアスタリスク(***)は、それぞれ10%・5%・1%水準での有意性を示す。
被説明変数:Rice Yield ― 表3(角括弧内は \(p\) 値)
| 説明変数 | 係数 | [\(p\) 値] |
| Pesticide | 0.143 | [0.0007]*** |
| Fertilizer | 0.028 | [0.045]** |
| Labor | 0.201 | [0.535] |
注:角括弧内は \(p\) 値。アスタリスク(*)、ダブルアスタリスク(**)、トリプルアスタリスク(***)は、それぞれ10%・5%・1%水準での有意性を示す。
OLS は残差二乗和(sum of squared residuals)を最小化する6。
\[ \min\ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \sum_{i=1}^{n}\left(y_i-\hat{y}_i\right)^2 = \sum_{i=1}^{n}\left(y_i-\hat{\beta}_0-\hat{\beta}_1 x_i\right)^2 \]
原典 P.26 右側には、観測点とあてはめ直線・残差を描いたグラフィカルなイメージ(横軸 \(X\)、縦軸 \(y\) の散布図と回帰直線)が掲載されている。ただし、この図は、後に学ぶ内生性(endogeneity)のケースについては誤解を招く(misleading)点に注意したい。
最小化は次の手順で進める ―― 1階の導関数(first derivative)を取り、得られた方程式をゼロと置き、未知のパラメータについて解く。
FOC(1階条件(first order conditions)):
\[ \frac{\partial\!\left(\sum \hat{u}_i^{\,2}\right)}{\partial\beta_0} = -2\sum_{i=1}^{n}\left(y_i-\hat{\beta}_0-\hat{\beta}_1 x_i\right) = 0 \]
\[ \frac{\partial\!\left(\sum \hat{u}_i^{\,2}\right)}{\partial\beta_1} = -2\sum_{i=1}^{n}\left(y_i-\hat{\beta}_0-\hat{\beta}_1 x_i\right)x_i = 0 \]
したがって、
\[ \sum y_i = n\,\hat{\beta}_0 + \hat{\beta}_1\sum x_i \]
\[ \sum y_i x_i = \hat{\beta}_0\sum x_i + \hat{\beta}_1\sum x_i^{2} \]
これを解くと、OLS 推定量について次の公式が得られる。
\[ \hat{\beta}_1 = \frac{\,n\sum x_i y_i - \sum x_i \sum y_i\,}{\,n\sum x_i^{2} - \left(\sum x_i\right)^2\,} \qquad\text{および}\qquad \hat{\beta}_0 = \frac{\sum y_i - \hat{\beta}_1\sum x_i}{n} \]
重回帰(説明変数が複数の場合)OLS with multiple regressors
[参考]Wooldridge, IE, Ch.3, Appendix E、および Hayashi, Ch.1
母集団モデルが次式で与えられているとする。
\[ y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \cdots + \beta_k x_{ki} + u_i \qquad (i=1,2,\ldots,n) \]
同値な書き方として、
\[
\begin{aligned}
y_1 &= \beta_1 + \beta_2 x_{21} + \beta_3 x_{31} + \cdots + \beta_k x_{k1} + u_1 \\
y_2 &= \beta_1 + \beta_2 x_{22} + \beta_3 x_{32} + \cdots + \beta_k x_{k2} + u_2 \\
&\ \ \vdots \\
y_n &= \beta_1 + \beta_2 x_{2n} + \beta_3 x_{3n} + \cdots + \beta_k x_{kn} + u_n
\end{aligned}
\]
次の行列を定義する。
\[
\mathbf{y}=\begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ \vdots \\ y_n \end{bmatrix},\quad
\boldsymbol{\beta}=\begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \\ \vdots \\ \beta_k \end{bmatrix},\quad
\mathbf{u}=\begin{bmatrix} u_1 \\ u_2 \\ u_3 \\ \vdots \\ u_n \end{bmatrix},\quad
\mathbf{X}=\begin{bmatrix} \mathbf{x}_1 \\ \mathbf{x}_2 \\ \mathbf{x}_3 \\ \vdots \\ \mathbf{x}_n \end{bmatrix}
=\begin{bmatrix}
1 & x_{21} & x_{31} & x_{41} & \cdots & x_{k1} \\
1 & x_{22} & x_{32} & x_{42} & \cdots & x_{k2} \\
1 & x_{23} & x_{33} & x_{43} & \cdots & x_{k3} \\
& & & \vdots & & \\
1 & x_{2n} & x_{3n} & x_{4n} & \cdots & x_{kn}
\end{bmatrix}
\]
次元はそれぞれ \(\mathbf{y}\):\((n\times 1)\)、\(\boldsymbol{\beta}\):\((k\times 1)\)、\(\mathbf{u}\):\((n\times 1)\)、\(\mathbf{X}\):\((n\times k)\)。
すると、母集団モデルは次のように書ける。
\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} \]
(各データ単位については \(y_i = \mathbf{x}_i\boldsymbol{\beta} + u_i\) が成り立つ。ここで \(\mathbf{x}_i\) は \(1\times k\) である。なお教科書によっては \(y_i = \boldsymbol{\beta}'\mathbf{x}_i + u_i\) と書くものもあり、その場合 \(\mathbf{x}_i\) は \(k\times 1\) である。)
行列形式では、残差二乗和は次のようになる。
\[ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \underset{(1\times 1)}{\hat{\mathbf{u}}'\hat{\mathbf{u}}} \qquad \underset{(1\times n)}{\hat{\mathbf{u}}'}\ \underset{(n\times 1)}{\hat{\mathbf{u}}} \]
OLS の目的関数は、次のように書ける。
\[ \min\ \sum_{i=1}^{n}\hat{u}_i^{\,2} = \hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}}) \]
推定量を導くため、行列の転置の規則 \((\mathbf{J}-\mathbf{L}\mathbf{M})' = \mathbf{J}' - \mathbf{M}'\mathbf{L}'\) を用いる。
\[
\begin{aligned}
\hat{\mathbf{u}}'\hat{\mathbf{u}}
&= (\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}}) \\
&= (\mathbf{y}'-\hat{\boldsymbol{\beta}}'\mathbf{X}')(\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}}) \\
&= \mathbf{y}'\mathbf{y} - \mathbf{y}'\mathbf{X}\hat{\boldsymbol{\beta}} - \hat{\boldsymbol{\beta}}'\mathbf{X}'\mathbf{y} + \hat{\boldsymbol{\beta}}'\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} \\
&= \mathbf{y}'\mathbf{y} - 2\,\mathbf{y}'\mathbf{X}\hat{\boldsymbol{\beta}} + \hat{\boldsymbol{\beta}}'\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}}
\end{aligned}
\]
最後のステップは、次の性質に依拠している ―― \(\hat{\boldsymbol{\beta}}'\mathbf{X}'\mathbf{y} = \mathbf{y}'\mathbf{X}\hat{\boldsymbol{\beta}}\)(いずれもスカラーであるため)。
次の行列代数を思い出そう。
\[ \frac{\partial\, \mathbf{a}\boldsymbol{\beta}}{\partial\boldsymbol{\beta}} = \mathbf{a}',\qquad \frac{\partial\, \boldsymbol{\beta}'\mathbf{X}\boldsymbol{\beta}}{\partial\boldsymbol{\beta}} = 2\mathbf{X}\boldsymbol{\beta} \]
すると FOC は次のようになる7。
\[
\frac{\partial\!\left(\mathbf{y}'\mathbf{y} - 2\,\mathbf{y}'\mathbf{X}\hat{\boldsymbol{\beta}} + \hat{\boldsymbol{\beta}}'\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}}\right)}{\partial\hat{\boldsymbol{\beta}}}
= 0 \ \Longrightarrow\ -2\,\mathbf{X}'\mathbf{y} + 2\,\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = 0 \ \Longrightarrow\ \mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y}
\]
これにより、OLS 推定量の公式が得られる。
\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} \]
仮定Assumptions
OLS の性質を調べる前に、仮定を明確にしておこう。
仮定 OLS.1(線形性(linearity)):母集団モデルはパラメータについて線形である:\(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}\)。
たとえば、\(y_i = \beta_0 + \beta_1 x_i^{\beta_2} + u_i\) はこの仮定を満たさないが、\(y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^{2} + u_i\) は満たす。
仮定 OLS.2(無作為抽出(random sampling)):我々のデータは、母集団からの無作為標本である。
仮定 OLS.3(ゼロ条件付き平均、または厳密外生性(zero conditional mean, or strict exogeneity)):誤差は、独立変数のいかなる値が与えられても、期待値ゼロをもつ:\(E(\mathbf{u}\mid\mathbf{X}) = 0\)(\(\hat{\mathbf{u}}\) ではない点に注意)。
仮定 OLS.4(多重共線性なし(no multicollinearity)、多重共線性・マルチコ):\(n\times k\) 行列 \(\mathbf{X}\) の階数(rank)が \(k\) である(列フルランク(full column rank))。言い換えれば、どの説明変数も他の説明変数の線形結合になっていない(すなわち、完全な共線性が存在しない)。この仮定は、\(\mathbf{X}'\mathbf{X}\) が可逆(正則、non-singular)であり、最小二乗最小化問題に唯一の解が存在することを保証するために必要である。
例:もし \(x_i\) が他の説明変数の線形結合であれば、次が成り立つ。
\[ x_i = \sum_{j\neq i} k_j\, x_j \]
不偏性Unbiasedness 不偏性
[参考]Wooldridge, IE, Ch.3
仮定 OLS.1 から OLS.4 のもとで、OLS 推定量は母集団パラメータの不偏推定量である。
\[ E(\hat{\boldsymbol{\beta}}\mid\mathbf{X}) = \boldsymbol{\beta} \]
証明:
\[
\hat{\boldsymbol{\beta}}
= (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\,\underset{\mathbf{y}}{\underbrace{(\mathbf{X}\boldsymbol{\beta}+\mathbf{u})}}
= \underset{\mathbf{I}}{\underbrace{(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{X}}}\,\boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}
= \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}
\]
\[
E(\hat{\boldsymbol{\beta}}\mid\mathbf{X})
= E\!\left[\boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u}\ \middle|\ \mathbf{X}\right]
= \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\,\underset{0}{\underbrace{E[\mathbf{u}\mid\mathbf{X}]}}
= \boldsymbol{\beta}
\]
- 不偏なパラメータを与える推定量(推定法)は、ほかにも存在しうることに注意したい。
- 推定量の優劣は、推定されたパラメータの分布(分散または標準誤差)によって評価できる。これが次節(次章)の主題である。
- 最小の分散を達成する推定量は「有効(efficient)」推定量と呼ばれる。