数量経済分析(6) OLS ― 分布と仮説検定 ― 全文和訳

図解で読む原文に忠実な和訳

Spring 2026 ／ Kentaro Kawasaki

OLS ― 分布の推定OLS: Estimating distribution

［参考（Reference）］Wooldridge, IE, Ch.4, 5

前章では、OLS の点推定値（point estimates）を導いた。これらの推定されたパラメータは、平均すれば（on average）真のパラメータに等しい。これが「不偏性（unbiasedness）」の概念である。

しかし「平均」とは何を意味するのか。

それは、もし母集団から標本を無限回構成し（もちろん、これは非現実的な仮定である）、OLS を無限回実行できたとすれば、それらの推定値の平均が真のパラメータに等しくなる、という意味である。

原典 P.29 には、この点を可視化する散布図（画像）が掲げられている。データ生成過程（DGP）を \(y = 0 + 1\cdot x + e\) としたとき、左に「母集団モデル（Population Model, 傾き = 1）」、中央・右に標本ごとの推定結果「Sampling. 1（傾き = .983）」「Sampling. 2（傾き = 1.161）」の3枚の散布図が並ぶ。標本ごとに推定された傾きは真値（= 1）の周りでばらつくが、その平均は真値に一致する。

しかし現実には、私たちは標本を1つしか持っていない。それは、推定されたパラメータが真のパラメータと厳密には等しくならないことを意味する。むしろ、それらは真のパラメータとは異なっているはずである。

そこで、真のパラメータの取りうる範囲について推測すること（この手続きを推論（inference）と呼ぶ）が重要になる。統計的推論を行うためには、OLS 推定量の分布（distribution）を知る必要がある。

議論は次のように進む。第一に、OLS 推定量の分散の公式を導出する。第二に、OLS 推定量の分布が正規（normal）であることを示す。正規性は、分布の正確な形を知るうえで最初の2つのモーメント（平均と分散）が十分統計量（sufficient statistics）であることを含意する（歪度（skewness）や尖度（kurtosis）のような高次のモーメントは、正規分布では0であるため不要である）。平均は真のパラメータである（OLS 推定量は不偏だからである）。一方、分散は第一の段階で与えられる。

OLS 推定量の分散Variance of OLS estimators

OLS 推定量の分散を導出するために、次の仮定を追加する必要がある（これは後に緩めることができる）。

仮定 OLS.5（同分散かつ無相関な誤差（homoskedastic and uncorrelated error））：

\[ E(u_i^2 \mid \mathbf{X}) = \sigma^2 \qquad \text{（同分散性 homoskedasticity・均一分散）} \]

\[ E(u_i u_j \mid \mathbf{X}) = 0, \quad \forall\, i \neq j \qquad \text{（無相関 no-correlation・無相関）} \]

これらの条件は、仮定 OLS.3（\(E(u_j \mid \mathbf{X}) = 0\)）の下で、次のことを含意する。

\[ V(u_i \mid \mathbf{X}) = E(u_i^2 \mid \mathbf{X}) - E(u_i \mid \mathbf{X})^2 = \sigma^2 \]

\[ \mathrm{Cov}(u_i u_j \mid \mathbf{X}) = E(u_i u_j \mid \mathbf{X}) - E(u_i \mid \mathbf{X})\,E(u_j \mid \mathbf{X}) = 0 \]

すなわち、分散は一定であり、相関（共分散の符号が同じであること）は0である。

同分散性は、\(u\) の分散が一定であることを含意する。この仮定が成り立たない場合、それは不均一分散（heteroskedasticity）と呼ばれる。

原典 P.30 には、同分散と不均一分散を対比する散布図 Fig. 9-1（PANEL A：同分散、PANEL B・C・D：不均一分散）が掲載されている。図は原典を参照のこと。

無相関は、ある主体の \(u\) が他の主体の \(u\) と相関していないことを含意する。

行列の形で書くと（簡単のため「\(\mathbf{X}\) を条件づける」という記号は省略する）、次のようになる。

\[ V(\mathbf{u}) = E(\mathbf{u}\mathbf{u}') - E(\mathbf{u})\,E(\mathbf{u})' = E\!\left[ \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix} \begin{pmatrix} u_1 & u_2 & \cdots & u_n \end{pmatrix} \right] = E\!\begin{pmatrix} u_1^2 & u_1 u_2 & \cdots & u_1 u_n \\ u_2 u_1 & u_2^2 & \cdots & u_2 u_n \\ \vdots & \vdots & \ddots & \vdots \\ u_n u_1 & u_n u_2 & \cdots & u_n^2 \end{pmatrix} \]

\[ = \begin{pmatrix} E(u_1^2) & E(u_1 u_2) & \cdots & E(u_1 u_n) \\ E(u_2 u_1) & E(u_2^2) & \cdots & E(u_2 u_n) \\ \vdots & \vdots & \ddots & \vdots \\ E(u_n u_1) & E(u_n u_2) & \cdots & E(u_n^2) \end{pmatrix} = \begin{pmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{pmatrix} = \sigma^2 \mathbf{I}_{n\times n} \]

OLS 推定量の分散共分散行列（variance/covariance matrix）を次のように定義する。

\[ V(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \begin{pmatrix} \mathrm{var}(\hat{\beta}_1) & \mathrm{cov}(\hat{\beta}_1\hat{\beta}_2) & \mathrm{cov}(\hat{\beta}_1\hat{\beta}_3) & \cdots & \mathrm{cov}(\hat{\beta}_1\hat{\beta}_k) \\ \mathrm{cov}(\hat{\beta}_2\hat{\beta}_1) & \mathrm{var}(\hat{\beta}_2) & \mathrm{cov}(\hat{\beta}_2\hat{\beta}_3) & \cdots & \mathrm{cov}(\hat{\beta}_2\hat{\beta}_k) \\ \mathrm{cov}(\hat{\beta}_3\hat{\beta}_1) & \mathrm{cov}(\hat{\beta}_3\hat{\beta}_2) & \mathrm{var}(\hat{\beta}_3) & \cdots & \mathrm{cov}(\hat{\beta}_3\hat{\beta}_k) \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \mathrm{cov}(\hat{\beta}_k\hat{\beta}_1) & \mathrm{cov}(\hat{\beta}_k\hat{\beta}_2) & \mathrm{cov}(\hat{\beta}_k\hat{\beta}_3) & \cdots & \mathrm{var}(\hat{\beta}_k) \end{pmatrix} \]

これは次のように計算できる（Hayashi, p.29）。

\[ \begin{aligned} V(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) &= V\!\left( \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u} \,\middle|\, \mathbf{X} \right) = V\!\left( (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{u} \,\middle|\, \mathbf{X} \right) \\[4pt] &= (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' \, V(\mathbf{u} \mid \mathbf{X}) \, \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' \, \sigma^2 \mathbf{I} \, \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} \\[4pt] &= \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} \end{aligned} \]

まとめると、OLS 推定量の分散共分散行列は、仮定 OLS.1 から OLS.5 の下で次のように与えられる。

\[ V(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} \]

しかし、なお1つの問題が残る。私たちは真の \(\sigma\) を観察できないため、推定された残差（estimated residuals）によってそれを推定しなければならない。

\[ \hat{\sigma}^2 = \left( \sum_{i}^{n} \hat{u}_i^2 \right) \Big/ (n-k) = \hat{\mathbf{u}}'\hat{\mathbf{u}} \,/\, (n-k) \]

分母が \(n\) ではなく \(n-k\)（自由度（degree of freedom））であることに注意したい。その直観的な理由は、残差ベクトルを得る前に \(k\) 個のパラメータを推定しなければならないからである。

仮定 OLS.1 から OLS.5 の下で、これは母分散の不偏推定量である。すなわち \(E(\hat{\sigma}^2 \mid \mathbf{X}) = \sigma^2\)（証明は Hayashi, p.30 を参照）。

したがって、OLS 推定量の分散は次のようになる。

\[ \hat{V}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1} \]

OLS 推定量の分布Distribution of the OLS estimators

次に、OLS 推定量が正規分布に従うことを示す。これを示すには2つの戦略がある。

1つは、誤差項が正規分布に従うと仮定することである。この仮定が真であれば、OLS 推定量は（標本サイズによらず）常に正規である。
もう1つは、中心極限定理（Central Limit Theorem, CLT）に訴えることである。たとえ誤差項が正規に従わなくても、CLT は、標本サイズが大きくなるとき OLS 推定量の分布が正規になることを予測する。

第一の戦略は、仮定 OLS.1 から OLS.5 に加えて、次の仮定を必要とする。

仮定 OLS.6（正規性（normality））： \( u_i \sim N(0, \sigma^2) \)

この仮定の下で、OLS 推定量は正規分布に従う。

証明：Wooldridge, IE, ch.3 appendix

しかし現実には、誤差項は正規でないかもしれない（たとえば被説明変数が正の値しか取らない場合）。

しかし標本サイズが大きいとき、中心極限定理（CLT）は、たとえ誤差項が正規でなくても、OLS 推定量の分布が近似的に正規（漸近的に正規（asymptotically normal））になりうることを予測する。

証明：Hayashi, ch.2, p.114

「大きい」とはどれくらいか。明確な答えはなく、モデルに依存する。

まとめると、仮定 OLS.1–5 の下で、かつ誤差項の正規性を仮定するか CLT に訴えるかのいずれかによって、OLS 推定量は正規分布に従う。

\[ \hat{\beta}_j \sim N\big( E(\hat{\beta}_j),\, \mathrm{Var}(\hat{\beta}_j) \big) = N\big( \beta_j,\, \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}_{jj} \big) \]

ここで \((\mathbf{X}'\mathbf{X})^{-1}_{jj}\) は \((\mathbf{X}'\mathbf{X})^{-1}\) の \((j, j)\) 成分である。

あるいは同値だが、次のように書ける。

\[ \frac{\hat{\beta}_j - \beta_j}{\sqrt{\sigma^2 (\mathbf{X}'\mathbf{X})^{-1}_{jj}}} \sim N(0, 1) \]

ここでも問題は、真の \(\sigma\) を観察できないため、それを推定値で置き換えなければならないことである。未知の真の分散（\(\sigma\)。定数である）を推定された分散（\(\hat{\sigma}^2\)。確率変数である）で置き換えると、OLS 推定量は正規ではなく \(t\) 分布（t-distribution）に従う¹。

\[ \frac{\hat{\beta}_j - \beta_j}{\sqrt{\hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}_{jj}}} \sim t_{n-k} \]

ここで \(\displaystyle \hat{\sigma}^2 = \left( \sum_{i}^{n} \hat{u}_i^2 \right) \big/ (n-k) = \hat{\mathbf{u}}'\hat{\mathbf{u}} \,/\, (n-k) \) である。

これで OLS 推定量の分布を導出できた。私たちはいよいよ統計的推論を行う準備が整った。

仮説検定：t 検定Hypothesis testing: t-test

真のパラメータが \(A\) であるか否かを検定しよう。数式では「\(H_0:\ \beta_j = A\)」と書け、これを帰無仮説（null hypothesis）と呼ぶ。

経済学者は通常「\(H_0:\ \beta_j = 0\)」（すなわち \(A = 0\)）を検定する。これは、\(x_j\) が \(y\) に対して因果的な影響を持たないことを意味する。

基本的な考え方：\(H_0\) の確率を計算し、それが小さすぎる（\(p\) を下回る）ならば \(H_0\) を棄却する。

有意水準（significance level） \(p\)、すなわち帰無仮説が棄却される確率の閾値は、通常 \(p = 10\%,\ 5\%,\ 1\%\) に設定される。

手続きは3つあるが、いずれの方法でも同じ結論に達する。

1. 信頼区間（CI）を用いるUse confidence interval (CI)

\(\beta_j\) の \((100-p)\%\) 信頼区間（confidence intervals）は次のように計算できる。

\[ \hat{\beta}_j \pm c \cdot se(\hat{\beta}_j) \]

ここで \(c\) は \(t\) 表における \(p/2\,\%\) の臨界値（critical value）を表し（多くの教科書はこの表を巻末に掲載している）、また

\[ se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 (\mathbf{X}'\mathbf{X})^{-1}_{jj}} \]

である。

CI は、真のパラメータがこの区間内にある確率が \((100-p)\%\) であることを含意する。

もし \(A\) が信頼区間の外にあれば、それは \(\beta_j = A\) である確率が \(p\%\) 未満であることを意味するので、\(\beta_j\) は \(A\) と有意に異なる（significantly different）と結論できる（帰無仮説を棄却する）。

そうでなければ、帰無仮説を採択する（棄却しない）。

2. t 統計量を用いるUse t-statistics

t 統計量（t-statistics）を計算する。

\[ t\text{-statistics} = \frac{\hat{\beta}_j - A}{se(\hat{\beta}_j)} \]

\(t\) 表における \(p/2\,\%\) の臨界値 \(c\) を見つける。

計算された t 統計量が絶対値で \(c\) より大きければ、\(\beta_j\) は \(A\) と有意に異なると結論できる（帰無仮説 \(\beta_j = A\) を棄却する）。

そうでなければ、帰無仮説を採択する。

3. p 値を用いるUse p-value

t 統計量を計算する。

\[ t\text{-statistics} = \frac{\hat{\beta}_j - A}{se(\hat{\beta}_j)} \]

この t 統計量に対応する確率を \(t\) 表で見つけ、その確率を2倍する。これが p 値（p-value）であり、その t 統計量を観察する確率を示す。

p 値が有意水準 \(p\) より小さければ、\(\beta_j\) は \(A\) と有意に異なると結論できる（帰無仮説 \(\beta_j = A\) を棄却する）。

そうでなければ、帰無仮説を採択する。

例Example

次の推定結果が得られたとしよう。括弧内は標準誤差（standard errors）である。

\[ \begin{aligned} y_i &= 1.5 + 5.2\, x_i \\ &\ \ \,(0.25)\ \ (1.3) \qquad N = 30 \end{aligned} \]

\(p = 5\%\) の下で帰無仮説 \(H_0:\ \beta_2 = 0\) を検定しよう。

自由度が28、\(p = 0.05\) なので、臨界値 \(c\) は \(t\) 表で2.048である。

\(p = 5\%\) かつ \(n - k > 20\) ならば \(c\) はおよそ2である、と覚えておくと便利である。

したがって、95% CI は \(5.2 \pm 2.048 \times 1.3 = [2.53,\ 7.86]\) である。ここでは0が区間の外にあるので、\(H_0\) を棄却でき、\(x\) の係数は0と有意に異なると結論できる。

あるいは、t 統計量を計算する。

\[ \frac{\hat{\beta}_j - A}{se(\hat{\beta}_j)} = \frac{5.2 - 0}{1.3} = 4.0 \]

これは絶対値で臨界値（2.048）より大きく、\(t = 4.0\) を得る確率が5%より低いことを意味する。したがって \(H_0\) を棄却できる。

あるいは、自由度 = 28 として \(t = 4.0\) に対応する p 値を見つける（一般に、p 値を求めるにはコンピュータを使うべきである）²。p 値 = 0.00042 が得られ、これは有意水準 \(p = 5\%\) をはるかに下回る。したがって \(H_0\) を棄却できる。

検定力Power of test

t 検定が「\(x\) の係数 = 0」という帰無仮説を棄却しないとき（すなわち表に「星（star）」記号が付かないとき）、\(x\) の影響は0であると結論する人がいる。しかしこれは常に正しいわけではない。それは検定の検定力（power）に依存する。

仮説検定は、帰無仮説の棄却または非棄却のいずれかに至る。\(H_0\) が偽のときに \(H_0\) を棄却する、または \(H_0\) が真のときに \(H_0\) を棄却しない場合、正しい判断がなされる。

有意性検定には、起こりうる2つの誤った判断がある。

第一種の誤り（偽陽性）

Type I error / false positive（偽陽性）
\(H_0\) が真であるのに \(H_0\) を棄却すること。

第二種の誤り（偽陰性）

Type II error / false negative（偽陰性）
\(H_0\) が偽であるのに \(H_0\) を非棄却とすること。

4つの状況（H0 の真偽 × 判断）
判断	\(H_0\) が真（\(x\) は影響を持たない）	\(H_0\) が偽（\(x\) は影響を持つ）
\(H_0\) を採択	正しい判断 ― 確率 \(1-p\)	第二種の誤り ― 確率 \(1-\text{Power}\)
\(H_0\) を棄却	第一種の誤り ― 確率 \(p\)（有意水準）	正しい判断 ― 確率 \(\text{Power}\)

これら4つの状況を表すもう1つの一般的な方法（混同行列（Confusion matrix））。

混同行列 ― H0: b = 0
あなたの判断	真実：\(H_0\) は正しくない（\(b \neq 0\)）	真実：\(H_0\) は正しい（\(b = 0\)）
陽性（Positive） \(H_0\) を棄却／ \(b\) は有意	真陽性（True positive）	偽陽性（False positive）
陰性（Negative） \(H_0\) を採択／ \(b\) は非有意	偽陰性（False negative）	真陰性（True negative）

\(H_0\) が真のときに正しい判断をする確率 \(= 1 - \text{有意水準（0.01, 0.05, 0.10 など）} = 90\%,\ 95\%,\ 99\%\) など。
\(H_0\) が偽のときに正しい判断をする確率 \(= \text{Power（検定力）}\)。
\(\Pr[\text{第一種の誤り}] = \text{有意水準（0.01, 0.05, 0.10 など）}\)。
\(\Pr[\text{第二種の誤り}] = 1 - \text{Power}\)。

理想的には両方の誤りの確率が低いことが望ましいが、実際には、一方の種類の誤りの確率を下げることは、他方の確率を上げることと引き換えになる。

なぜトレードオフが生じるのか。有意水準を非常に低い水準、たとえば0.00001%に設定して第一種の誤りを減らそうとするとしよう。この場合、ほとんどの係数は0と有意に異なるとは判定されない（すなわち星記号が付かない）。つまり \(H_0\)（\(x\) の影響 = 0）を採択することになる。これは、\(x\) が実際に影響を持つ場合に問題となりうる。なぜなら、誤った判断をしやすくなる（すなわち \(\Pr[\text{第二種の誤り}]\) が大きくなる）からである。

古典的な解決策は、第一種の誤りの確率を特定の水準（通常0.05）に固定し、第二種の誤りの確率は特定しないままにしておくことである。

検定力の導出は Cameron, ch.7.6 で説明されており、Stata は検定力を計算するコマンドを提供している。

もし検定力が高い（すなわち第二種の誤りの確率が低い）ことが分かれば、t 検定が帰無仮説 \(\beta = 0\) を棄却しないときに \(\beta\) は0であると結論できる。そうでなければ、結論すべきではない。「\(\beta\) は0と有意に異ならない」とは言えるが、「\(\beta\) は0である」とか「\(x\) は \(y\) に影響を持たない」と結論すべきではない。

多重回帰の検定：q 値Testing multiple regressions: q-value

幼児期（0〜2歳）の栄養が15歳時の学業成績に与える影響に関心があるとしよう。これを行うために、それぞれ異なる結果変数（例：IQ スコア、数学のスコア、英語のスコアなど）を用いた10個の別々の回帰を推定する。

\[ y_{si} = \beta_{s0} + \beta_{s1}\,\text{Nutrition}_i + \beta_s X_i + u_{si} \qquad (i = 1, 2, \ldots, n) \]

ここで \(s\)（\(s = 1, 2, \ldots, 10\)）は結果変数の種類を表し、\(i\) は学生を表す。

いま、栄養が学業成績に影響を持たない（すなわちすべての \(s\) について \(\beta_{s1} = 0\)）と仮定しよう。標準的な \(p < 0.1\) の閾値を用いると、平均して \(\beta_{s1}\) のうち何個が統計的に有意になるだろうか。

答えは \(1 = 10\) 個の結果 \(\times\) 第一種の誤り（偽陽性）の確率 10% である。

つまり、まったくの偶然によって、栄養が一部の学業成績に効果的であると誤って結論してしまうかもしれないのである。

このような問題を避けるために、q 値（q-value）を用いることができる。これは多重検定（multiple testing）を直接考慮した調整済み p 値である。

q 値で棄却するとき

q 値 \(< 0.1\) のときに帰無仮説を棄却することは、偽発見率（false discovery rate）（すべての陽性結果に占める偽陽性の割合）の期待値が10%であることを意味する。
すなわち「この q 値で有意と宣言されたすべての結果のうち、10% が偽陽性であると期待される」。

p 値で棄却するとき

p 値 \(< 0.1\) のときに帰無仮説を棄却することは、第一種の誤りの確率（真実が陰性のときの偽陽性の割合）が10%であることを意味する。

仮説検定：F 検定Hypothesis testing: F-test

t 検定は単一の仮説を検定するのに使える。複数の仮説を同時に（jointly）検定するにはどうすればよいか。たとえば \(H_0:\ \beta_1 = \beta_2 = \beta_3 = 0\) はどう検定すればよいか。3つの別々の t 検定を用いるのは適切ではない。代わりに F 検定（F-test）が必要である。

例：\(H_0:\ \beta_1 + \beta_2 = 0\)、\(H_0:\ \beta_1 = \beta_2 + \beta_3\)

F 検定を行うには、制約なしモデル（unrestricted model）と制約付きモデル（restricted model）を定義しなければならない。

\[ \text{制約なしモデル：}\quad y_i = \beta_1 + \beta_2 x_{2i} + \beta_3 x_{3i} + \beta_4 x_{4i} + \beta_5 x_{5i} + \cdots + \beta_k x_{ki} + u_i \]

\[ \text{制約付きモデル：}\quad y_i = 0 + 0\cdot x_{2i} + 0\cdot x_{3i} + \beta_4 x_{4i} + \beta_5 x_{5i} + \cdots + \beta_k x_{ki} + u_i \]

（回帰変数のリストから定数項、\(x_{2i}\)、\(x_{3i}\) を落とす。）

OLS モデルの仮定の下で、かつ誤差項の正規性を仮定するか中心極限定理に訴えるかのいずれかによって、次の比が、\(q\)（制約の数。上の例では \(q = 3\)）と \(n-k\) を自由度とする \(F\) 分布に従うことが示せる。

\[ F\text{-statistic} \quad \frac{(SSE_r - SSE_{ur}) \,/\, q}{SSE_{ur} \,/\, (n-k)} \sim F_{q,\, n-k} \]

ここで \(SSE_r\) は制約付きモデルの残差平方和、\(SSE_{ur}\) は制約なしモデルの残差平方和である。

計算された F 統計量が非常に大きく、右側の裾の棄却域に入るならば、帰無仮説は棄却される。

Gauss-Markov 定理Gauss-Markov Theorem

仮定 OLS.1–5 の下で、OLS 推定量は最良線形不偏推定量（Best Linear Unbiased Estimator, BLUE）である。

「最良（Best）」：推定された係数の分散（標準誤差）が最小であること。
「線形（Linear）」：推定量が \(y\) の線形関数であること。OLS 推定量 \(\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}\) において、被説明変数 \(y\) は線形に入る。これが「線形」の意味である。
「不偏（Unbiased）」：すでに知っているはずである。

証明：Hayashi, p.29 を参照。

一致性Consistency

仮定 OLS.1–4 の下で、\(n \to \infty\) のとき \(\Pr[\,|\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}| < \varepsilon\,] \to 1\) となる。ここで \(\varepsilon\) は非常に小さい数である。すなわち、

\[ \operatorname*{plim}(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta} \]

（plim：確率極限（probability limits））。これが一致性（consistency）の概念である。

証明：Wooldridge, IE, Ch.5 を参照。

言葉で言えば、標本サイズが大きいとき、OLS 推定量は真のパラメータと一致する（consistent）。

一致性を示すのに仮定 OLS.5（同分散かつ無相関な誤差）は必要とされないことに注意したい。

不偏性と一致性の違い：

不偏性は平均（\(E(\hat{\boldsymbol{\beta}})\)）に関わるのに対し、一致性は \(\hat{\boldsymbol{\beta}}\) の「分布」に関わる（\(\hat{\boldsymbol{\beta}}\) は真の値の周りに密に集中する）。
不偏性は標本サイズに依存しない性質（有限標本の性質（finite sample property））であるのに対し、一致性は大きな（無限の）標本の下での性質である。

原典 P.37 は、\(t\) 分布の臨界値表（Table B: t distribution critical values）（画像）である。点 \(t^*\) と確率 \(C\) について、\(t^*\) の上側にある確率を裾確率 \(p\)、\(-t^*\) と \(t^*\) の間にある確率を信頼水準 \(C\) として、自由度 \(df\) ごとの臨界値が掲載されている（裾確率 \(p = .25,\ .20,\ \ldots,\ .0005\)、信頼水準 \(C = 50\%,\ 60\%,\ \ldots,\ 99.9\%\)）。
出典：https://www.udacity.com/course/viewer#!/c-st095/l-142625049/m-147019273

脚注

\(t\) 分布は、標本サイズが小さく母標準偏差が未知の状況で、正規分布する母集団の平均を推定するときに生じる。\(t\) 分布は正規分布と同様に対称で釣鐘型だが、裾がより重い。\(n\) が大きくなるにつれて正規分布に近づく。↩
Stata では次のように入力する：
loc p = 2*ttail(28,4)
di "`p'"↩