計量経済学の議論を厳密に展開するために必要な確率の言語を整える。確率分布の定義から始まり、期待値・分散・共分散の性質、条件付き期待値と反復期待値の法則、そして正規分布・カイ二乗・t・F 分布までを一望する。
この章では 確率の基本的な言語 を整理する。 参照は Wooldridge, Introductory Econometrics(IE), Appendix B。
| 記号 | 意味 |
|---|---|
| \(X,\, Y\) | 確率変数(random variables) |
| \(x,\, y\) | \(X\), \(Y\) のそれぞれの実現値(particular outcomes) |
| \(a,\, b\) | スカラー定数(scalar) |
確率変数の振る舞いは pdf(確率密度関数) と cdf(累積分布関数) で完全に記述される。
pdf (probability density function)
連続型では \(\Pr(a \le X \le b) = \int_a^b f(x)\,dx\)
cdf (cumulative distribution function)
\(F(x) = \int_{-\infty}^{x} f(t)\,dt\)
2変数の関係を扱うには 同時分布 と 条件付き分布 の概念が基本となる。
同時分布(joint distribution) \(f(x, y)\) は、\(X = x\) かつ \(Y = y\) となる確率を与える。
条件付き分布(conditional distribution) \(f(x \mid y)\) は、\(Y = y\) を所与としたときの \(X\) の分布である。
同時分布・条件付き分布・周辺分布の間には次の関係が成り立つ。
期待値は確率分布の 重心 である。値に確率密度を掛けて積分することで得られる。
連続型確率変数 \(X\) の期待値(expected value, expectation)は次で定義される:
\(X\) の関数 \(g(X)\) の期待値は:
\(E(aX + b) = a\,E(X) + b\)
\(E(aX + bY) = a\,E(X) + b\,E(Y)\)
期待値の線形性(property 2)は非常に強力な性質である。\(X\) と \(Y\) が独立でなくても成り立つ点に注意。一方、\(E[X^2] = (E[X])^2\) が成り立つのは \(X\) が定数(分散ゼロ)のときに限られる。
分散(variance)は確率変数の 散らばり を測る。期待値からの二乗偏差の期待値として定義される。
分散の定義は次のとおり。\(\mu \equiv E[X]\) とおく。
\(\text{Var}(aX + b) = a^2\,\text{Var}(X)\)
定数 \(b\) を加えても分散は変わらない。
\(\text{Var}(aX + bY) = a^2\,\text{Var}(X) + b^2\,\text{Var}(Y) + 2ab\,\text{Cov}(X, Y)\)
\(X\) と \(Y\) が独立なら共分散項がゼロになり \(a^2\,\text{Var}(X) + b^2\,\text{Var}(Y)\) に簡略化される。
標準偏差(standard deviation) は分散の正の平方根で、元の変数と同じ単位を持つ。
共分散(covariance)は2変数の 線形的な連動 を測る。相関係数はこれを標準化したものである。
\(\mu_X \equiv E[X]\)、\(\mu_Y \equiv E[Y]\) とおく。共分散の定義:
\(X\) と \(Y\) が独立ならば \(\text{Cov}(X, Y) = 0\)。※逆は一般に成り立たない
\(\text{Cov}(X, X) = \text{Var}(X)\)
\(\text{Cov}(aX,\; bY) = ab\,\text{Cov}(X, Y)\)
\(\text{Cov}(a + X,\; b + Y) = \text{Cov}(X, Y)\)
\(\text{Cov}(aX + bY,\; cW + dV)\)
\(= ac\,\text{Cov}(X, W) + ad\,\text{Cov}(X, V) + bc\,\text{Cov}(Y, W) + bd\,\text{Cov}(Y, V)\)
共分散を2変数それぞれの標準偏差で割ることで、単位のない標準化された尺度が得られる。
\(X\) を \([-1, 1]\) 上の一様分布とし、\(Y = X^2\) とおく。明らかに \(X\) と \(Y\) は従属だが、
\(\text{Cov}(X, Y) = \text{Cov}(X, X^2) = E[X \cdot X^2] - E[X]\,E[X^2] = E[X^3] - E[X]\,E[X^2] = 0 - 0 \cdot E[X^2] = 0\)
となりゼロである。これは共分散・相関係数が2変数間の線形的な依存性しか測らないからである。2変数が無相関であっても、一般に独立とは言えない。
条件付き期待値とは、他の確率変数 \(X\) の値を所与としたときの \(Y\) の期待値である。 計量経済学の理論的基盤として最も重要な概念のひとつ。
定義:\(X = x\) を所与としたときの \(Y\) の期待値(conditional expectation)
例:肥料投入量 \(X = x\) kg/ha を所与としたときの米の収量 \(Y\) の期待値 \(E(Y \mid X = x)\) が、その典型例である。
条件付き期待値は、\(X\) の関数を条件の外に出せるという性質をもつ:
\(X\) と \(Y\) が独立ならば \(E(Y \mid X) = E(Y)\)。
\(E\bigl[E(Y \mid X)\bigr] = E(Y)\)
より一般には:\(E\bigl[E(Y \mid X, Z) \mid X\bigr] = E(Y \mid X)\)
\(E(Y \mid X) = E(Y)\) ならば \(\text{Cov}(X, Y) = 0\)(\(X\) と \(Y\) は無相関)。
\(\text{Cov}(X, Y) = 0\) であっても \(E(Y \mid X) = E(Y)\) は一般に成り立たない。
\(E(Y \mid X) = 0\) ならば \(E(Y) = 0\)。
証明:\(E(Y) = E\bigl[E(Y \mid X)\bigr]\)(反復期待値の法則)\(= E[0] = 0\)。
複数の手法(\(X\))を用いて米の収量(\(Y\))を推定したとする。統計ソフトは各モデルごとの \(\text{Var}(Y)\) を与えるが、すべての推定値を統合した唯一の \(\text{Var}(Y)\) を計算することは難しい。全分散の法則はこうした状況で有用である(例:Zhao et al. 2017 の Multimethod Ensemble を参照)。
正規分布は計量経済学で最も重要な分布であり、 中心極限定理 を通じて推定量の漸近分布として現れる。
正規分布の確率密度関数(pdf)は次の形をとる(cdf はより複雑な形):
| 記号 | 意味 |
|---|---|
| \(\mu\) | 平均(mean) |
| \(\sigma\) | 標準偏差(standard deviation) |
| \(X \sim N(\mu, \sigma^2)\) | \(X\) が平均 \(\mu\)、分散 \(\sigma^2\) の正規分布に従う |
標準正規分布:\(N(0, 1)\)
\(X \sim N(\mu, \sigma^2)\) ならば、次の標準化変換により標準正規分布に従う:
正規分布から派生する カイ二乗分布・t 分布・F 分布 は、 計量経済学における仮説検定の理論的基礎を与える。
\(Z \sim N(0, 1)\) のとき、\(n\) 個の独立な標準正規変数の二乗和は自由度 \(n\) のカイ二乗分布に従う:
\(Z \sim N(0, 1)\) かつ \(X \sim \chi^2_n\) が独立のとき:
自由度 \(n \to \infty\) で \(t_n \to N(0,1)\) に近づく。
\(X_1 \sim \chi^2_{k_1}\) かつ \(X_2 \sim \chi^2_{k_2}\) が独立のとき:
回帰モデルの線形制約の F 検定(joint hypothesis test)に使う。