数量経済分析 図解ポータル
Chapter 2  ·  Part I 基礎  ·  原典 P.11–14

確率の復習

計量経済学の議論を厳密に展開するために必要な確率の言語を整える。確率分布の定義から始まり、期待値・分散・共分散の性質、条件付き期待値と反復期待値の法則、そして正規分布・カイ二乗・t・F 分布までを一望する。

期待値 分散 共分散 条件付き期待値 正規分布
川崎賢太郎(東京大学大学院農学生命科学研究科) 原典 P.11–14 Review of probability
図解で読む 原文に忠実な和訳
Contents
  1. 01. 記法(Notation)
  2. 02. 確率分布(pdf / cdf)
  3. 03. 同時分布と独立性
  4. 04. 期待値(Expectation)
  5. 05. 分散と標準偏差
  6. 06. 共分散と相関係数
  7. 07. 条件付き期待値
  8. 08. 正規分布
  9. 09. カイ二乗・t・F 分布
  10. 10. 参考文献
SECTION 01

記法(Notation)

この章では 確率の基本的な言語 を整理する。 参照は Wooldridge, Introductory Econometrics(IE), Appendix B。

記号意味
\(X,\, Y\)確率変数(random variables)
\(x,\, y\)\(X\), \(Y\) のそれぞれの実現値(particular outcomes)
\(a,\, b\)スカラー定数(scalar)
SECTION 02

確率分布(Probability distribution)

確率変数の振る舞いは pdf(確率密度関数)cdf(累積分布関数) で完全に記述される。

PDF

確率密度関数

pdf (probability density function)

\[ f(x) = \Pr(X = x) \]

連続型では \(\Pr(a \le X \le b) = \int_a^b f(x)\,dx\)

CDF

累積分布関数

cdf (cumulative distribution function)

\[ F(x) = \Pr(X \le x) \]

\(F(x) = \int_{-\infty}^{x} f(t)\,dt\)

正規分布の pdf は閉じた形で書けるが、cdf は解析的に積分できないため、数値計算または標準正規分布表を使う。原典 P.11 の図は pdf(ベル型曲線)と cdf(S字曲線)の対比を示している。
SECTION 03

同時分布と独立性(Joint distribution)

2変数の関係を扱うには 同時分布条件付き分布 の概念が基本となる。

同時分布(joint distribution) \(f(x, y)\) は、\(X = x\) かつ \(Y = y\) となる確率を与える。

\[ f(x, y) = \Pr(X = x,\; Y = y) \]

条件付き分布(conditional distribution) \(f(x \mid y)\) は、\(Y = y\) を所与としたときの \(X\) の分布である。

\[ f(x \mid y) = \Pr(X = x \mid Y = y) \]

同時分布・条件付き分布・周辺分布の間には次の関係が成り立つ。

\[ f(x, y) = f(x \mid y)\,f(y) = f(y \mid x)\,f(x) \]
独立性(independence):\(y\) を観測しても \(x\) の分布に関する情報が得られないとき、\(x\) と \(y\) は独立であるという。独立であることの同値条件は次のいずれか: \(f(x \mid y) = f(x)\)、または \(f(y \mid x) = f(y)\)、または \(f(x, y) = f(x)f(y)\)。
SECTION 04

期待値(Expectation)

期待値は確率分布の 重心 である。値に確率密度を掛けて積分することで得られる。

連続型確率変数 \(X\) の期待値(expected value, expectation)は次で定義される:

\[ E[X] = \int_{-\infty}^{\infty} x\,f(x)\,dx \quad \text{(値 × pdf を積分)} \]

\(X\) の関数 \(g(X)\) の期待値は:

\[ E[g(X)] = \int_{-\infty}^{\infty} g(x)\,f(x)\,dx \]

期待値の性質

\(g\) が非線形のとき、一般に \(E[g(X)] \ne g(E[X])\)。例として \(E[X^2] \ne (E[X])^2\)。
1

線形変換

\(E(aX + b) = a\,E(X) + b\)

2

線形結合

\(E(aX + bY) = a\,E(X) + b\,E(Y)\)

Professor Note

期待値の線形性(property 2)は非常に強力な性質である。\(X\) と \(Y\) が独立でなくても成り立つ点に注意。一方、\(E[X^2] = (E[X])^2\) が成り立つのは \(X\) が定数(分散ゼロ)のときに限られる。

SECTION 05

分散と標準偏差(Variance & Standard Deviation)

分散(variance)は確率変数の 散らばり を測る。期待値からの二乗偏差の期待値として定義される。

分散の定義は次のとおり。\(\mu \equiv E[X]\) とおく。

\[ \text{Var}(X) \equiv \sigma^2 \equiv E\!\left[(X - \mu)^2\right] = E(X^2) - \mu^2 \]
右辺の等号は \(E[(X-\mu)^2] = E[X^2 - 2\mu X + \mu^2] = E[X^2] - 2\mu E[X] + \mu^2 = E[X^2] - \mu^2\) より。

分散の性質

1

線形変換

\(\text{Var}(aX + b) = a^2\,\text{Var}(X)\)

定数 \(b\) を加えても分散は変わらない。

2

線形結合

\(\text{Var}(aX + bY) = a^2\,\text{Var}(X) + b^2\,\text{Var}(Y) + 2ab\,\text{Cov}(X, Y)\)

\(X\) と \(Y\) が独立なら共分散項がゼロになり \(a^2\,\text{Var}(X) + b^2\,\text{Var}(Y)\) に簡略化される。

標準偏差(standard deviation) は分散の正の平方根で、元の変数と同じ単位を持つ。

\[ \text{sd}(X) \equiv \sigma \equiv \sqrt{\text{Var}(X)} \]
SECTION 06

共分散と相関係数(Covariance & Correlation)

共分散(covariance)は2変数の 線形的な連動 を測る。相関係数はこれを標準化したものである。

\(\mu_X \equiv E[X]\)、\(\mu_Y \equiv E[Y]\) とおく。共分散の定義:

\[ \text{Cov}(X, Y) \equiv \sigma_{XY} \equiv E\!\left[(X - \mu_X)(Y - \mu_Y)\right] = E(XY) - \mu_X\mu_Y \]

共分散の性質

1

独立ならゼロ

\(X\) と \(Y\) が独立ならば \(\text{Cov}(X, Y) = 0\)。※逆は一般に成り立たない

2

自分自身との共分散は分散

\(\text{Cov}(X, X) = \text{Var}(X)\)

3

スカラー倍

\(\text{Cov}(aX,\; bY) = ab\,\text{Cov}(X, Y)\)

4

定数の加算は無関係

\(\text{Cov}(a + X,\; b + Y) = \text{Cov}(X, Y)\)

5

線形結合どうしの共分散

\(\text{Cov}(aX + bY,\; cW + dV)\)

\(= ac\,\text{Cov}(X, W) + ad\,\text{Cov}(X, V) + bc\,\text{Cov}(Y, W) + bd\,\text{Cov}(Y, V)\)

相関係数(Correlation coefficient)

共分散を2変数それぞれの標準偏差で割ることで、単位のない標準化された尺度が得られる。

\[ \text{Corr}(X, Y) \equiv \frac{\sigma_{XY}}{\sigma_X \sigma_Y}, \quad -1 \le \text{Corr}(X, Y) \le 1 \]
独立性と無相関の非対称性:\(X\) と \(Y\) が独立ならば \(\text{Cov}(X, Y) = 0\)(無相関)が成り立つが、逆(無相関ならば独立)は一般に成立しない。
Professor Note ― 無相関だが従属な例

\(X\) を \([-1, 1]\) 上の一様分布とし、\(Y = X^2\) とおく。明らかに \(X\) と \(Y\) は従属だが、

\(\text{Cov}(X, Y) = \text{Cov}(X, X^2) = E[X \cdot X^2] - E[X]\,E[X^2] = E[X^3] - E[X]\,E[X^2] = 0 - 0 \cdot E[X^2] = 0\)

となりゼロである。これは共分散・相関係数が2変数間の線形的な依存性しか測らないからである。2変数が無相関であっても、一般に独立とは言えない。

原典 P.12 脚注 3。
SECTION 07

条件付き期待値(Conditional expectation)

条件付き期待値とは、他の確率変数 \(X\) の値を所与としたときの \(Y\) の期待値である。 計量経済学の理論的基盤として最も重要な概念のひとつ。

定義:\(X = x\) を所与としたときの \(Y\) の期待値(conditional expectation)

\[ E(Y \mid X = x) = \int_{-\infty}^{\infty} y\,f(y \mid x)\,dy \]

:肥料投入量 \(X = x\) kg/ha を所与としたときの米の収量 \(Y\) の期待値 \(E(Y \mid X = x)\) が、その典型例である。

条件付き期待値は、\(X\) の関数を条件の外に出せるという性質をもつ:

\[ E\bigl(a(X)\,Y + b(X) \mid X\bigr) = a(X)\,E(Y \mid X) + b(X) \]
\(a(X)\)・\(b(X)\) は \(X\) の関数。\(X\) を所与とすればこれらは既知量として期待値の外に出せる。

条件付き期待値の主要な性質

1

独立なら条件付き期待値は周辺期待値に一致

\(X\) と \(Y\) が独立ならば \(E(Y \mid X) = E(Y)\)。

2

反復期待値の法則(Law of iterated expectations)

\(E\bigl[E(Y \mid X)\bigr] = E(Y)\)

より一般には:\(E\bigl[E(Y \mid X, Z) \mid X\bigr] = E(Y \mid X)\)

3

条件付き期待値が周辺期待値と一致するなら無相関

\(E(Y \mid X) = E(Y)\) ならば \(\text{Cov}(X, Y) = 0\)(\(X\) と \(Y\) は無相関)。

4

逆は成り立たない

\(\text{Cov}(X, Y) = 0\) であっても \(E(Y \mid X) = E(Y)\) は一般に成り立たない。

5

条件付き期待値がゼロなら期待値もゼロ

\(E(Y \mid X) = 0\) ならば \(E(Y) = 0\)。

証明:\(E(Y) = E\bigl[E(Y \mid X)\bigr]\)(反復期待値の法則)\(= E[0] = 0\)。

全分散の法則(Law of total variance): \(\text{Var}(Y) = E\!\bigl[\text{Var}(Y \mid X)\bigr] + \text{Var}\!\bigl(E[Y \mid X]\bigr)\)
Professor Note ― 全分散の法則の応用例

複数の手法(\(X\))を用いて米の収量(\(Y\))を推定したとする。統計ソフトは各モデルごとの \(\text{Var}(Y)\) を与えるが、すべての推定値を統合した唯一の \(\text{Var}(Y)\) を計算することは難しい。全分散の法則はこうした状況で有用である(例:Zhao et al. 2017 の Multimethod Ensemble を参照)。

原典 P.13。
The expected value of Y, given value(s) of some other random variable, X.
(他の確率変数 \(X\) の値を所与としたときの \(Y\) の期待値。)
SECTION 08

正規分布(Normal distribution)

正規分布は計量経済学で最も重要な分布であり、 中心極限定理 を通じて推定量の漸近分布として現れる。

正規分布の確率密度関数(pdf)は次の形をとる(cdf はより複雑な形):

\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \]
記号意味
\(\mu\)平均(mean)
\(\sigma\)標準偏差(standard deviation)
\(X \sim N(\mu, \sigma^2)\)\(X\) が平均 \(\mu\)、分散 \(\sigma^2\) の正規分布に従う

標準正規分布:\(N(0, 1)\)

\(X \sim N(\mu, \sigma^2)\) ならば、次の標準化変換により標準正規分布に従う:

\[ \frac{X - \mu}{\sigma} \sim N(0, 1) \]
原典 P.14 の図は正規分布の pdf(ベル型)および cdf(S字型)を示す。異なる \(\mu\) と \(\sigma^2\) の組み合わせによって分布の位置・広がりが変わる様子が確認できる。
SECTION 09

カイ二乗・t・F 分布

正規分布から派生する カイ二乗分布t 分布F 分布 は、 計量経済学における仮説検定の理論的基礎を与える。

\(\chi^2\)

カイ二乗分布(Chi-square distribution)

\(Z \sim N(0, 1)\) のとき、\(n\) 個の独立な標準正規変数の二乗和は自由度 \(n\) のカイ二乗分布に従う:

\[ \sum_{i=1}^{n} Z_i^2 \sim \chi^2_n \]
\(t\)

t 分布(t-distribution)

\(Z \sim N(0, 1)\) かつ \(X \sim \chi^2_n\) が独立のとき:

\[ \frac{Z}{\sqrt{X/n}} \sim t_n \]

自由度 \(n \to \infty\) で \(t_n \to N(0,1)\) に近づく。

\(F\)

F 分布(F-distribution)

\(X_1 \sim \chi^2_{k_1}\) かつ \(X_2 \sim \chi^2_{k_2}\) が独立のとき:

\[ \frac{X_1/k_1}{X_2/k_2} \sim F_{k_1,\,k_2} \]

回帰モデルの線形制約の F 検定(joint hypothesis test)に使う。

原典 P.14 の図は正規分布(pdf・cdf)の図を示す。カイ二乗・t・F 分布の図は原典に含まれないが、各分布は正規変数の二乗和・比として定義される。
SECTION 10

参考文献(References)

  • Wooldridge, Jeffrey M. Introductory Econometrics: A Modern Approach, Appendix B.
  • Zhao, C., Liu, B., Piao, S., Wang, X., Lobell, D. B., Huang, Y., ... & Durand, J. L. (2017). Temperature increase reduces global yields of major crops in four independent estimates. Proceedings of the National Academy of Sciences, 114(35), 9326–9331.
出典:原典 P.14。