Spring 2026 / Kentaro Kawasaki
確率の復習Review of probability
[参照]Wooldridge, IE(Introductory Econometrics), 付録 B。
記法Notation
| 記号 | 意味 |
| \(X,\ Y\) | 確率変数(random variables) |
| \(x,\ y\) | \(X\) および \(Y\) のそれぞれの実現値(particular outcomes of \(X\) and \(Y\)) |
| \(a,\ b\) | スカラー(scalar) |
確率分布Probability distribution
pdf(確率密度関数, probability density function):
\[ f(x) \equiv \Pr(X = x) \]
cdf(累積分布関数, cumulative distribution function):
\[ F(x) \equiv \Pr(X \le x) \]
原典 P.11 右側には、母集団に対する pdf と cdf の典型的な関係を示す図(画像)が掲載されている("Relations Between Two Different Typical Representations of a Population")。上段が cdf(累積分布関数)、下段が pdf(確率密度関数)の曲線である。
同時分布Joint distribution
同時分布(joint distribution):\(f(x, y) = \Pr(X = x,\ Y = y)\)
条件付き分布(conditional distribution):\(f(x \mid y) = \Pr(X = x \mid Y = y)\)
\[ f(x, y) = f(x \mid y)f(y) = f(y \mid x)f(x) \]
\(y\) を観測しても \(x\) の分布について何の知識ももたらされないとき、\(x\) と \(y\) は独立(independent)であるという。すなわち \(f(x \mid y) = f(x)\)、あるいは \(f(y \mid x) = f(y)\)、あるいは \(f(x, y) = f(x)f(y)\)。
期待値Expectation
\[ E\left[X\right] \equiv \int_{-\infty}^{\infty} x\,f(x)\,dx \qquad \text{(値 × pdf)} \]
\[ E\left[g(X)\right] \equiv \int_{-\infty}^{\infty} g(x)\,f(x)\,dx \]
\(g(\cdot)\) が非線形のとき、
\[ E\left[g(X)\right] \ne g\left(E\left[X\right]\right) \qquad \left(\text{例:} E\left[X^2\right] \ne \left(E\left[X\right]\right)^2\right) \]
\[ E(aX + b) = aE(X) + b \]
\[ E(aX + bY) = aE(X) + bE(Y) \]
分散Variance
\[ \operatorname{Var}(X) \equiv \sigma^2 \equiv E\left[(X - \mu)^2\right] = E(X^2) - \mu^2 \]
\[ \operatorname{Var}(aX + b) = a^2 \operatorname{Var}(X) \]
\[ \operatorname{Var}(aX + bY) = a^2 \operatorname{Var}(X) + b^2 \operatorname{Var}(Y) + 2ab\operatorname{Cov}(X, Y) \]
標準偏差Standard Deviation
\[ \operatorname{sd}(X) \equiv \sigma \equiv \sqrt{\operatorname{Var}(X)} \]
共分散Covariance
\[ \operatorname{Cov}(X, Y) \equiv \sigma_{XY} \equiv E\left[(X - \mu_X)(Y - \mu_Y)\right] = E(XY) - \mu_X \mu_Y \]
\(X\) と \(Y\) が独立ならば、\(\operatorname{Cov}(X, Y) = 0\)。3
\[ \operatorname{Cov}(X, X) = \operatorname{Var}(X) \]
\[ \operatorname{Cov}(aX, bY) = ab\operatorname{Cov}(X, Y) \]
\[ \operatorname{Cov}(a + X, b + Y) = \operatorname{Cov}(X, Y) \]
\(\operatorname{Cov}(aX + bY, cW + dV) =\)
\[ ac\operatorname{Cov}(X, W) + ad\operatorname{Cov}(X, V) + bc\operatorname{Cov}(Y, W) + bd\operatorname{Cov}(Y, V) \]
相関係数(correlation coefficient):
\[ \operatorname{Corr}(X, Y) \equiv \frac{\sigma_{XY}}{\sigma_X \sigma_Y}. \qquad -1 \le \operatorname{Corr}(X, Y) \le 1 \]
原典 P.13 の上部には、相関の異なる4つの散布図(画像)が掲載されている。それぞれ (a) Correlation = +0.9、(b) Correlation = −0.9、(c) Correlation = 0.0、(d) Correlation = 0.0(二次的・nonlinear)であり、相関係数が線形的な関係の強さのみを測ること、二次的(非線形)な関係では相関が 0 になりうることを示している。
条件付き期待値Conditional expectation
別の確率変数 \(X\) の値(複数の場合もある)を所与としたときの、\(Y\) の期待値である。
\[ E(Y \mid x) = \int_{-\infty}^{\infty} y\,f(y \mid x)\,dy \]
例:肥料投入量 = \(x\) kg/ha を所与としたときの、米の収量 \(Y\) の期待値。
\[ E\bigl(a(X)Y + b(X) \mid X\bigr) = a(X)E(Y \mid X) + b(X) \]
\(X\) と \(Y\) が独立ならば、\(E(Y \mid X) = E(Y)\)。
反復期待値の法則(Law of iterated expectations):\(E\left[E(Y \mid X)\right] = E(Y)\)、あるいは \(E\left[E(Y \mid X, Z) \mid X\right] = E(Y \mid X)\)。
\(E(Y \mid X) = E(Y)\) ならば、\(\operatorname{Cov}(X, Y) = 0\)、すなわち \(X\) と \(Y\) は無相関である。
\(\operatorname{Cov}(X, Y) = 0\) であっても、\(E(Y \mid X) = E(Y)\) が必ずしも成り立つわけではない。
\(E(Y \mid X) = 0\) ならば、\(E(Y) = 0\)。
証明:\(E(Y) = E\left[E(Y \mid X)\right]\)(反復期待値の法則)\(= E[0] = 0\)。
全分散の法則(Law of total variance):\(\operatorname{Var}(Y) = E\left[\operatorname{Var}(Y \mid X)\right] + \operatorname{Var}\left(E[Y \mid X]\right)\)。
米の収量(\(Y\))を、いくつかの異なる手法(\(X\))を用いて推定したとしよう。統計ソフトウェアは各モデルについて \(\operatorname{Var}(Y)\) を与えるが、すべての推定値にもとづいて唯一の \(\operatorname{Var}(Y)\) を計算することは難しい。全分散の法則はこのような場合に有用である(例として Zhao et al. (2017) の Multimethod Ensemble を参照)。
正規分布Normal distribution
\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \qquad \text{(cdf はより複雑な形をとる)} \]
| 記号 | 意味 |
| \(\mu\) | 平均(mean) |
| \(\sigma\) | 標準偏差(standard deviation) |
| \(X \sim N(\mu, \sigma^2)\) | \(X\) が平均 \(\mu\)、分散 \(\sigma^2\) の正規分布に従う |
標準正規分布(standard normal distribution):\(N(0, 1)\)。
\(X \sim N(\mu, \sigma^2)\) ならば、
\[ \frac{X - \mu}{\sigma} \sim N(0, 1) \]
図は pdf と cdf を示している。
原典 P.14 右側には、正規分布の pdf(上段・ベル型曲線)および cdf(下段・S字型曲線)の図(画像)が掲載されている。いずれも \((\mu, \sigma^2) = (0,\,0.2),\ (0,\,1.0),\ (0,\,5.0),\ (-2,\,0.5)\) の4通りの組み合わせを重ねて描いている。
カイ二乗分布Chi-square distribution
\(Z \sim N(0, 1)\) のとき、
\[ \sum_{i=1}^{n} Z_i^2 \sim \chi^2_n \]
t 分布t-distribution
\(Z \sim N(0, 1)\) かつ \(X \sim \chi^2_n\) のとき、
\[ \frac{Z}{\sqrt{X/n}} \sim t_n \]
F 分布F-distribution
\(X_1 \sim \chi^2_{k_1}\) かつ \(X_2 \sim \chi^2_{k_2}\) のとき、
\[ \frac{X_1/k_1}{X_2/k_2} \sim F_{k_1,\,k_2} \]
参考文献References
- Zhao, C., Liu, B., Piao, S., Wang, X., Lobell, D. B., Huang, Y., ... & Durand, J. L. (2017). "Temperature increase reduces global yields of major crops in four independent estimates." Proceedings of the National Academy of Sciences, 114(35), 9326–9331.