Spring 2026 / Kentaro Kawasaki
OLS ― 実務上の論点 OLS: Practical issues
[参考文献]Wooldridge, IE, Ch.3, 6, 7
適合度:\(R^2\)Goodness of fit: R2
\(R^2\)(R 二乗, R-squared)は、\(y\) の分散のうち \(x\) によって説明される割合を測る。
\[ R^2 = \frac{\sum_i (\hat{y}_i - \bar{y})^2}{\sum_i (y_i - \bar{y})^2} \qquad \left(\text{ただし } \bar{y} = \sum_i y_i / n \right) \]
\(R^2\) はゼロ(当てはまりなし)から 1(完全な当てはまり)の範囲をとる。
原典 P.38 には、当てはまりの良し悪しを示す散布図(画像)が掲載されている。左が「低い \(R^2\)(Low R2)」、右が「高い \(R^2\)(High R2)」の例であり、縦軸は当てはめ値(fitted responses)、横軸は観測値(observed responses)を表す。
いくらかの代数計算により、次が示される。
\[ \sum_i (y_i - \bar{y})^2 = \sum_i (\hat{y}_i - \bar{y})^2 + \sum_i \hat{u}_i^2 \qquad \left(\text{ただし } \hat{u}_i = y_i - \hat{y}_i \right) \]
SST(平方和(sum of squares))= SSE(説明された平方和(sum of squares explained))+ SSR(残差平方和(sum of squared residuals))。
したがって \(R^2\) は次のように書き換えられる。
\[ R^2 = \frac{\sum_i (\hat{y}_i - \bar{y})^2}{\sum_i (y_i - \bar{y})^2} = 1 - \frac{\sum_i \hat{u}_i^2}{\sum_i (y_i - \bar{y})^2} = 1 - \frac{\text{SSR}}{\text{SST}} \]
\(R^2\) の問題点は、別の独立変数を追加すると \(R^2\) が必ず増加することである。そのため実務では、代わりに調整済み \(R^2\)(adjusted R2)が用いられる。
\[ \text{調整済み } R^2 = 1 - \frac{\text{SSR}/(n-k)}{\text{SST}/(n-1)} \]
\(y\) を予測することが目的であるときは高い \(R^2\) が望ましいが、回帰の目的が「\(x\) が \(y\) に有意な影響をもつかどうか」を見ることであるなら、低い \(R^2\) を気にする必要はない。10
\(y\) の異なる関数形(たとえば \(y\) と \(\log(y)\))どうしで \(R^2\) を比較することは無意味である(Wooldridge, IE, ch.6)。この論点については後の節(「モデル選択(Model Selection)」)で議論する。
ダミー変数Dummy variable
0 または 1 のいずれかの値をとる。
例:\(D_{\text{male}} = 1\)(男性の場合)、それ以外は 0。
異なる切片を表すことができる:
\[ y = \beta_0 + \beta_1 x + \beta_2 D \]
他の変数と交差させることで、異なる傾きを表すこともできる:
\[ y = \beta_0 + \beta_1 x + \beta_2 D x \]
カテゴリが \(N\) 個ある場合は、回帰でそのうちの 1 つを除外する。
例:\(D_1 = 1\)(北海道の場合)、\(D_2 = 1\)(青森の場合)、……、\(D_{47} = 1\)(沖縄の場合)。\(D_1\) から \(D_{47}\) までを回帰でそのまま使ってはならない。いずれか 1 つを除外すること。除外した変数の係数はゼロと解釈する。
\[ y = \beta_0 + \beta_1 x + \delta_1 D_1 + \delta_2 D_2 + \cdots + \delta_{46} D_{46} \]
この場合、沖縄の係数はゼロと仮定されている。
順序変数(ordered variable)を直接使ってはならない。それらはダミー変数に変換すべきである。
例:変数「学生の成績(student performance)」が 1, 2, ……, 6 のいずれかの値をとるとする。この変数を回帰変数としてそのまま使ってはならない。代わりに、6 個のダミー変数を作るべきである。すなわち \(D_1 = 1\)(成績 = 1 の場合)、\(D_2 = 1\)(成績 = 2 の場合)、……、\(D_6 = 1\)(成績 = 6 の場合)とし、そのうち(6 個ではなく!)任意の 5 個を回帰変数として使う。
二乗項Square term
\[ y = \beta_0 + \beta_1 x + \beta_2 x^2 \]
非線形な関係。U 字型。
これは「パラメータに関して線形(linear in parameter)」という仮定(OLS.1)を満たすことに注意。
限界効果(marginal effect, ME)は一定ではない:\(dy/dx = \beta_1 + 2\beta_2 x\)。
ME は正にも負にもなりうる。\(dy/dx = 0\) となるのはどこか。
ME を要約するには:
\[ \beta_1 + 2\beta_2 \bar{x} \qquad \text{または} \qquad \frac{1}{n}\sum_{i=1}^{n} (\beta_1 + 2\beta_2 x_i) \quad (\text{平均偏効果, average partial effects}) \]
二次の時間トレンドを含める場合は、新しい時間変数 \(t = 0, 1, 2, \ldots, T\) を作成し、その二乗項を使うこと(year = 2000, 2001, 2002, …… のような元の年データではなく)。係数の解釈がより容易になる。
交差項Interaction term
\[ y = \beta_0 + \beta_1 x + \beta_2 x z + \beta_3 z \]
\(x\) の限界効果:\(dy/dx = \beta_1 + 2\beta_2 z\)。
\(x\) の ME は \(z\) に依存する。11
非線形性Nonlinearity
回帰変数がカテゴリカルな場合(たとえば年齢)、各年齢区分についてダミー変数を作成し、各区分について別々に係数を推定する(たとえば 10〜19 歳、20〜29 歳など)。
回帰変数が連続である場合(たとえば所得)、非線形性を表現する最も単純な方法は、二乗項を加えるか対数をとることであるが、より洗練された方法もある。たとえばステップ関数(step function)、多項式関数(polynomial function)、区分線形関数(piecewise linear function)などである。James et al (2013) 第7章、ならびに Mitchell (2012) と Schlenker and Roberts (2009) を参照。
対数Log
\[ \ln(y) = \beta_0 + \beta_1 \ln(x) + u \]
\[ y = \beta_0 + \beta_1 \ln(x) + u \]
\[ \ln(y) = \beta_0 + \beta_1 x + u \]
利点Advantage
- 非線形・滑らかで、当てはまりが良い。
- \(y > 0\) のとき、線形モデル(\(y = \beta_0 + \beta_1 x + u\))では不均一分散(heteroskedasticity)が生じやすい。しかし \(\log(y)\) はこの問題を緩和する。
- 変数の範囲を狭める。外れ値に対する感応度が低い。
\(y\) モデルと \(\log(y)\) モデルとのあいだで \(R^2\) を比較してはならない。
弾力性Elasticity
(\(x\) が 1 % 増加したときの \(y\) の % 変化)
\(\ln(y) = \beta_0 + \beta_1 \ln(x) + u\):
\[ \frac{dy}{y} = \beta_1 \frac{dx}{x} \quad\Longleftrightarrow\quad E_{y,x} \equiv \frac{dy}{y} \Bigg/ \frac{dx}{x} = \beta_1 \]
\(y = \beta_0 + \beta_1 \ln(x) + u\):
\[ dy = \beta_1 \frac{dx}{x} \quad\Longleftrightarrow\quad E_{y,x} \equiv \frac{dy}{y} \Bigg/ \frac{dx}{x} = \beta_1 / y \]
\(\ln(y) = \beta_0 + \beta_1 x + u\):
\[ \Longleftrightarrow \qquad \Longleftrightarrow \]
\(y = \beta_0 + \beta_1 x + u\):
\[ \Longleftrightarrow \qquad \Longleftrightarrow \]
訳注:原典 P.40 では、上記の \(\ln(y) = \beta_0 + \beta_1 x + u\)(log-level)および \(y = \beta_0 + \beta_1 x + u\)(線形)の 2 つの式について、対応する導出が「\(\Leftrightarrow\)」の記号のみで本文上は空欄のまま示されている。本和訳は原典のレイアウトをそのまま再現している。なお log-level モデルの解釈(\(x\) が 1 単位増加したとき \(y\) は約 \(100\beta_1\) % 変化する)は、後出の「セミ対数モデルにおけるダミー変数の限界効果」の節で導出が与えられている。
対数の限界:ゼロや負の値については対数を定義できない。
研究者によっては、ゼロを除外したり、元の値に小さな正の数(たとえば 0.5 や 1)を加えたりすることで、この問題を回避する。
Burger et al (2009) は、国際貿易(重力方程式(gravity equation))の文脈ではこうした処理が深刻なバイアスを引き起こすと強調し、ポアソン・モデル(Poisson models)(負の二項分布(negative binomial)、ゼロ過剰(zero-inflated))を推奨している。
「逆双曲線正弦変換(inverse hyperbolic sine transformation, IHS)」を使うこともできる(Bellemare and Wichman 2020)。
\[ \text{IHS}(y) = \operatorname{arcsinh}(y) = \ln\!\left(y + \sqrt{y^2 + 1}\right) \]
- ゼロや負の値さえも扱うことができる。
- 大きな \(y\) については、\(\text{IHS}(y) \approx \ln(2y)\)。したがって、値が大きいときには対数変換のように振る舞う。
対数から元の尺度へ戻すBack from log to original
\(\log(y)\) モデルから \(y\) を予測することは単純ではない。
\(\log(y)\) を指数変換して \(y\) の予測値を得たくなるかもしれない。すなわち、
\[ \hat{y} = \exp(\widehat{ly}) = \exp(\mathbf{X}\hat{\boldsymbol{\beta}}) \]
ここで \(ly\) は \(\log(y)\) を表し、ハット記号は推定値を意味する。
Wooldridge, IE によれば、これは大きな歪みをもたらしうる。
\(E[\widehat{ly}] = E[ly]\) は成り立つが、一般に \(E[\exp(\widehat{ly})] \neq E[\exp(ly)] = E[y]\) である。
(対数モデルの)誤差項が正規分布に従う場合、\(y\) は次の式によって予測できる(Wooldridge, IE, Ch.6.4.)。
\[ \hat{y} = \exp\!\left(\widehat{ly} + \frac{\hat{\sigma}^2}{2}\right) \qquad \text{ただし } \hat{\sigma}^2 = \sum_i (ly - \mathbf{X}\hat{\boldsymbol{\beta}}) \big/ (n - k) \]
訳注:原典 P.41 では \(\hat{\sigma}^2\) の定義式が \(\sum_i (ly - \mathbf{X}\hat{\boldsymbol{\beta}})\,/\,(n-k)\) と表記されており、被加項の二乗が欠落している(本和訳は原典の表記をそのまま再現している)。分散の推定量としては \(\hat{\sigma}^2 = \sum_i (ly - \mathbf{X}\hat{\boldsymbol{\beta}})^2 / (n-k)\)、すなわち残差平方和を \((n-k)\) で除したものが正しい。
しかし、誤差が正規でない場合、上記のアプローチはかえって益よりも害をもたらすことがある。Bardsen and Lutkepohl「Forecasting levels of log variables in vector autoregressions」(2011, オンライン入手可)は、単純な指数変換が望ましい場合の例をいくつか示している。
Duan (1983) はノンパラメトリックなアプローチを提案しており、これにより回帰誤差の分布について特定の仮定を置く必要がなくなる。Dave Giles のブログ(Dave Giles's Blog)を参照。
セミ対数モデルにおけるダミー変数の限界効果Marginal effect of dummy variables in semi-log model
参考文献:van Garderen, 2002。
限界効果を計算しようとするときにも、同様の論点が生じる。
モデルが次で与えられるとする。
\[ \ln(y) = \alpha + \beta x + \gamma D + u \]
連続変数 \(x\) については、\(x\) が小さな量だけ増加したときの \(y\) の % 変化 \(p\) は \(p = 100\beta\) である。
証明:微分をとると、
\[ dy/y = \beta \, dx \]
したがって、\(100(dy/y) / dx = 100\beta\)。
\(\gamma\) が既知のとき、\(D\) が 0 から 1 へ変化したときの \(y\) の % 変化は \(p = 100\left[\exp(\gamma) - 1\right]\) である。
しかし、\(\gamma\) が未知(推定される)の場合、上記の式はバイアスをもつ。\(u\) が正規分布に従うとき、Kennedy (1981) は \(p\) の不偏推定量が次で与えられることを示している。
\[ \hat{p} = 100 \times \left[\exp\!\left(\hat{\gamma} - \frac{\hat{\sigma}^2}{2}\right) - 1\right] \]
いくつかの重要な関数形Some important functional forms
Cobb-Douglas
\[ \ln(y) = \beta_0 + \beta_1 \ln(x_1) + \beta_2 \ln(x_2) + u \]
\[ y = \exp(\beta_0)\, x_1^{\beta_1} x_2^{\beta_2} \exp(u) \]
弾力性は一定である。
Translog
\[ \ln(y) = \beta_0 + \beta_1 \ln(x_1) + \beta_2 \ln(x_2) + \beta_3 [\ln(x_1)]^2 + \beta_4 [\ln(x_2)]^2 + \beta_5 \ln(x_1)\ln(x_2) + u \]
Cobb-Douglas より柔軟である。ただし、集計データを使う場合には多重共線性が問題になりうる(回帰変数間の相関が高く、これは仮定 OLS.4 に違反する)。
多重共線性Multicollinearity
回帰変数間の相関が高すぎる場合(仮定 OLS.4 の違反)、問題を引き起こすことがある。この問題は多重共線性(multicollinearity)と呼ばれる。
問題は、行列 \(X'X\) が逆行列をもたない(特異(singular)である)状態に近いことである。これは、標準誤差が大きく、符号や大きさが予想外であるような、信頼できない推定値につながりうる。
例:男性ダミー(male)と女性ダミー(female)。すべての観測について \(\text{male}_i = 1 - \text{female}_i\) であるため、\(X'X\) 行列は特異になる。
例:年齢、就学年数、卒業後年数。すべての観測について 年齢 = 6 + 就学年数 + 卒業後年数 であるため、\(X'X\) 行列は特異になる。
例:年齢と経験年数が高い相関をもつ場合、モデルがこれら 2 つの変数の個別の影響を識別することは難しいかもしれない。
多重共線性の正式な検定:分散膨張因子(variance inflation factor, VIF)。
多重共線性を避けるためには、1 つ以上の変数を除外すべきである。
外れ値Outlier / 異常値
OLS は残差平方和を最小化するため、非常に大きな残差が生じないようにしようとする。したがって、OLS は外れ値に対して極めて敏感である。すなわち、OLS 推定値は外れ値が含まれるか否かに決定的に依存する。
このような問題を避けるため、各変数と OLS 残差のヒストグラムを点検し、極端な観測値を除外する(たとえば上位 1 % と下位 99 %)。12
参考文献References
- Bellemare, Marc F., and Casey J. Wichman. 2020. "Elasticities and the Inverse Hyperbolic Sine Transformation." The Oxford Bulletin of Economics and Statistics 82 (1): 50–61. https://doi.org/10.1111/obes.12325.
- Burger, M., Van Oort, F., & Linders, G. J. (2009). On the specification of the gravity model of trade: zeros, excess zeros and zero-inflated estimation. Spatial Economic Analysis, 4(2), 167–190.
- Duan, N., 1983. Smearing estimate: A nonparametric retransformation method. Journal of the American Statistical Association, 78, 605–610.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. with Applications in R. New York: springer. Available online.
- Kennedy, P. E. (1981). Estimation with correctly interpreted dummy variables in semilogarithmic equations. American Economic Review 71, 801.
- Mitchell, M. N. (2012). Interpreting and visualizing regression models using Stata. Stata Press books.
- Schlenker, W., & Roberts, M. J. (2009). Nonlinear temperature effects indicate severe damages to US crop yields under climate change. Proceedings of the National Academy of sciences, 106(37), 15594–15598.
- Silva, J. S., & Tenreyro, S. (2006). The log of gravity. The Review of Economics and statistics, 88(4), 641–658.
- van Garderen, J.K., Shah, C., 2002. Exact interpretation of dummy variables in semilogarithmic equations. Econometrics Journal. 5, 149–159.
訳注:原典 P.43 は、P.42 から続く参考文献リストの後半(Duan の巻号「78, 605–610.」以降、James et al. (2013)、Kennedy (1981)、Mitchell (2012)、Schlenker and Roberts (2009)、Silva and Tenreyro (2006)、van Garderen and Shah (2002))のみのページである。これらの文献は上の「参考文献」に一括して掲げた。