Chapter 7 · Part II 線形回帰 · 原典 P.38–43

OLS ― 実務上の論点

ダミー変数・対数変換・各種関数形の係数解釈を体系化し、多重共線性・外れ値への対処まで一望する。 \(R^2\) の性質と限界を踏まえたうえで、現場で選ぶべき関数形の判断基準を身につける。

ダミー変数対数変換関数形 Cobb-Douglas 弾力性

川崎賢太郎（東京大学大学院農学生命科学研究科）原典 P.38–43 OLS: Practical issues

図解で読む原文に忠実な和訳

Contents

01. 適合度 ― \(R^2\) と調整済み \(R^2\)
02. ダミー変数
03. 二乗項と交差項
04. 非線形性の表現
05. 対数変換（Log）
06. 各関数形の係数解釈
07. ゼロ・負の値の扱い ― IHS 変換
08. 対数モデルから水準値の予測へ
09. セミ対数モデルにおけるダミー変数の限界効果
10. 重要な関数形 ― Cobb-Douglas と Translog
11. 多重共線性（Multicollinearity）
12. 外れ値（Outlier）
13. 参考文献

SECTION 01

適合度 ― \(R^2\) と調整済み \(R^2\)

\(R^2\)（決定係数, R-squared）は、\(y\) の分散のうち \(x\) で説明できる割合を測る指標である。ただし独立変数を追加するたびに \(R^2\) は必ず増加するという欠点があり、実務では調整済み \(R^2\) が使われる。

定義式

\[ R^2 = \frac{\sum_i (\hat{y}_i - \bar{y})^2}{\sum_i (y_i - \bar{y})^2} \qquad \text{ただし } \bar{y} = \sum_i y_i / n \]

代数的に、総平方和（SST）は説明平方和（SSE）と残差平方和（SSR）に分解できる。

\[ \underbrace{\sum_i (y_i - \bar{y})^2}_{\text{SST}} = \underbrace{\sum_i (\hat{y}_i - \bar{y})^2}_{\text{SSE}} + \underbrace{\sum_i \hat{u}_i^2}_{\text{SSR}} \qquad \text{ただし } \hat{u}_i = y_i - \hat{y}_i \]

これを書き換えると：

\[ R^2 = \frac{\sum_i (\hat{y}_i - \bar{y})^2}{\sum_i (y_i - \bar{y})^2} = 1 - \frac{\sum_i \hat{u}_i^2}{\sum_i (y_i - \bar{y})^2} = 1 - \frac{\text{SSR}}{\text{SST}} \]

\(R^2\) は 0（全く当てはまらない）から 1（完全に当てはまる）の範囲をとる。

調整済み \(R^2\)（Adjusted \(R^2\)）

\[ \bar{R}^2 = 1 - \frac{SSR/(n-k)}{SST/(n-1)} \]

ここで \(n\) は観測数、\(k\) は推定するパラメータ数（切片を含む）である。自由度を補正することで、説明変数の追加によって \(R^2\) が機械的に増加する問題を緩和する。

\(R^2\) の解釈上の注意点：

目的が \(y\) の予測（forecasting）の場合は高い \(R^2\) が望ましい。
目的が「\(x\) が \(y\) に有意な影響を与えるか」の検証なら、低い \(R^2\) は問題ではない。
\(y\) モデルと \(\ln(y)\) モデルの \(R^2\) を比較することは無意味である（被説明変数の尺度が異なるため）。詳細は後述の「モデル選択」の節を参照。

Professor Note ― アウトサンプル性能

\(R^2\) は「サンプル内（in-sample）性能」を測るものである。\(R^2\) が高くても、未知データへの当てはまりが悪い場合がある。これを過学習（overfitting）と呼ぶ。アウトサンプル性能を評価するには、データセットを訓練データとテストデータに（例: 8:2 の割合で）無作為に分割し、モデルを訓練データで推定してテストデータで評価する方法がある。詳細は機械学習の教科書を参照。

原典 P.38 脚注10。

SECTION 02

ダミー変数（Dummy variable）

ダミー変数は 0 または 1 のいずれかの値をとる変数である。カテゴリカルな属性（性別・地域・処置の有無など）を回帰モデルに取り込む際に使用する。

例：\(D_{\text{male}} = 1\)（男性の場合）、\(D_{\text{male}} = 0\)（それ以外）。

ダミー変数による切片の変化

\[ y = \beta_0 + \beta_1 x + \beta_2 D + u \]

この場合、\(D=1\) のグループと \(D=0\) のグループで切片が \(\beta_2\) だけ異なる。傾きは共通である。

ダミー変数と他の変数の交差項による傾きの変化

\[ y = \beta_0 + \beta_1 x + \beta_2 D \cdot x + u \]

この場合、\(D=1\) のグループでは \(x\) の傾きが \(\beta_1 + \beta_2\)、\(D=0\) のグループでは \(\beta_1\) となる。つまり傾きがグループによって異なる。

カテゴリが N 個ある場合 ― ダミー変数トラップ

N 個のカテゴリがある場合、N 個全てのダミー変数を使用してはならない。
そのうちの 1 つを必ず回帰から除外すること。除外されたカテゴリの係数はゼロとして解釈する（参照カテゴリ）。全て使うと完全多重共線性が生じ、\(X'X\) 行列が特異になる（ダミー変数トラップ）。

D₁ = 1 if Hokkaido, D₂ = 1 if Aomori, …, D₄₇ = 1 if Okinawa. Don't use D₁ through D₄₇ in the regression. Drop any one of them. Interpret the coefficient of the dropped variable as zero.
（北海道・青森・…・沖縄に対応する47個のダミー変数を作ったとき、47個全てを回帰に使ってはならない。いずれか1つを除外し、その係数はゼロとして解釈する。）

例えば沖縄を除外した場合、モデルは次のようになる：

\[ y = \beta_0 + \beta_1 x + \delta_1 D_1 + \delta_2 D_2 + \cdots + \delta_{46} D_{46} + u \]

この場合、沖縄の係数はゼロと仮定されている（参照カテゴリ）。\(\delta_j\) は沖縄との差として解釈する。

順序変数の扱い ― 順序変数をそのまま使わない

順序変数はそのまま説明変数に使ってはならない。
例：「学生の成績」が 1〜6 の値をとるとき、この変数を直接回帰変数として使わない。代わりに 6 つのダミー変数（\(D_1 = 1\) if 成績 = 1, …, \(D_6 = 1\) if 成績 = 6）を作成し、そのうち 5 つを説明変数として使用する。

Professor Note ― なぜ順序変数をそのまま使えないか

順序変数をそのまま使うと、「成績2と成績1の差」＝「成績3と成績2の差」という等間隔の仮定を置いたことになる。実際にはそのような保証がないため、ダミー変数に変換して各カテゴリの効果を個別に推定する方が正確である。

SECTION 03

二乗項（Square term）と交差項（Interaction term）

線形モデルに二乗項や交差項を加えることで、非線形な関係や変数間の相互作用を表現できる。どちらも「パラメータに関して線形」という OLS.1 の仮定を満たす。

二乗項

\[ y = \beta_0 + \beta_1 x + \beta_2 x^2 + u \]

この関数形は U 字型（あるいは逆 U 字型）の関係を表す。「パラメータに関して線形」という仮定（OLS.1）は満たされる。

限界効果（Marginal Effect, ME）は \(x\) の値によって変化する：

\[ \frac{dy}{dx} = \beta_1 + 2\beta_2 x \]

ME は正にも負にもなりうる。\(dy/dx = 0\) となる点（極値点）は \(x = -\beta_1 / (2\beta_2)\) である。

ME の要約方法：サンプル平均値での ME、または平均偏効果（Average Partial Effects, APE）を使う。

\[ \text{ME at mean} = \hat{\beta}_1 + 2\hat{\beta}_2 \bar{x} \qquad \text{APE} = \frac{1}{n}\sum_{i=1}^{n} (\hat{\beta}_1 + 2\hat{\beta}_2 x_i) \]

二次時間トレンドを含める場合の注意：時間変数として元の年（2000, 2001, 2002, …）をそのまま使うのではなく、\(t = 0, 1, 2, \ldots, T\) と定義した新しい変数を作成してその二乗項を使うこと。係数の解釈が格段にやりやすくなる。

交差項（Interaction term）

\[ y = \beta_0 + \beta_1 x + \beta_2 x \cdot z + \beta_3 z + u \]

\(x\) の限界効果は \(z\) の値に依存する：

\[ \frac{dy}{dx} = \beta_1 + \beta_2 z \]

Professor Note ― パラメータ異質性

パラメータの異質性を導入する別の方法として、分位点回帰（quantile regression）やランダム係数モデル（random coefficient model）を使うこともできる。

原典 P.39 脚注11。

SECTION 04

非線形性（Nonlinearity）の表現

説明変数が連続変数でも、真の関係が非線形である場合がある。その場合、カテゴリカル変数にはダミー変数を、連続変数には二乗項・対数変換・その他の手法を使う。

説明変数がカテゴリカル（例：年齢）

年齢区分ごとにダミー変数を作成（例：10代, 20代, 30代 …）
各カテゴリの係数を個別に推定する
カテゴリ間の関係を等間隔と仮定しない

説明変数が連続変数（例：所得）

二乗項の追加：最もシンプル
対数変換：弾力性の解釈が可能（次節参照）
その他（高度な手法）：ステップ関数、多項式関数、区分線形関数

参照：James et al. (2013) ch.7、Mitchell (2012)、Schlenker and Roberts (2009)。原典 P.39。

SECTION 05

対数変換（Log）

対数変換を用いると非線形・滑らかな当てはまりが得られ、係数を弾力性または半弾力性として解釈できる。ただし対数はゼロや負の値に対して定義できないという制約がある。

対数変換の主な利点

非線形かつ滑らかな当てはまり

直線よりも現実的な非線形関係を滑らかに表現できる。

不均一分散の緩和

\(y > 0\) のとき、線形モデル（\(y = \beta_0 + \beta_1 x + u\)）では不均一分散が生じやすい。\(\ln(y)\) を取ることでこの問題を緩和できる。

変数の範囲の圧縮 ― 外れ値への頑健性

対数変換により変数の範囲が縮小し、外れ値の影響を受けにくくなる。

\(y\) モデルと \(\ln(y)\) モデルの \(R^2\) を比較することは無意味。被説明変数の尺度が異なるため、\(R^2\) の値は直接比較できない（Wooldridge, IE, ch.6）。

SECTION 06

各関数形の係数解釈

対数の入れ方によって係数 \(\beta_1\) の解釈は大きく変わる。弾力性（両対数）・準弾力性（level-log）・半弾力性（log-level）の3種を区別して押さえる。

型 1 ― 両対数モデル（log-log）: 弾力性

\[ \ln(y) = \beta_0 + \beta_1 \ln(x) + u \]

両辺を微分すると：

\[ \frac{dy}{y} = \beta_1 \frac{dx}{x} \qquad \Longleftrightarrow \qquad E_{y,x} \equiv \frac{dy}{y} \Bigg/ \frac{dx}{x} = \beta_1 \]

解釈：\(x\) が 1 % 増加すると、\(y\) は \(\beta_1\) % 変化する（弾力性）。\(\beta_1\) は定数弾力性（constant elasticity）。

型 2 ― level-log モデル: 準弾力性

\[ y = \beta_0 + \beta_1 \ln(x) + u \]

両辺を微分すると：

\[ dy = \beta_1 \frac{dx}{x} \qquad \Longleftrightarrow \qquad E_{y,x} \equiv \frac{dy}{y} \Bigg/ \frac{dx}{x} = \beta_1 / y \]

解釈：\(x\) が 1 % 増加すると、\(y\) は \(\beta_1/100\) 単位だけ変化する。弾力性は \(\beta_1 / y\) であり定数ではない。

型 3 ― log-level モデル: 半弾力性

\[ \ln(y) = \beta_0 + \beta_1 x + u \]

両辺を微分すると \(dy/y = \beta_1 \, dx\) となり、\(x\) が微小増加したとき \(y\) の変化率（割合）は \(\beta_1 \, dx\) である。実務上は近似として次のように解釈する：

解釈（連続変数 \(x\) の場合）：\(x\) が 1 単位増加すると、\(y\) は約 \(100 \times \beta_1\) % 変化する（半弾力性）。

関数形と係数解釈の対比
モデル名	回帰式	\(\beta_1\) の解釈
log-log（両対数）	\(\ln y = \beta_0 + \beta_1 \ln x + u\)	\(x\) が 1 % 増 → \(y\) が \(\beta_1\) % 増（弾力性）
level-log	\(y = \beta_0 + \beta_1 \ln x + u\)	\(x\) が 1 % 増 → \(y\) が \(\beta_1/100\) 単位増
log-level（半対数）	\(\ln y = \beta_0 + \beta_1 x + u\)	\(x\) が 1 単位増 → \(y\) が約 \(100\beta_1\) % 増（半弾力性）
linear（線形）	\(y = \beta_0 + \beta_1 x + u\)	\(x\) が 1 単位増 → \(y\) が \(\beta_1\) 単位増

SECTION 07

ゼロ・負の値の扱い ― 逆双曲線正弦変換（IHS）

対数はゼロや負の値に対して定義できない。この限界に対処する方法として、逆双曲線正弦変換（Inverse Hyperbolic Sine Transformation, IHS）がある。

\[ \text{IHS}(y) = \text{arcsinh}(y) = \ln\!\left(y + \sqrt{y^2 + 1}\right) \]

IHS の特長

ゼロ・負の値も扱える

\(y = 0\) や \(y < 0\) でも定義される。所得・貿易フロー・資産など、ゼロ観測を含むデータに有効。

大きな値での近似

対数と同等の挙動

\(y\) が十分大きいとき、\(\text{IHS}(y) \approx \ln(2y)\)。弾力性の解釈もほぼ対数変換と同様に扱える。

ゼロや負の値への他のアプローチ（とその問題点）

ゼロ観測を除外する

サンプルの選択的除外により、推定にバイアスが生じる可能性がある。

微小な正の数（0.5 や 1）を加算する

恣意的な値の選択が推定に深刻なバイアスをもたらすことがある。Burger et al. (2009) は国際貿易の重力方程式の文脈でこの慣行が深刻なバイアスを引き起こすと強調し、ポアソン・モデル（負の二項分布モデル、ゼロ過剰モデル）を推奨している。

IHS 変換を使用する

Bellemare and Wichman (2020) が推奨。ゼロや負の値にも適用でき、大きな値では対数と近似的に同等の性質をもつ。

Bellemare, Marc F., and Casey J. Wichman. 2020. "Elasticities and the Inverse Hyperbolic Sine Transformation." Oxford Bulletin of Economics and Statistics 82(1): 50–61. doi:10.1111/obes.12325。

SECTION 08

対数モデルから水準値の予測へ（Back from log to original）

\(\ln(y)\) を被説明変数として推定したモデルから \(y\) の予測値を得ることは単純ではない。対数モデルの推定値に指数関数をそのまま適用すると、系統的なバイアスが生じる。

\(\ln(y)\) のモデルから \(y\) の予測値を得たい場合、指数変換を施せばよいように見える：

\[ \hat{y} = \exp(\widehat{ly}) = \exp(\mathbf{X}\hat{\boldsymbol{\beta}}) \qquad \text{（ここで } ly = \ln(y) \text{、ハット記号は推定値）} \]

この方法は一般にバイアスが生じる（Wooldridge, IE）。
\(E[\widehat{ly}] = E[ly]\) は成立するが、一般に \(E[\exp(\widehat{ly})] \neq E[\exp(ly)] = E[y]\) であることに注意。

誤差項が正規分布に従う場合の補正式

対数モデルの誤差項が正規分布に従う場合、Wooldridge (IE, Ch.6.4) は次の補正式を示している：

\[ \hat{y} = \exp\!\left(\widehat{ly} + \frac{\hat{\sigma}^2}{2}\right) \qquad \text{ただし } \hat{\sigma}^2 = \frac{\sum_i (ly_i - \mathbf{X}_i\hat{\boldsymbol{\beta}})^2}{n - k} \]

ただし誤差項が正規分布に従わない場合、上記の補正式はかえって問題を悪化させる可能性がある。Bardsen and Lutkepohl (2011) は単純な指数変換が望ましい例を示している。

Professor Note ― Duan (1983) のノンパラメトリック法

Duan (1983) は、回帰誤差の分布について特定の仮定を置かないノンパラメトリックなスミアリング推定量（Smearing estimate）を提案している。誤差の分布が不明確な場合の代替手法として有用である。

詳細は Dave Giles's Blog も参照。

Duan, N., 1983. "Smearing estimate: A nonparametric retransformation method." Journal of the American Statistical Association 78, 605–610。原典 P.41。

SECTION 09

セミ対数モデルにおけるダミー変数の限界効果

被説明変数を対数変換したモデル（セミ対数モデル）でダミー変数の係数を解釈する場合、「\(100\gamma\) %」という近似は推定値の場合にバイアスが生じる。

次のモデルを考える：

\[ \ln(y) = \alpha + \beta x + \gamma D + u \]

連続変数 \(x\) の場合

\(y\) の変化率（パーセント変化）は \(x\) が微小増加するとき：

\[ \frac{dy}{y} = \beta \, dx \quad \Longrightarrow \quad \frac{100(dy/y)}{dx} = 100\beta \]

\(x\) が 1 単位増えると \(y\) は約 \(100\beta\) % 変化する。この近似はバイアスを生じない（\(\beta\) が真値のとき）。

ダミー変数 \(D\) の場合（\(D: 0 \to 1\) の変化）

\(\gamma\) が既知（真値）のとき、\(D\) が 0 から 1 に変わるときの \(y\) の変化率は：

\[ p = 100 \left[\exp(\gamma) - 1\right] \]

\(\gamma\) が推定値（未知）の場合、上記の式はバイアスをもつ。
誤差項 \(u\) が正規分布に従う場合、Kennedy (1981) は次の不偏推定量を示している（van Garderen and Shah (2002) も参照）：

\[ \hat{p} = 100 \times \left[\exp\!\left(\hat{\gamma} - \frac{\hat{\sigma}^2}{2}\right) - 1\right] \]

ここで \(\hat{\sigma}^2\) は \(\hat{\gamma}\) の推定分散である。

参照：Kennedy, P. E. (1981). "Estimation with correctly interpreted dummy variables in semilogarithmic equations." American Economic Review 71, 801. および van Garderen, J.K., Shah, C. (2002). "Exact interpretation of dummy variables in semilogarithmic equations." Econometrics Journal 5, 149–159。原典 P.41。

SECTION 10

重要な関数形 ― Cobb-Douglas と Translog

経済学で最も頻繁に使われる関数形が Cobb-Douglas 型と Translog 型である。両者は被説明変数・説明変数ともに対数変換した上で線形回帰を当てる。

Cobb-Douglas 型（両対数モデル）

\[ \ln(y) = \beta_0 + \beta_1 \ln(x_1) + \beta_2 \ln(x_2) + u \]

これは原形では次のように表される：

\[ y = \exp(\beta_0) \cdot x_1^{\beta_1} \cdot x_2^{\beta_2} \cdot \exp(u) \]

弾力性一定（Constant elasticity）：\(x_1\) の弾力性は常に \(\beta_1\) であり、\(x_1\) の値によらず一定。農業生産関数・国際貿易の重力方程式・需要分析などで広く使われる。

Translog 型（超対数関数形）

\[ \ln(y) = \beta_0 + \beta_1 \ln(x_1) + \beta_2 \ln(x_2) + \beta_3 [\ln(x_1)]^2 + \beta_4 [\ln(x_2)]^2 + \beta_5 \ln(x_1)\ln(x_2) + u \]

Translog の特徴：Cobb-Douglas より柔軟で、変数間の補完性・代替性を捉えられる。
問題点：集計データを使うと、説明変数間の相関が高くなり（多重共線性の問題）、仮定 OLS.4（説明変数間の完全線形独立）に違反する可能性がある。

Cobb-Douglas

弾力性が定数（パラメータ \(\beta\) に等しい）
パラメータ数が少なく、多重共線性が生じにくい
農業・貿易・マクロ生産関数で標準的
\(\ln y\) に対する OLS で簡単に推定できる

Translog

弾力性が変数の値に応じて変化（柔軟性）
投入要素の代替弾力性・補完性を測定可能
パラメータ数が多く、集計データでは多重共線性が問題になりやすい
費用関数・生産フロンティアの推定で使われる

SECTION 11

多重共線性（Multicollinearity）

説明変数間の相関が高すぎる場合（仮定 OLS.4 の違反）、推定が不安定になる。これを多重共線性（multicollinearity）と呼ぶ。

問題の本質は、行列 \(X'X\) が逆行列をもたない（または逆行列が不安定になる）ことにある。これにより推定値が不安定になり、標準誤差が大きくなったり、係数の符号・大きさが期待と異なる値になったりする。

完全多重共線性の例

性別ダミーの同時投入

男性ダミー（male）と女性ダミー（female）を同時に使う場合：\(\text{male}_i = 1 - \text{female}_i\) が全観測で成立するため、\(X'X\) 行列が特異（singular）になる。

線形従属な変数の同時投入

年齢・就学年数・卒業後年数を同時に使う場合：\(\text{年齢} = 6 + \text{就学年数} + \text{卒業後年数}\) が全観測で成立するため、\(X'X\) 行列が特異になる。

高い相関（不完全多重共線性）

年齢と経験年数が高い相関をもつ場合：2変数の個別効果を識別しにくくなる。

診断と対処

正式な検定：分散膨張因子（VIF, Variance Inflation Factor）

VIF が大きい（一般に VIF > 10 を問題の目安とする）変数を疑う。

変数の除外

多重共線性の原因となっている変数を 1 つ以上除外する。どの変数を除くかは経済理論・研究目的に基づいて判断する。

SECTION 12

外れ値（Outlier）

OLS は残差の二乗和を最小化するため、極端に大きな残差（外れ値）に対して非常に敏感である。外れ値の有無によって推定値が大きく変わることがある。

外れ値が存在するとき、OLS はその外れ値のために特に大きな残差が発生しないよう係数を調整しようとする。その結果、外れ値を含む場合と含まない場合で推定結果が大きく異なることがある。

対処法

極端な観測値の除外

各変数のヒストグラムおよび OLS 残差のヒストグラムを確認する
極端な観測値（例：上位 1 % ・下位 1 %）を除外する

ウィンソライズ（Winsorizing）

分布の裾を打ち切るのではなく「調整」する方法
例：99 % ウィンソライズでは、第 1 百分位数以下の値を第 1 百分位数の値に、第 99 百分位数以上の値を第 99 百分位数の値に置き換える
近年、ファイナンス分野の研究で比較的一般的になっている

ウィンソライズの詳細：Verbeek (2013), p.50。原典 P.42 脚注12。

SECTION 13

参考文献（References）

Bellemare, Marc F., and Casey J. Wichman. 2020. "Elasticities and the Inverse Hyperbolic Sine Transformation." Oxford Bulletin of Economics and Statistics 82(1): 50–61. doi:10.1111/obes.12325.
Burger, M., Van Oort, F., & Linders, G. J. (2009). "On the specification of the gravity model of trade: zeros, excess zeros and zero-inflated estimation." Spatial Economic Analysis, 4(2), 167–190.
Duan, N. (1983). "Smearing estimate: A nonparametric retransformation method." Journal of the American Statistical Association, 78, 605–610.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. with Applications in R. New York: Springer. Available online.
Kennedy, P. E. (1981). "Estimation with correctly interpreted dummy variables in semilogarithmic equations." American Economic Review 71, 801.
Mitchell, M. N. (2012). Interpreting and visualizing regression models using Stata. Stata Press books.
Schlenker, W., & Roberts, M. J. (2009). "Nonlinear temperature effects indicate severe damages to US crop yields under climate change." Proceedings of the National Academy of Sciences, 106(37), 15594–15598.
Silva, J. S., & Tenreyro, S. (2006). "The log of gravity." Review of Economics and Statistics, 88(4), 641–658.
van Garderen, J.K., Shah, C. (2002). "Exact interpretation of dummy variables in semilogarithmic equations." Econometrics Journal 5, 149–159.

出典：原典 P.42–43。なお参照文献として Wooldridge, Introductory Econometrics (IE), Ch.3, 6, 7 も本章全体の基礎となっている。