Chapter 17 · Part IV 制限従属変数モデル · 原典 P.97–99

モデル選択

ネスト型モデルの検定（Wald・LR・LM）と非ネスト型モデルの検定（J検定・エンコンパッシング原理）を対比し、情報量規準（AIC・BIC）・関数形の比較・Hausman検定・General-to-specificアプローチ・機械学習との関係を一望する。

モデル選択ネスト/非ネストエンコンパッシング J検定情報量規準

川崎賢太郎（東京大学大学院農学生命科学研究科）原典 P.97–99 Model Selection

図解で読む原文に忠実な和訳

Contents

01. モデル選択の概観
02. ネスト型 vs 非ネスト型
03. ネスト型モデルの検定
04. 非ネスト型モデルの検定
05. 関数形の比較（y vs log y）
06. 推定量の比較（Hausman検定）
07. プロビットの正規性検定
08. General-to-Specific 法
09. 機械学習との関係
10. 参考文献

SECTION 01

モデル選択の概観

実証分析では、複数のモデルのうちどれを採用するかを決める「モデル選択（model selection）」が不可欠である。選択の方法はモデルの関係（ネスト型か非ネスト型か）によって異なる。

本章では、モデル選択の手続きを整理する。参考文献として Cameron (ch.7–8)・Wooldridge IE ch.6 が挙げられている。

モデル選択の第一歩は、比較する2モデルが「ネスト型（nested）」か「非ネスト型（nonnested）」かを判定することである。この判定によって使用できる検定手法が変わる。

SECTION 02

ネスト型 vs 非ネスト型

一方のモデルが他方の特殊ケースになれる場合をネスト型（nested）、どちらも相手の特殊ケースにならない場合を非ネスト型（nonnested）と呼ぶ。

Two models are said to be nested if one is a special case of the other, while they are nonnested if neither can be represented as a special case of the other.

一方のモデルが他方の特殊ケースである場合、2つのモデルはネスト型であると言う。どちらも相手の特殊ケースとして表せない場合は非ネスト型である。

以下の3つのモデルを例に取る。

\[ \text{Model 1:}\quad y = \beta_1 + \beta_2 x_2 + u \]

Model 1

\[ \text{Model 2:}\quad y = \beta_1 + \beta_2 x_2 + \beta_3 x_3 + \beta_4 x_4 + u \]

Model 2

\[ \text{Model 3:}\quad y = \beta_1 + \beta_2 x_2 + \beta_5 x_5 + u \]

Model 3

ネスト型のペア

Model 1 と Model 2：\(\beta_3 = \beta_4 = 0\) とおくと Model 2 が Model 1 に帰着する。すなわち Model 1 は Model 2 の特殊ケース。
Model 1 と Model 3：同様に、\(\beta_5 = 0\) とおくと Model 3 が Model 1 に帰着する。

非ネスト型のペア

Model 2 と Model 3：Model 2 に含まれる \(x_3, x_4\) は Model 3 にはなく、Model 3 に含まれる \(x_5\) は Model 2 にはない。どちらも相手の特殊ケースにはなれない。

ネスト型モデル間の判別は、一方を他方に帰着させるパラメトリック制約に対する標準的な仮説検定で行える。非ネスト型の場合は代替的な手法が必要となる。

SECTION 03

ネスト型モデルの検定

ネスト型モデルには Wald 検定（t 検定・F 検定）を使う。最尤推定の場合は尤度比（LR）検定やラグランジュ乗数（LM）検定も利用できる。

Wald 検定（有意性検定）

Wald 検定は 有意性検定（significance test） である。単一係数の検定には t 検定、複数係数の同時検定には F 検定を用いる。Stata では test コマンドで実行できる。

例：Model 1 vs Model 2 の検定。 F 検定で \(\beta_3 = \beta_4 = 0\) を検定する。帰無仮説（\(\beta_3 = \beta_4 = 0\)）が棄却された場合（p 値 < 0.1）は Model 2 が、棄却されない場合は Model 1 が選好される。

最尤推定の場合の3つの漸近同値検定

モデルが最尤法（maximum likelihood）で推定される場合、Wald 検定に加えて以下の2つの検定も利用できる。3つの検定は 漸近的に同値（asymptotically equivalent） であり、計算の容易さや有限標本でのパフォーマンスに基づいて選択する。

Wald 検定（Wald test）

制約を課さない推定量に基づく検定。Stata の test コマンド。

尤度比検定（Likelihood Ratio test）

制約あり・なしの対数尤度の差に基づく。\(\text{LR} = -2(\ell_{\text{restricted}} - \ell_{\text{unrestricted}})\) が漸近的に \(\chi^2\) 分布に従う。

ラグランジュ乗数検定（Lagrange Multiplier test）

スコア検定（score test）とも呼ばれる。制約あり推定量のみを必要とする。

参照：Verbeek ch.6.2、Cameron ch.7.3。

SECTION 04

非ネスト型モデルの検定

非ネスト型の比較には、情報量規準（AIC・BIC）、調整済み \(R^2\) の比較、人工的ネスティングによる J 検定・P 検定、そしてエンコンパッシング原理がある。

最尤推定の場合

AIC（赤池情報量規準）：\(\text{AIC} = -2\ell + 2k\)（\(k\) はパラメータ数）。値が小さいモデルが選好される。
BIC（ベイズ情報量規準）：\(\text{BIC} = -2\ell + k\ln n\)（\(n\) は標本数）。標本数が多いほど複雑さへのペナルティが大きく、より厳しい選択基準。

※ AIC・BIC の式は一般的な定義。原典 P.97 は名称への言及のみで式は示していない。

非最尤（例：OLS）の場合

調整済み \(R^2\) の比較：予測能力を比較するシンプルな方法。ただし同一の被説明変数をもつモデル間でのみ有効。
J 検定・P 検定：人工的ネスティング（artificial nesting）により2つの非ネスト型モデルをより一般的な人工モデルに埋め込む形式的検定。
エンコンパッシング原理：競合する非ネスト型モデルに対して一方のモデルをテストする、きわめて一般的な枠組み。

人工的ネスティング（Artificial nesting）とは、2つの非ネスト型モデルを「より一般的な人工モデル」に埋め込み、その人工モデルの中でそれぞれのモデルに対応する制約を検定するアプローチである。これにより J 検定・P 検定等の形式的検定が導かれる。

エンコンパッシング原理（Encompassing principle）は、競合する非ネスト型モデルをテストするための一般的な枠組みを与える。モデル A が「モデル B の性質を包含（encompass）できる」かどうかを検定する。

文献まとめ：Verbeek ch.3.2.3、Greene ch.5、Davidson and MacKinnon (1993) chapter 11。

SECTION 05

関数形の比較 ― \(y\) と \(\log y\) のモデル

上述の検定は同一の被説明変数をもつモデル間でのみ適用可能である。\(y\) と \(\log y\) のように被説明変数の関数形が異なる場合は、別途の方法が必要となる。

AIC・BIC・\(R^2\) はいずれも同一の被説明変数をもつモデル間でのみ比較可能である。\(y\) と \(\log y\) を被説明変数とするモデルの直接比較には適用できない。

線形モデル vs 対数線形モデルの比較手順

次の2つのモデルを推定したとする。

\[ y = \mathbf{x}\alpha + v \]

線形モデル

\[ \log(y) = \mathbf{x}\beta + u \]

対数線形モデル

単純に \(y_{\text{predict}} = \exp[\log(y)] = \exp[\mathbf{x}\hat{\beta}]\) として線形モデルと比較したくなるが、\(\log y\) モデルから \(y\) を予測することは一筋縄ではいかない（"OLS: Practical issues" 節参照）。Wooldridge IE ch.6 に従い、以下の手順を踏む。

対数線形モデルを推定し、\(\log y\) の fitted values を求める

\(\widehat{\log y} = \mathbf{x}\hat{\beta}\) を計算する。

\(m \equiv \exp[\widehat{\log y}]\) を計算する

予測値の指数をとる。

\(y\) を \(m\) に定数項なしで回帰し、推定係数 \(\hat{\alpha}\) を得る

定数項なし（without intercept）の回帰であることに注意する。

\(y_{\text{predict}} \equiv \hat{\alpha} \cdot \exp[\widehat{\log y}]\) を計算する

スケール補正済みの予測値を作成する。

\(y_{\text{predict}}\) と実際の \(y\) の相関係数の2乗を計算する

これが対数線形モデルの「\(R^2\) 相当値」となる。

線形モデルの \(R^2\) と比較する

ステップ5の値が線形モデルの \(R^2\) より大きければ、対数線形モデルがデータにより良く適合している。

Professor Note

Box-Cox 変換（Box-Cox transformation）やエンコンパッシング・アプローチを用いた他の方法も利用可能である。

参照：Verbeek (2012) ch. 3.2.3。

SECTION 06

推定量の比較 ― Hausman 検定

OLS か 2SLS か、固定効果（FE）か変量効果（RE）か、といった推定量の選択には Hausman 検定を用いる。

典型的な問い

OLS か 2SLS か？（内生性の有無）
固定効果モデル（FE）か変量効果モデル（RE）か？

Hausman 検定の考え方

帰無仮説：両推定量に系統的な差はなく、ともに一致推定量である（このとき効率的な推定量を採用できる）。
帰無仮説が棄却されれば、効率的な推定量（OLS／RE）は非一致と判断され、頑健な推定量（2SLS／FE）を採用する。

SECTION 07

プロビットモデルの正規性検定

連続変数では歪度・尖度で正規性を検定できるが、プロビットモデルの誤差項は直接観察できない。より一般的なモデルを推定し、正規性を特殊ケースとして検定する必要がある。

連続変数の正規性検定では通常、歪度（第3モーメント、skewness）と超過尖度（第4モーメント、excess kurtosis）を調べる。しかしプロビットモデルでは誤差項 \(u\) が直接観察できないため、このアプローチは使えない。

そこで、正規性を特殊ケースとして含むより一般的なモデルを推定し、正規性が成立するかどうかを検定する。

標準プロビットモデル（正規性の下）

標準プロビットモデルでは潜在変数 \(y^* = \mathbf{x}\beta + u\) を考え、\(y = 1\) となる確率は次式で与えられる。

\[ P(y=1) = P(y^* > 0) = P(\mathbf{x}\beta + u > 0) = P(u > -\mathbf{x}\beta) = 1 - \Phi(-\mathbf{x}\beta) = \Phi(\mathbf{x}\beta) \]

ここで \(\Phi\) は標準正規分布の累積分布関数である。

より一般的な Pearson 型分布の下

より一般的な Pearson 型分布の下では、\(P(y=1)\) は次式で表される。

\[ P(y=1) = \Phi\!\left(\mathbf{x}\beta + \gamma_2 (\mathbf{x}\beta)^2 + \gamma_3 (\mathbf{x}\beta)^3\right) \]

標準プロビット（正規性の仮定）は \(\gamma_2 = \gamma_3 = 0\) に対応する。この制約は ラグランジュ乗数（LM）検定の枠組みで容易に検定できる。

正規性検定：\(\gamma_2 = \gamma_3 = 0\) という帰無仮説を LM 検定で検定する。棄却されれば、標準プロビットモデルの正規性仮定が成立しないことを意味する。

記号	意味
\(\Phi(\cdot)\)	標準正規分布の累積分布関数（CDF）
\(\mathbf{x}\beta\)	説明変数と係数の内積（インデックス）
\(\gamma_2, \gamma_3\)	Pearson 一般化パラメータ。\(\gamma_2 = \gamma_3 = 0\) が正規性に対応

参照：Verbeek (2012) ch. 7.1.7。

SECTION 08

仕様探索 ― General-to-Specific 法

General-to-specific 法（一般から特殊へ法）は、経済理論に依拠しないが、応用計量経済学でモデルの仕様を決める際に広く使われる手法である。

Klomp and de Haan (2013) により代表される手法である。

すべてのコントロール変数を含む一般モデルを推定する

最初から変数を絞り込まず、候補変数を全て含めた「一般モデル（general model）」から出発する。

最も有意でない変数を落として再推定する

t 値・p 値を参照し、最も有意でない変数を1つ除外して再推定する。

10% 水準で有意な変数のみが残るまでステップ2を繰り返す

残った変数が全て10%有意水準を満たすまで逐次的に除外を続ける。

Stata では stepwise コマンドでこの手続きを自動化できる。

General-to-specific 法は 経済理論に依拠しない（does not rely on economic theory） ことに注意する。変数の取捨選択が統計的有意性のみに基づくため、因果推論の観点からは限界がある。

SECTION 09

機械学習との関係

機械学習（machine learning）の主眼はコントロール変数の最良の組み合わせを見つけること（予測）であり、計量経済学の主眼である因果関係の解明とは目的が異なる。

機械学習（ML）

主目的：予測（prediction）
コントロール変数の最良の組み合わせを探索することが主眼。
因果性は重視されない。

計量経済学（Econometrics）

主目的：因果推論（causal inference）
予測精度だけでなく、推定量の一致性・不偏性・識別を重視。
内生性・選択バイアス等の克服が中心課題。

Professor Note ― 参考文献（機械学習）

機械学習の入門書および経済学への応用については以下を参照されたい。

James et al. (2013) An Introduction to Statistical Learning（オンライン無料公開）；Hastie et al. (2001, 2008) The Elements of Statistical Learning（オンライン無料公開）；経済学への応用：Mullainathan and Spiess (2017) "Machine Learning: An Applied Econometric Approach," Journal of Economic Perspectives 31(2), 87–106。

SECTION 10

参考文献（References）

Davidson, R., and J. G. MacKinnon (1993). Estimation and Inference in Econometrics. Oxford: Oxford University Press.
Hastie, T., Tibshirani, R., and Friedman, J. (2008). The Elements of Statistical Learning. Second edition. New York: Springer. Available online.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. New York: Springer. Available online.
Klomp, J., & de Haan, J. (2013). Conditional election and partisan cycles in government support to the agricultural sector: an empirical analysis. American Journal of Agricultural Economics, 95(4), 793–818.
Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2), 87–106.
Verbeek, M. (2012). A Guide to Modern Econometrics (4th edition). Wiley.

出典：原典 P.97–99。