数量経済分析(17) モデル選択 ― 全文和訳

図解で読む原文に忠実な和訳

Spring 2026 ／ Kentaro Kawasaki

モデル選択Model Selection

［参考文献］Cameron, ch.7–8、Wooldridge, IE, ch.6。

本節では、モデル選択の手続きをまとめる。

ネスト型 vs 非ネスト型Nested vs Nonnested

2つのモデルは、一方が他方の特殊ケース（special case）である場合にネスト型（nested）であると言われる。一方、いずれのモデルも他方の特殊ケースとして表せない場合には非ネスト型（nonnested）である。

次の例では、Model 1 と Model 2 はネスト型である。なぜなら \(\beta_3 = \beta_4 = 0\) とすれば Model 2 は Model 1 に帰着する（すなわち Model 1 は Model 2 の特殊ケースである）からである。同様に、Model 1 と Model 3 もネスト型である。しかし、Model 2 と Model 3 は非ネスト型である。

\[ \text{Model 1:}\quad y = \beta_1 + \beta_2 x_2 + u \]

\[ \text{Model 2:}\quad y = \beta_1 + \beta_2 x_2 + \beta_3 x_3 + \beta_4 x_4 + u \]

\[ \text{Model 3:}\quad y = \beta_1 + \beta_2 x_2 + \beta_5 x_5 + u \]

ネスト型モデル間の判別は、一方のモデルを他方に帰着させるパラメトリックな制約（parametric restrictions）に対する標準的な仮説検定（hypothesis test）を用いて行うことができる。

しかし非ネスト型の場合には、代替的な手法を新たに用意する必要がある。

ネスト型の場合Nested case

Wald 検定（Wald test）を用いる。これは t 検定（単一の係数を検定する場合）または F 検定（複数の係数を検定する場合）としても知られている。Wald 検定は有意性検定（significance test）である。

Stata では、Wald 検定は「test」コマンドを用いて実行できる。

例：上の例で Model 1 と Model 2 を検定するには、F 検定を用いて \(\beta_3 = \beta_4 = 0\) であるか否かを検定する。帰無仮説（\(\beta_3 = \beta_4 = 0\)）が棄却される場合（p 値 \(<\) 0.1）には Model 2 が選好され、その逆もまた成り立つ。

モデルが最尤法（maximum likelihood）で推定される場合には、尤度比検定（likelihood ratio, LR test）やラグランジュ乗数検定（Lagrange multiplier, LM test）を用いることもできる。Wald 検定とこれら2つの検定は漸近的に同値（asymptotically equivalent）であるため、計算の容易さと有限標本における性能（finite-sample performance）に基づいて、これらのうちから選択することになる。（Verbeek, ch.6.2、Cameron, ch.7.3 を参照）

非ネスト型の場合Nonnested case

モデルが最尤法で推定される場合には、赤池情報量規準（Akaike information criterion, AIC）またはベイズ情報量規準（Bayesian information criterion, BIC）を用いる。

モデルが最尤法で推定されない場合（例：OLS）には、簡便な方法として、調整済み \(R^2\)（adjusted R-squared）を用いて予測能力を比較することが挙げられる。

非尤度の場合に非ネスト型モデル間を判別するための形式的検定（formal tests）は、しばしば次の2つのアプローチのいずれかをとる。人工的ネスティング（artificial nesting）は、2つの非ネスト型モデルをより一般的な人工的モデルに埋め込むものであり、いわゆる J 検定（J tests）や

P 検定（P tests）および関連する検定へとつながる。エンコンパッシング原理（encompassing principle）は、あるモデルを競合する非ネスト型モデルに対して検定するための、きわめて一般的な枠組みへとつながる。

この文献の概要については、Verbeek, ch.3.2.3、Greene, ch.5、または Davidson and MacKinnon (1993, chapter 11) を参照のこと。

\(y\) の異なる関数形を比較するComparing different functional form for y

上で述べた検定は、同一の被説明変数（the same dependent variable）に対してのみ適用可能である。

2つのモデルが \(y\) について異なる関数形をもつ場合（例：\(y\) と \(\log(y)\)）には、代替的な方法を用いるべきである。

線形モデル vs 対数線形モデルlinear model vs log-linear model

次の2つのモデルを推定したとしよう。

\[ y = \mathbf{x}\alpha + v \]

\[ \log(y) = \mathbf{x}\beta + u \]

モデルの性能をどのように比較すればよいだろうか。

指数をとって線形モデルと比較したくなるかもしれない（すなわち \(y_{\text{predict}} = \exp[\log(y)] = \exp[\mathbf{x}\beta]\)）。しかし、\(\log(y)\) のモデルから \(y\) を予測することは一筋縄ではいかない（「OLS: Practical issues」節を参照）。次の手順に従うべきである（Wooldridge, IE, ch.6）。

対数線形モデルを推定し、\(\log(y)\) の予測値（fitted values）を得る。
予測値を用いて \(m \equiv \exp[\log(y)]\) を計算する。
\(y\) を \(m\) に対して定数項なし（without intercept）で回帰する。推定された係数を \(\hat{\alpha}\) と表す。
\(y_{\text{predict}} \equiv \hat{\alpha}\,\exp[\log(y)]\) を計算する。
\(y_{\text{predict}}\) と実際の \(y\) の相関係数の2乗（square of correlation coefficient）を計算する。
これと線形モデルから得られる \(R^2\) を比較する。前者の方が高ければ、対数線形モデルの方がデータによりよく適合している。

その他の方法（Box-Cox 変換（Box-Cox transformation）やエンコンパッシング・アプローチを含む）も利用可能である。Verbeek (2012) ch. 3.2.3 を参照。

異なる推定量を比較するComparing different estimators

OLS か 2SLS か？　FE か RE か？

Hausman 検定（Hausman test）を用いる。

プロビットモデルの正規性検定Normality test for probit model

連続的に観察される変数については、正規性検定は通常、歪度（skewness, 第3モーメント）と超過尖度（excess kurtosis, 第4モーメント）を調べる。

しかしプロビットモデルでは、誤差項は直接には観察できない。

したがって、正規性を特殊ケースとして含むより一般的なモデルを推定し、正規性が成立するか否かを検定すべきである。

正規性の下では（標準的なプロビットモデルにおけるように）、次が成り立つ。

\[ P(y=1) = P(y^* > 0) = P(\mathbf{x}\beta + u > 0) = P(u > -\mathbf{x}\beta) = 1 - \Phi(-\mathbf{x}\beta) = \Phi(\mathbf{x}\beta) \]

より一般的な Pearson 型分布（Pearson distributions）の下では、次が成り立つ。

\[ P(y=1) = \Phi\!\left(\mathbf{x}\beta + \gamma_2 (\mathbf{x}\beta)^2 + \gamma_3 (\mathbf{x}\beta)^3\right) \]

正規性は \(\gamma_2 = \gamma_3 = 0\) を要請する。これはラグランジュ乗数（Lagrange multiplier, LM）の枠組みの下で容易に検定できる。

Verbeek (2012) ch. 7.1.7 を参照。

仕様探索：General-to-specific 法Specification Search: General-to-specific method

（Klomp and de Haan 2013）

General-to-specific 法（一般から特殊へ）：この手法は経済理論には依拠しないが、モデルの仕様（model specification）を決定するために応用計量経済学で広く用いられている手法である。

まず、すべてのコントロール変数を含むモデルを推定する。

次に、最も有意でない変数（the least significant variable）を落として、モデルを再び推定する。

10% 水準で有意な変数のみが残るまで、この手続きを繰り返す。

Stata では「stepwise」を用いる。

機械学習Machine Learning

コントロール変数の最良の組み合わせを見つけることが、機械学習における主たる焦点である。

計量経済学と機械学習の主たる違いは、計量経済学の主目的が因果関係（causality）を明らかにすることであるのに対し、機械学習の主目的は予測（prediction）であり、したがって因果関係は重視されない、という点にある。

機械学習の入門については James et al (2013) および Hastie et al (2001) を、経済学への応用については Mullainathan and Spiess (2017) を参照のこと。

参考文献References

Davidson, R., and J. G. MacKinnon (1993), Estimation and Inference in Econometrics, Oxford, Oxford University Press.
Hastie, T., Tibshirani, R., and Friedman, J. (2008). The elements of statistical learning. Second edition. New York: Springer series in statistics. Available online.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. with Applications in R. New York: springer. Available online.
Klomp, J., & de Haan, J. (2013). Conditional election and partisan cycles in government support to the agricultural sector: an empirical analysis. American Journal of Agricultural Economics, 95(4) 793–818.
Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2), 87–106.
Verbeek, M. (2012) A Guide to Modern Econometrics (4th edition). Wiley.