数量経済分析 図解ポータル
Chapter 15  ·  Part IV 制限従属変数モデル  ·  原典 P.91–93

その他の制限従属変数モデル

コーナー応答・打ち切り・切断・標本選択の分類から始まり、カウントデータ(ポアソン回帰・過分散・負の二項回帰)、順序モデル(順序プロビット/ロジット)、分数モデル、フロンティアモデル、存続期間モデルを体系的に整理する。

カウントデータ ポアソン回帰 過分散 順序モデル 順序プロビット
川崎賢太郎(東京大学大学院農学生命科学研究科) 原典 P.91–93 Other Limited Dependent Variable Models
図解で読む 原文に忠実な和訳
Contents
  1. 01. 制限従属変数モデルの全体像
  2. 02. コーナー応答モデル
  3. 03. 打ち切りデータモデル
  4. 04. 切断データ・偶発的切断
  5. 05. 4類型の比較表
  6. 06. カウント応答モデル
  7. 07. 存続期間(サバイバル)モデル
  8. 08. フロンティアモデル
  9. 09. 順序モデル
  10. 10. 分数モデル
  11. 11. 参考文献
SECTION 01

制限従属変数モデルの全体像

制限従属変数(limited dependent variable)モデルは、従属変数 \(y\) の取りうる値が制限されている場合に用いる。二値・多項選択以外にも、コーナー応答・打ち切り・切断・カウント・順序など多様な型がある。

本章では Wooldridge (2010) 第16–19章および Greene の第19章に対応する諸モデルを俯瞰する。モデルの選択は、欠測データの有無とランダム・サンプリングの可否という2つの問いによって整理できる。

参照文献:Wooldridge (2010), ch.16–19; Greene, ch.19。本章の整理は原典 P.91–93 に基づく。
SECTION 02

コーナー応答モデル(Corner Response)

コーナー応答(corner response)とは、\(y\) の範囲が制限されていること(例:\(a \le y \le b\))から生じる。欠測データではなく、ランダムサンプリングは成立している

Corner response: \(a \le y \le b\) due to limited nature of \(y\) range.
(コーナー応答:\(y\) の範囲の制限性により \(a \le y \le b\)。)

典型例:「1日に何時間働くか?」→ \(0 \le y \le 24\)。

最も一般的なケースは \(y \ge 0\) であり、このとき \(s = 1\) if \(y > 0\)、\(s = 0\) if \(y = 0\) と定義する。3つのアプローチがあり、後者ほど柔軟性が高い。

1

タイプ I トービット(Type I Tobit)モデル ― 最も制約が強い

\(y_i = \max(0,\, x_i\beta + u_i)\) を仮定する。すなわち \(y\) と参加決定 \(s\) が同一のメカニズム \(x_i\beta + u_i\) に従う。

2

ハードルモデル(Hurdle model)― 中程度の柔軟性

\(y\) と \(s\) に別々のメカニズムを仮定する:

\[ y = x_1\beta_1 + u_1, \quad s = \mathbf{1}[x_2\beta_2 + u_2 > 0] \]

\(u_1\) と \(u_2\) は無相関と仮定する。

3

タイプ II トービット(Type II Tobit)モデル ― 最も柔軟

ハードルモデルと同じく \(y\) と \(s\) に別々のメカニズムを置くが、\(u_1\) と \(u_2\) が相関していることを許容する。「選択モデル(selection model)」または「指数型タイプ II トービットモデル」とも呼ばれる。

注意:タイプ II トービットは「選択モデル(selection model)」とも呼ばれるが、この名称は誤解を招く。標本選択(sample selection)問題とは異なる概念であることに留意すること。
データの性質:コーナー応答モデルでは欠測データは存在しない。ランダムに選ばれた観測について \(y\) と \(x\) を完全に観察できる。コーナー応答モデルと、変数や観測が欠落する類似モデルを混同しないこと。
SECTION 03

打ち切りデータモデル(Censored Data)

打ち切りデータ(censored data)では、調査設計の都合により \(y\) が不完全にしか観察できない(\(y\) が部分的に欠落する)。

Censored data: \(y\) is observed imperfectly (\(y\) is partially missing) due to survey design.
(打ち切りデータ:調査設計の都合により \(y\) が不完全にしか観察されない(\(y\) が部分的に欠落する)。)
区間

区間打ち切り(Interval censoring)

\(y\) が区間で記録される。例:「1日に何時間勉強するか?」→「0〜1時間」「1〜2時間」など。

上下

上限・下限打ち切り(Censoring from above or below)

\(y\) は資産額で、10億ドルで上限カットされる(top-coded)。真の資産は10億ドルを超えうるが、観察値は10億ドルとなる。

二値

二値打ち切り(Binary censoring)

真の \(y\) がある閾値を超えるかどうかのみ分かる。例:「森林破壊を防ぐために100ドル支払う意思があるか?」これはプロビット/ロジットと似ているが、変数の関心対象が異なる:ここでは潜在変数そのもの(真の支払意思額)が関心対象であるのに対し、プロビットでは潜在変数は関心対象ではない。

SECTION 04

切断データ・偶発的切断(Truncated & Incidental Truncation)

以下の2つのケースは「標本選択モデル(sample selection model)」と呼ばれ、標本が非ランダムに抽出されることによって欠測データ問題が生じる。

切断データ(Truncated data)

  • 標本が \(y\) の値に基づき非ランダムに選ばれる(調査・プログラム設計による)。
  • \(y\) と \(x\) の両方が欠落する。
  • 例:所得が100万円未満の世帯のみを調査対象とする。
  • 推定手法:切断トービット(切断正規回帰)。Wooldridge (2010) §19.5 参照。

偶発的切断(Incidental truncation)

  • 標本が非ランダムに選ばれるが、その選択は調査対象単位の行動・意思決定による。
  • \(y\) のみが欠落する(\(x\) は観察できる)。
  • 例:\(y\) = 賃金。就業者についてのみ \(y\) を観察でき、就業するかどうかは個人が決定する。
  • 推定手法:ヘックマンモデル(Heckit、タイプ II トービット)およびその拡張。Wooldridge (2010) §19.6 参照。
Professor Note

偶発的切断の代表的なモデルであるヘックマンモデルは次章(第16章「標本選択モデル」)でより詳しく扱う。

原典 P.91 末尾:"This model is covered in more detail in the next chapter."
SECTION 05

4類型の比較表

欠測データの有無とランダムサンプリングの可否を軸に、4つのモデル類型を整理する。

TABLE — 制限従属変数モデルの4類型(原典 P.91 表)
類型 欠測データ? ランダムサンプリング? 主な推定手法 Wooldridge (2010) 章
コーナー応答
Corner response
なし あり タイプ I Tobit、ハードルモデル、タイプ II Tobit(選択モデル、指数型タイプ II Tobit) 17
打ち切りデータ
Censored data
あり(\(y\) が打ち切り) あり 打ち切りメカニズムに依存(二値・区間・上下限) 19.2
切断データ
Truncated data
あり(\(y\) と \(x\) の両方) なし(調査設計による) 切断トービット(切断正規回帰) 19.5
偶発的切断
Incidental truncation
あり(\(y\) のみ) なし(対象単位の意思決定による) ヘックマンモデル(Heckit、タイプ II Tobit)およびその拡張 19.6
SECTION 06

カウント応答モデル(Count Response)

カウント応答(count response)とは、\(y = 0, 1, 2, 3, \dots\) のような非負整数をとる従属変数に対するモデルである。

Count response: \(y = 0, 1, 2, 3, \ldots\)
e.g. how many times do you visit the doctor a year?
(カウント応答:\(y = 0, 1, 2, 3, \dots\)。例:年に何回医者に行くか?)
多項選択モデルとの違い:ポアソンモデルでは \(y\) が量的な意味をもつ(0回、1回、2回…の差が重要)。一方、多項選択モデルの \(y\) は単に選択肢を表すだけで量的意味をもたない。
補足の範囲について:原典 P.92 のカウント応答の記述は「定義・例(年に何回医者に行くか)・多項選択モデルとの違い・Lord and Mannering (2010) の手法一覧」までである。以下のポアソン回帰/過分散/負の二項回帰の定式化は、原典には式の記載がなく、標準的な計量経済学の背景知識として補ったものである。

ポアソン回帰(Poisson Regression)(標準的背景・原典に式なし)

ポアソン回帰は最も基本的なカウントデータモデルである。条件付き期待値を次のように定式化する。

\[ E[y \mid x] = \exp(x\beta) \]

ポアソン分布では \(E[y \mid x] = \mathrm{Var}[y \mid x]\)(平均と分散が等しい)という仮定をおく。しかし現実のカウントデータではしばしばこの仮定が成立しない。

過分散(Overdispersion)と負の二項回帰

過分散(overdispersion):現実のデータでは \(\mathrm{Var}[y \mid x] > E[y \mid x]\) となることが多い(ポアソン仮定の違反)。この場合、ポアソン回帰のパラメータ推定は一致性をもつが、標準誤差は過小推定になる。

ポアソン回帰(Poisson)

  • 条件付き分布がポアソン分布
  • \(E[y \mid x] = \mathrm{Var}[y \mid x] = \exp(x\beta)\)
  • 等分散(equidispersion)を仮定
  • 過分散があっても QMLE(準最尤)として一致推定量
  • 過分散のとき標準誤差は過小推定(頑健標準誤差が必要)

負の二項回帰(Negative Binomial)

  • ポアソン強度パラメータ自体に確率的変動(異質性)を導入
  • \(\mathrm{Var}[y \mid x] > E[y \mid x]\) を明示的にモデル化
  • 過分散を許容する柔軟なモデル
  • 適合度はポアソンより改善されることが多い
参照文献

カウントデータに関する各種手法のサーベイとしては Lord and Mannering (2010) が詳しい。

Lord, D., & Mannering, F. (2010). The statistical analysis of crash-frequency data: a review and assessment of methodological alternatives. Transportation Research Part A: Policy and Practice, 44(5), 291–305.

Lord & Mannering (2010) による手法一覧(原典 P.92 表 ― 主要モデルの抜粋)

TABLE — カウントデータ分析の主要手法とその特徴・短所
手法 特徴(Advantage) 短所(Disadvantage)
ポアソン
Poisson
最も基本的なモデル、推定が容易 過分散・過少分散のいずれも扱えない;低サンプル平均・小標本バイアスの影響を受ける
負の二項
Negative Binomial
推定が容易;過分散に対応できる 過少分散を扱えない;低サンプル平均・小標本バイアスの影響を受けうる
ゼロ過剰ポアソン
Zero-inflated Poisson
ゼロ観測が極めて多いデータを扱える 理論的な不整合を生じうる;低サンプル平均・小標本バイアスの影響も受けうる
コンウェイ-マクスウェル-ポアソン
Conway-Maxwell-Poisson
可変分散(スケーリング)パラメータにより過少分散・過分散やその組合せを扱える 低サンプル平均・小標本バイアスの影響を受けうる;多変量への拡張が未整備
一般化推定方程式
Generalized estimating equations
時間的相関を扱える 時間相関の型を事前に決める/評価する必要がある;欠測値に敏感
ランダム・パラメータ
Random-parameters
従来の固定パラメータモデルより柔軟で、観測されない異質性に対応できる 推定が複雑;他のデータセットへの転用が容易でないことがある
有限混合/マルコフ転換
Finite mixture/Markov switching
データ中の分散の発生源を分析するのに使える 推定が複雑;他のデータセットへの転用が容易でないことがある
ニューラルネット・サポートベクターマシン等
Neural networks, support vector machine, etc.
ノンパラメトリックで分布の仮定が不要;柔軟な関数形で、通常は従来手法より良い統計的適合 ブラックボックスとして機能し、解釈可能なパラメータを持たないことがある
出典:Lord & Mannering (2010) Table 2(原典 P.92)。全16モデルのうち主要モデルを抜粋。
SECTION 07

存続期間(サバイバル)モデル(Duration / Survival Model)

存続期間モデル(duration model)では、ある事象が発生するまで/発生してからの経過時間がアウトカムとなる。

Outcome is time elapsed until/after a certain event occurs.
(アウトカムは、ある事象が発生するまで/発生してからの経過時間である。)
Example 01

失業継続週数

失業してから再就職するまでに経過した週数。

Example 02

治療後の生存期間

医療処置後における生存時間。

存続期間モデルはカウントデータや順序モデルとは異なり、時間という連続量が従属変数となる点が特徴である。(原典 P.92 の記述は定義と例「失業継続週数・治療後の生存期間」までで、ハザード関数などの推定手法には踏み込んでいない。)
SECTION 08

フロンティアモデル(Frontier Model)

フロンティアモデルでは、アウトカム(例:収量)がフロンティア(最大可能産出量)から非効率性項を引いたものとして定式化される。

\[ y = x\beta + u - v, \quad v \ge 0,\; u \sim N(0,\, \sigma^2) \]
記号意味
\(x\beta\)フロンティア(技術的に達成可能な最大産出量)
\(v\)非効率性項(inefficiency term)。\(v \ge 0\) の一側誤差
\(u\)通常の対称誤差項(\(u \sim N(0, \sigma^2)\))
Outcome (e.g. yield) is the frontier (\(x\beta\)) minus inefficiency term (\(v\)).
(アウトカム(例:収量)は、フロンティア(\(x\beta\))から非効率性項(\(v\))を引いたものである。)
Millimet and Parmeter (2022) は、\(y\) が一側測定誤差(one-sided measurement error)を含む場合にもフロンティアモデルを応用できることを示している。
参照文献

Millimet, D.L. & Parmeter, C.F. (2022) Accounting for Skewed or One-Sided Measurement Error in the Dependent Variable. Political Analysis. vol. 30: 66–88. DOI: 10.1017/pan.2020.45

SECTION 09

順序モデル(Ordered Model)

順序モデル(ordered model)は、アウトカムに順序はあるが、カテゴリ間の量的差が一定でない場合に用いる。

Outcomes have an ordered nature.
(アウトカムは順序をもつ。)
Example 01

数学テストの成績

A、B、C、D または E。順序はあるが「AとBの差」が「DとEの差」と同じとは限らない。

Example 02

健康状態

「良い(good)」「普通(normal)」「悪い(poor)」。

補足の範囲について:原典 P.93 の順序モデルの記述は「アウトカムが順序をもつこと」と上記2つの例のみで、潜在変数・閾値・確率式などの定式化は記載されていない。以下の順序プロビット/ロジットの導出は、標準的な計量経済学の背景知識として補ったものである。

順序プロビット・順序ロジット(Ordered Probit / Ordered Logit)(標準的背景・原典に式なし)

潜在変数 \(y^*\) を以下のように定義する。

\[ y^* = x\beta + u \]

観察される順序カテゴリ \(y\) は、閾値(threshold / cutpoint)\(\alpha_1 < \alpha_2 < \cdots < \alpha_{J-1}\) を用いて次のように決まる。

\[ y = j \quad \text{if} \quad \alpha_{j-1} < y^* \le \alpha_j, \quad j = 1, 2, \dots, J \]

ここで \(\alpha_0 = -\infty\)、\(\alpha_J = +\infty\) と定義する。

\(u\) が標準正規分布に従う場合を順序プロビット(ordered probit)、ロジスティック分布に従う場合を順序ロジット(ordered logit)と呼ぶ。

各カテゴリに対応する確率は以下のようになる: \[ P(y = j \mid x) = \Phi(\alpha_j - x\beta) - \Phi(\alpha_{j-1} - x\beta) \] (順序プロビットの場合、\(\Phi\) は標準正規分布の累積分布関数)。閾値 \(\alpha_1, \dots, \alpha_{J-1}\) とパラメータ \(\beta\) は最尤法で同時推定する。
解釈上の注意:順序モデルでは \(\beta\) の符号は \(y^*\) に対する効果の方向を示すが、各カテゴリへの限界効果はカテゴリによって符号が変わりうる。すべてのカテゴリに対する限界効果を確認すること。
SECTION 10

分数モデル(Fractional Model)

分数モデル(fractional model)は、従属変数が割合・シェアである場合(\(y \in [0, 1]\))に用いる。

\(y\) is fraction (share): \(y \in [0, 1]\).
e.g. \(y\) = % student pass the test. \(x\) = teacher-student ratio, etc.
(\(y\) は割合(シェア):\(y \in [0, 1]\)。例:試験合格率。\(x\) は教師・生徒比率など。)

トービットモデルとの違い

分数モデルが適切な場合

  • 従属変数が割合・シェアで \(y \in [0, 1]\)
  • 0や1に観測が十分にない場合でも適用可能
  • 正規性の仮定が不要(Papke & Wooldridge 1996, 2008)
  • 典型的な推定法(Papke & Wooldridge のアプローチ)では、ロジスティック関数で条件付き平均を定式化し準最尤で推定する ※原典には手法の式の記載なし

トービットモデルが適切な場合

  • ゼロまたは1に十分な数の観測がある場合
  • 従属変数の正規性を仮定できる場合
  • 原典の要点:トービットを適用するにはゼロ・一の観測が十分にあることが前提となる
分数モデルの利点:トービットモデルでは必要な正規性の仮定が分数モデルでは不要である(Papke & Wooldridge 1996, 2008; Ramalho et al. 2011)。分数データには分数モデルの方が一般に適合する。
SECTION 11

参考文献(References)

  • Lord, D., & Mannering, F. (2010). The statistical analysis of crash-frequency data: a review and assessment of methodological alternatives. Transportation Research Part A: Policy and Practice, 44(5), 291–305.
  • Millimet, D.L. & Parmeter, C.F. (2022) Accounting for Skewed or One-Sided Measurement Error in the Dependent Variable. Political Analysis. vol. 30: 66–88. DOI: 10.1017/pan.2020.45
  • Papke, L.E., and J.M. Wooldridge. 1996. Econometric Methods for Fractional Response Variables with an Application to 401(K) Plan Participation Rates. Journal of Applied Econometrics 11: 619–632.
  • Papke, L.E., and J.M. Wooldridge. 2008. Panel Data Methods for Fractional Response Variables with an Application to Test Pass Rates. Journal of Econometrics 145: 121–133.
  • Ramalho, E.A., Ramalho, J.J., & Murteira, J.M. (2011). Alternative estimating and testing empirical strategies for fractional regression models. Journal of Economic Surveys, 25(1), 19–68.
  • Greene, W.H. Econometric Analysis. ch.19.
  • Wooldridge, J.M. (2010). Econometric Analysis of Cross Section and Panel Data. 2nd ed., ch.16–19.
出典:原典 P.93。