Censored data: \(y\) is observed imperfectly (\(y\) is partially missing) due to survey design. (打ち切りデータ:調査設計の都合により \(y\) が不完全にしか観察されない(\(y\) が部分的に欠落する)。)
カウントデータに関する各種手法のサーベイとしては Lord and Mannering (2010) が詳しい。
Lord, D., & Mannering, F. (2010). The statistical analysis of crash-frequency data: a review and assessment of methodological alternatives. Transportation Research Part A: Policy and Practice, 44(5), 291–305.
Lord & Mannering (2010) による手法一覧(原典 P.92 表 ― 主要モデルの抜粋)
TABLE — カウントデータ分析の主要手法とその特徴・短所
手法
特徴(Advantage)
短所(Disadvantage)
ポアソン Poisson
最も基本的なモデル、推定が容易
過分散・過少分散のいずれも扱えない;低サンプル平均・小標本バイアスの影響を受ける
負の二項 Negative Binomial
推定が容易;過分散に対応できる
過少分散を扱えない;低サンプル平均・小標本バイアスの影響を受けうる
ゼロ過剰ポアソン Zero-inflated Poisson
ゼロ観測が極めて多いデータを扱える
理論的な不整合を生じうる;低サンプル平均・小標本バイアスの影響も受けうる
コンウェイ-マクスウェル-ポアソン Conway-Maxwell-Poisson
可変分散(スケーリング)パラメータにより過少分散・過分散やその組合せを扱える
低サンプル平均・小標本バイアスの影響を受けうる;多変量への拡張が未整備
一般化推定方程式 Generalized estimating equations
時間的相関を扱える
時間相関の型を事前に決める/評価する必要がある;欠測値に敏感
ランダム・パラメータ Random-parameters
従来の固定パラメータモデルより柔軟で、観測されない異質性に対応できる
推定が複雑;他のデータセットへの転用が容易でないことがある
有限混合/マルコフ転換 Finite mixture/Markov switching
データ中の分散の発生源を分析するのに使える
推定が複雑;他のデータセットへの転用が容易でないことがある
ニューラルネット・サポートベクターマシン等 Neural networks, support vector machine, etc.
\[ y = x\beta + u - v, \quad v \ge 0,\; u \sim N(0,\, \sigma^2) \]
記号
意味
\(x\beta\)
フロンティア(技術的に達成可能な最大産出量)
\(v\)
非効率性項(inefficiency term)。\(v \ge 0\) の一側誤差
\(u\)
通常の対称誤差項(\(u \sim N(0, \sigma^2)\))
Outcome (e.g. yield) is the frontier (\(x\beta\)) minus inefficiency term (\(v\)). (アウトカム(例:収量)は、フロンティア(\(x\beta\))から非効率性項(\(v\))を引いたものである。)
Millimet and Parmeter (2022) は、\(y\) が一側測定誤差(one-sided measurement error)を含む場合にもフロンティアモデルを応用できることを示している。
参照文献
Millimet, D.L. & Parmeter, C.F. (2022) Accounting for Skewed or One-Sided Measurement Error in the Dependent Variable. Political Analysis. vol. 30: 66–88. DOI: 10.1017/pan.2020.45
分数モデルの利点:トービットモデルでは必要な正規性の仮定が分数モデルでは不要である(Papke & Wooldridge 1996, 2008; Ramalho et al. 2011)。分数データには分数モデルの方が一般に適合する。
SECTION 11
参考文献(References)
Lord, D., & Mannering, F. (2010). The statistical analysis of crash-frequency data: a review and assessment of methodological alternatives. Transportation Research Part A: Policy and Practice, 44(5), 291–305.
Millimet, D.L. & Parmeter, C.F. (2022) Accounting for Skewed or One-Sided Measurement Error in the Dependent Variable. Political Analysis. vol. 30: 66–88. DOI: 10.1017/pan.2020.45
Papke, L.E., and J.M. Wooldridge. 1996. Econometric Methods for Fractional Response Variables with an Application to 401(K) Plan Participation Rates. Journal of Applied Econometrics 11: 619–632.
Papke, L.E., and J.M. Wooldridge. 2008. Panel Data Methods for Fractional Response Variables with an Application to Test Pass Rates. Journal of Econometrics 145: 121–133.
Ramalho, E.A., Ramalho, J.J., & Murteira, J.M. (2011). Alternative estimating and testing empirical strategies for fractional regression models. Journal of Economic Surveys, 25(1), 19–68.
Greene, W.H. Econometric Analysis. ch.19.
Wooldridge, J.M. (2010). Econometric Analysis of Cross Section and Panel Data. 2nd ed., ch.16–19.