本ページは、川崎賢太郎『数量経済分析』2026 S1 講義ノート第11章の原文に忠実な全文和訳である。要約・再構成は行わず、原文の論理展開・脚注・参考文献の順序をそのまま日本語に移している。直観的な理解には図解版を併用されたい。
Spring 2026 / Kentaro Kawasaki
[参考文献]Wooldridge, IE, ch.13, 14 / Wooldridge, 2010, ch.10
パネルデータは次のような形をしている。
| id | year | y | x |
|---|---|---|---|
| 1 | 2010 | 3.35 | 1.56 |
| 1 | 2011 | 0.69 | 13.26 |
| 1 | 2012 | 0.43 | 5.35 |
| 2 | 2010 | 0.79 | 3.13 |
| 2 | 2011 | 1.80 | 3.74 |
| 2 | 2012 | 1.32 | 2.11 |
| … (以下同様に続く) … | |||
パネルデータセットは、個人(あるいは農場、世帯、都市、国など)の無作為標本を、時間を通じて追跡する。
パネルデータを扱うことの大きな利点は、個体固有の時間不変な欠落変数(individual-specific, time-invariant omitted variable)が引き起こす内生性を制御できることにある。こうした変数の存在は、OLS のような標準的な推定量にバイアスをもたらしうる。
本講義を通じて、大きな \(N\)、小さな \(T\) のケースに焦点を当てる(\(N\):データ単位の数、\(T\):時点の数)。
逆のケース、たとえば \(N=5\) か国、\(T=40\) 年といった場合には、その主題は多変量時系列分析(multiple time series analysis)になる。
データの得られる時点が \(N\) 個すべての個体について同一であるとき、それをバランスド・パネル(balanced panel)と呼ぶ。実際には、時点の長さが個体ごとに異なることがよくある。そのような場合、パネルはアンバランスド(unbalanced)であるという。
パネルが、完全には無作為でない理由でアンバランスドになっている場合(たとえば、生産性が相対的に低い農場ほど退出率が相対的に高い、というように)、モデルの推定に際してこれを考慮する必要があるかもしれない。これは標本選択モデル(sample selection model)によって扱うことができる。ここではこの個別の問題は捨象する。(Wooldridge, 2010, ch.19.9)
プールド(反復)クロスセクション(pooled / repeated cross sections)は、パネルデータと同じではない。プールド・クロスセクションは、同一の母集団から異なる時点で標本抽出することによって得られる。個体の同一性は記録されておらず、個体を時間を通じて追跡しようという試みはない。
次のモデルを考える。
ここで \(i\) はデータ単位、\(t\) は時点である。
\(a_i\) は観察されない効果(unobserved effects)、あるいは観察されない異質性(unobserved heterogeneity)、農場固有の異質性などと呼ばれる。これは、\(y\) に影響する、観察されない・農場固有の・時間を通じて一定(時間不変)なすべての要因を捉える(\(a_i\) には \(t\) の添字がないことに注意)。
\(u_{it}\) は個体特異的誤差(idiosyncratic error)と呼ばれる。
例:
生産関数:土壌の質や農家の能力は、時間を通じて一定であると考えられるので、\(a_i\) に含まれる。
しかし、病害虫の圧力は時間を通じて一定ではないので、\(a_i\) には含まれない。
賃金方程式:\(a_i\) は能力(ability)を表す。
観察されない効果を無視してモデルを OLS で推定すると、何が起こるか(これはプールド OLS 推定量(Pooled OLS estimator)と呼ばれる)。\(a_i\) は観察されないので、誤差項 \(v\) に入り込む。
もし \(a_i\) が \(x\) と無相関であれば、\(a_i\) は残差を構成するもう一つの観察されない要因にすぎず、OLS は一致性をもつ。しかし、誤差項 \(v\) は系列相関(serial correlation)をもつ(今期の \(v\) は過去あるいは将来の \(v\) と相関する)ため、仮定 OLS.5 が成り立たない。
したがって、
それゆえ、OLS は効率的でなく、標準誤差を計算するための標準的な公式は誤りとなる。この問題は、不均一分散と系列相関(今日の誤差が過去の誤差と相関すること。自己相関(autocorrelation)とも呼ばれる)に対して頑健になるよう、標準誤差を個体についてクラスター化(clustering)することで解決される。
あるいは、変数を変換することで系列相関を補正することもできる。これはランダム効果推定量(random effect estimator)と呼ばれ、GLS 推定量の一種である。
もし \(a_i\) が \(x\) と相関しているなら、\(a_i\) を誤差項に入れることは深刻な問題を引き起こしうる。これはもちろん欠落変数の問題であり、OLS 推定量は一致性をもたない。異なる戦略(FE または FD)が必要である。
次のモデルを考える。
\(a_i\) は \(x\) と自由に相関してよいと仮定する。
また、\(x\) は今期および前期の \(u\) と無相関であると仮定する。すなわち \(s=t\) および \(t-1\) について \(E(x_{it}u_{is}) = 0\)。
差分をとる(上の式から \(y_{i,t-1} = x_{i,t-1}\beta + a_i + u_{i,t-1}\) を引く)。
これは観察されない効果(\(a_i\))を除去するので、一階差分をとった式を OLS で推定することにより、一致推定量を得ることができる(差分をとったデータが仮定 OLS.1 から OLS.4 を満たす場合)。
これを一階差分(FD)推定量(first difference estimator)と呼ぶ。
限界:時間不変な変数(例:性別)のパラメータは、差分をとることで消し去られてしまうため、推定できない。
再び、\(a_i\) は \(x\) と自由に相関してよいと仮定する。
また、\(x\) はすべての期の \(u\) と無相関であると仮定する。すなわち \(s=1,2,\ldots,T\) について \(E(x_{it}u_{is}) = 0\)(厳密な外生性(strict exogeneity))。
この条件は FD における条件よりも強いことに注意したい。厳密な外生性は、過去(さらには将来)のすべての \(u\) から現在の \(x\) へのフィードバックを排除する。
いま、データを「平均除去(demean)」する(構造方程式から \(\bar{y}_i = \bar{x}_i\beta + a_i + \bar{u}_i\) を引く。ただし \(\bar{y}_i = \sum_t y_{it}/T\) などとする)。
元の方程式のこの変換は級内変換(within transformation)として知られ、方程式から \(a_i\) を除去している。
したがって、OLS を用いてモデルを一致的に推定できる。
これを固定効果(FE)推定量(fixed effects estimator)、または級内推定量(within estimator)と呼ぶ。
もし \(s=1,2,\ldots,T\) について \(E(x_{it}u_{is}) = 0\) という仮定が成り立たない場合には、操作変数を用いて一致推定量を得られるかもしれない。これは後ほど議論する。
この推定量がなぜ厳密な外生性を必要とするのかが、ここで分かる。平均除去された残差は、すべての残差 \(u_{i1}, u_{i2}, \ldots, u_{iT}\) を含む(それらが \(\bar{u}\) に入るため)一方、平均除去された説明変数のベクトル \(x - \bar{x}\) は、説明変数のすべての値 \(x_{i1}, x_{i2}, \ldots, x_{iT}\) を含む。それゆえ、すべての \(t\)–\(s\) の組について \(E(x_{it}u_{is}) = 0\) が必要となる。さもなければ、平均除去された方程式を OLS で推定したとき、内生性バイアスが生じる。
限界:FD と同様に、時間を通じて一定な変数(例:性別)は、平均除去によって消し去られてしまうため、含めることができない。
次の方程式について OLS を実行すると、FE とまったく同じ結果が得られる。
ここで \(D_i\) は各個体についてのダミー変数である。ただし、個体数が多いと計算に時間がかかることがある。
次の方程式について OLS を実行しても、FE とまったく同じ結果が得られる。
ここで \(\bar{x}\) は各回帰変数の農場固有の時間平均である。これはマンドラックの相関ランダム効果アプローチ(Mundlak's correlated random effects approach)と呼ばれ、非線形モデル(例:プロビットモデル)で頻繁に用いられる。なぜなら、そのようなモデルでは平均除去や一階差分が困難だからである。
このように、FE と FD は観察されない効果を除去する2つの代替的な方法である。どちらの方法を用いるべきか。
ほとんどの経済学者は(理由もなく)FE を用いるが、FD と FE の選択は、個体特異的誤差 \(u_{it}\) に関する仮定に依存する。
まず第一に、\(T=2\)(すなわち時点が2つしかない)のとき、FE と FD はまったく等価である。
\(T \geq 3\) のとき、FE と FD はいずれも一致性をもつが、効率性が異なる。
\(T \geq 3\) で厳密な外生性の仮定が成り立つ場合、\(u_{it}\) が系列無相関であれば FE 推定量のほうが効率的であり、\(u_{it}\) が系列相関する(今日の \(u\) が過去の \(u\) と相関する)場合には FD 推定量のほうが効率的である。多くの場合、真実はその中間のどこかにある可能性が高い。
\(u_{it}\) の系列相関の極端な例は、ランダムウォーク(\(u_{it} = u_{i,t-1} + e_{it}\))である。この場合、\(u_{it}\) は過去の \(u\) と正に相関する。しかし、\(\Delta u_{it}\)(\(= e_{it}\))は系列無相関であり(\(\mathrm{Cov}(\Delta u_{it}, \Delta u_{i,t-1}) = \mathrm{Cov}(e_{it}, e_{i,t-1})\) であり、これは0と仮定される)、したがって FD 推定量のほうが FE 推定量より効率的になる。
逆に、もし \(u_{it}\) が系列無相関であれば(例:\(u_{it} \sim \mathrm{iid}(0, \sigma_u^2)\)。iid は「独立同分布(independent and identically distributed)」を意味する)、\(\Delta u_{it}\) は系列相関する19。この場合、FE 推定量のほうが FD 推定量より効率的である。
厳密な外生性の検定:厳密な外生性の下では、FE と FD はいずれも一致性をもつ。したがって、FE と FD が有意に異なるなら、それは厳密な外生性の違反を示唆する。
\(u_{it}\) の系列相関の検定:FD によって残差を得て、\(\Delta u_{it}\) を \(\Delta u_{i,t-1}\) に回帰し、係数が有意かどうかを調べる。系列相関が検出された場合には、FE を用いるか、あるいは系列相関を補正するために頑健標準誤差を伴う FD を用いるべきである。
(Wooldridge, 2010, ch.10.6.3)
固定効果モデルに交互作用項が含まれ、かつ交互作用させる2つの変数の双方が個体内で時間変化する(すなわち農場固有でない)場合には、二重平均除去交互作用推定量(double demeaned interaction estimator)(Giesselmann and Schmidt-Catran 2022)を用いること。
次に、\(a_i\) は \(x\) と無相関であると仮定する(これはかなり制約的ではあるが)。
また、\(u\) と \(x\) は無相関であると仮定する。すなわち \(s=1,2,\ldots,T\) について \(E(x_{it}u_{is}) = 0\)(厳密な外生性)。
この場合、単純な OLS が不偏であることは容易に示せる。しかし、全体としての残差 \(v_{it} = a_i + u_{it}\) が系列相関するため、効率的ではない。
OLS 推定量についての通常の分散共分散行列は正しくない(ただし、「クラスター化」によってこの問題を修正できることはすでに見た)。効率性を気にするなら、この系列相関を考慮に入れた GLS 推定量を考えたくなるだろう。
ランダム効果(RE)推定量(random effects estimator)は、系列相関を考慮に入れる GLS の一種である。これは次のように機能する。
GLS は元の方程式を変換することを含み、変換後の方程式が OLS の諸仮定を満たすようにする。
次のように定義する。
ここで \(\sigma_u\) は \(u\) の標準偏差、\(\sigma_a\) は \(a\) の標準偏差である。
元の方程式から \(\lambda\bar{y}_i = \lambda\bar{x}_i\beta + \lambda\bar{v}_i\) を引く。
この準平均除去(quasi-demeaned)したデータについて OLS を用いると、ランダム効果推定量が得られる。
この推定量は効率的である。なぜなら \((v_{it} - \lambda\bar{v}_i)\) はいまや系列無相関だからである。(証明は長く退屈である。Wooldridge, 2010, p.326 を参照。)
パラメータ \(\lambda\) は未知であり、それゆえ推定しなければならない。これを行う方法はさまざまある(Wooldridge, 2010, p.295 を参照)。
\(\lambda\) が0に近いとき、観察されない効果が相対的に重要でない(その分散が小さいか、\(T\) が小さい)ことを意味し、RE は単純な OLS に近づく。一方、\(\lambda\) が1に近いとき、RE と FE の推定値は非常に似たものになる。
基本的には FE のほうがよい選択肢である。RE で用いられる仮定(\(a_i\) は \(x\) と無相関)はあまりに制約的だからである。したがって基本的には、RE ではなく FE か FD を試すべきである。
\(a_i\) が \(x\) と相関するか否かは、ハウスマン検定(Hausman test)を用いて検定できる。その発想はこうである。\(a_i\) が \(x\) と無相関なら、RE と FE はともに一致性をもつ。他方、\(a_i\) が \(x\) と相関するなら、RE は一致性をもたないが FE はもつ。ハウスマン検定は RE の推定値を FE のそれと比較し、大きな差が見つかれば FE を用いるべきであり、そうでなければ RE と FE のどちらを用いてもよい。
FE の難点は、時間を通じて一定な変数を含められないこと、および測定誤差の問題に敏感であることである(Griliches and Hausman, 1986, "Errors in Variables in Panel Data," Journal of Econometrics, 31, pp.93–118 を参照)。
次のモデルを考える。
ここで \(w_i\) は時間不変な変数(例:性別)のベクトルである。
\(a_i\) は \(x\) と自由に相関してよいと仮定する。
問題はいまや明白である。FE と FD は \(w_i\) を消去するので、\(\gamma\) はこれらの方法では直接には識別されない。
いま、\(a_i\) は \(w_i\) とは相関しない(が \(x_{it}\) とは相関する)と信じるとしよう。この場合、OLS や RE に頼るよりも、より良いアプローチは2段階の手続きである。
ステップ1:FE または FD を用いて \(y_{it} = x_{it}\beta + a_i^{*} + u_{it}\)(\(a_i^{*} = w_i\gamma + a_i\))を推定し、推定された観察されない効果を得る。
ステップ2:\(\hat{a}_i^{*} = w_i\gamma + a_i\) について OLS を実行する。これは \(\gamma\) の一致推定量を与える。
もし \(a_i\) が \(w_i\) と相関するなら、ハウスマン・テイラー推定量(Hausman-Taylor estimator)と呼ばれる操作変数法を用いるべきである。詳しくは Wooldridge (2010), p.358 を参照。
次のモデルを考える。
\(a_i\) が \(x_{it}\) と相関する場合、厳密な外生性が成り立つ限り FE がうまく機能することはすでに見た。FD のアプローチは \(s=t\) および \(t-1\) について \(E(x_{it}u_{is}) = 0\) という仮定を必要とし、これは厳密な外生性の下で成り立つ。
しかし、厳密な外生性は成り立たないかもしれない。
例1(逐次外生性(sequential exogeneity)):\(x_{it}\) が過去のショックに依存する場合。\(x_{it} = u_{i,t-1} + e_{it}\)。
例2(内生性(endogeneity)):\(x_{it}\) が、たとえば欠落変数や測定誤差によって、\(u_{it}\) と相関する場合。すなわち \(E(x_{it}u_{it}) \neq 0\)。
いずれの場合も、FE・FD・RE の推定値は一致性をもたない。
これらの状況を考えるには、生産関数を用いるとよい。
次のモデルを考える。
例:成長モデル。\(y = \log(\mathrm{GDP})\)。
一階差分をとる。
\(a_i\) は消去されるものの、差分をとった残差 \((u_{it} - u_{i,t-1})\) は一般に \((y_{i,t-1} - y_{i,t-2})\) と相関することが分かる。
なぜなら \(u_{i,t-1}\) は \(y_{i,t-1}\) に影響するからである(\(y_{i,t-1} = \beta_y y_{i,t-2} + x_{i,t-1}\beta + a_i + u_{i,t-1}\))。
次のことが分かる。
したがって、
それゆえ、\(\beta_y\) のバイアスは負(下方バイアス)になると予想される。
データを一階差分するのではなく平均除去した場合にも、同様の結果が成り立つ。