最も強力で説得的な手法は 無作為化比較試験(RCT) である。くじ引きで処置の割り当てを決めれば、
潜在結果と処置状態が統計的に独立となり、単純な平均差が ATE を不偏に推定する。
The most powerful and convincing method is randomized controlled trials (RCT). In RCT, a lottery determines whether an individual gets treatment or not, i.e. allocation into the treatment group is a purely random event.
\[ \widehat{\mathrm{ATT}} = \text{average over } k \text{ of } \Big\{ E[y_1 \mid x = x_k, d = 1] - E[y_0 \mid x = x_k, d = 0] \Big\}, \quad k = 1, 2 \]
推論のためには ATT の標準誤差を推定する必要がある。傾向スコアは真値ではなく(二値選択モデルで)推定された値であったことを思い出そう。第2段階の標準誤差は、傾向スコアがある程度の不確実性をもって推定されているという事実を考慮しなければならない。標準誤差を推定する人気があり比較的単純な方法の一つがブートストラップ(bootstrapping)である。ブートストラップは非常に汎用的で、解析式で標準誤差を計算するのが難しいときにいつでも有用である。
共通トレンドが成り立たない場合、合成統制法(synthetic control method, Abadie et al 2010)を使える。処置前期間で共通トレンド仮定を満たすように各統制群へ重みを導き、統制群アウトカムの加重平均(処置群と比較する対象)を計算する。ただし当てはまり(fit)が低いなら、この方法を使うべきでない。あるいは、傾向スコア(PSM)または共変量(Ferraro and Miranda 2017)で処置群と統制群をマッチングして共通トレンド仮定を満たそうとする方法もある。これらは処置前期間のデータを要しないため、仮定を明示的に検定することはできない。
Professor Note ― 推論(Inference)
クラスター数が多い場合、クラスター標準誤差(clustered s.e.)はうまく機能する。クラスター数が少ない場合、いくつかの方法が提案されているが、文献はまだ合意に達していない(Wing et al 2018)。
処置効果が農場 \(i\) ごとに異なる場合、固定効果推定量はうまく機能しない(係数が必ずしも ATT や ATE を表さない)。近年の多くの研究は異質な処置効果のための異なる推定量を提案している。適切な手法は、処置のタイミングが共通か異なるか(時差導入 staggered adoption)、共変量 \(x_i\) があるか否かに依存する。たとえば Wooldridge (2021) を参照。
Professor Note ― 双方向固定効果(TWFE)
3時点以上かつ処置タイミングに変動がある設定では、単位固定効果と時点固定効果を入れた DID モデル(双方向固定効果モデル、two-way fixed effects, TWFE)は、平行トレンド仮定が成り立ち、かつ処置効果が群間・時点間で一定なら、平均処置効果について不偏である(De Chaisemartin and D'Haultfoeuille 2020)。これらの条件が満たされないと、TWFE 推定値の解釈は難しい。適切な方法は Roth et al (2023) を参照。 理由:TWFE は群と時点をまたぐ処置効果の加重平均であり、その重みは各群–時点セルの観測値数に比例する必要がなく、負にすらなりうるからである。
この場合、IV は ATE も ATT も識別しない。むしろ IV は \(\alpha_i\) の加重平均を与え、重みは \(\gamma_i\):\(E(\alpha_i \gamma_i)/E(\gamma_i)\)。すなわち操作変数が最も影響を及ぼす者ほど大きな重みを受ける。これを局所的平均処置効果(local average treatment effects, LATE)と呼ぶ。
したがって、重みが既知でない限り LATE の解釈は難しい。通常、研究者はサブサンプル(例:性別・年齢・地域)で回帰を走らせ、推定結果がどう変わるかを論じることで批判を避ける(伊藤 2016)。あるいは部分識別アプローチ(partial identification approach, Manski 2000)を使える。これは処置効果の「点」ではなく「バウンド(bounds)」のみを識別するが、より緩い仮定でよく、LATE ではなく ATT を明らかにする(Imbens and Wooldridge 2009, p.59)。
Professor Note
対照的に、内生性がないという仮定のもとでは、OLS は \(\alpha_i\) の平均値を与える。Stock and Watson, ch.13.6 を参照。
原典 P.107 脚注31。
SECTION 14
非遵守・ITT・遵守者平均因果効果
LATE の概念は 非遵守を伴う RCT で特に重要になる。割り当て \(z\) の効果である ITT は真の処置効果を過小評価する。
すべての RCT が全員に処置を受けさせられるわけではない。たとえば、研究者が新しい肥料の作物収量への影響を知りたく、無作為に選んだ農家に肥料を提供する。しかし肥料を受け取った農家の一部はそれを使わない。これを非遵守(noncompliance)と呼ぶ。肥料使用の意思決定が収量決定要因の観察不能因子と相関すると、推定される影響はバイアスを受ける。非遵守は前述のテネシー STAR 学級規模実験でも観察された:当初大規模学級に割り当てられた一部の児童が小規模学級に移った(Duflo et al 2007)。
農業分野の文献は、地域境界(Grout et al 2011)、農場規模(Chang and Lin 2015)、年齢(Chang 2013, 2017)、タイミング(Fuje 2018; Aysoy et al. 2015; Ruan et al. 2021)、距離(Pan et al 2018)、所得(Sharma et al. 2019)、人口(Asher and Novosad 2020)における不連続を活用している。
「時間」での不連続には注意が必要(Hausman and Rapson 2018)。年次データ(Yearly data):識別は非常に困難。日次データ(Daily data):可能だが特有の問題がある。実施の遅れ(Delay in implementation):可能。
推定法(Estimation method)
上記の処置効果(極限の比)を推定するには、\(s_0\) の両側で平均の差をとればよい。だがこの方法は(もちろんノンパラメトリックだが)有限標本ではあまり良い性能を示しそうにない。バイアスを減らすにはノンパラメトリックな局所線形回帰(local linear regression)法を使える(Angrist and Pischke, p.263)。
シャープ RDでは、次式の OLS が一致推定値を与える(Cameron and Trivedi, p.880; Angrist and Pischke, p.255)。
共通トレンドが成り立たない場合、合成統制法(Abadie et al 2010)を使える。処置前期間で共通トレンド仮定を満たすように各統制群へ重みを導き、統制群アウトカムの加重平均を計算して、処置群と比較する。ただし当てはまり(fit)が低いなら、この方法を使うべきでない。(出典:原典 P.105。代表文献 Abadie, Diamond, and Hainmueller 2010 はカリフォルニアのたばこ規制プログラムの効果を推定。)
Cook, Shadish and Wong (2006)、Buddlemeyer and Skofias (2003)。
PSM
制御変数が多ければ PSM はうまくいく
Diaz and Handa (2006):多数の制御変数が利用可能なとき PSM は良好。
DID
マッチング併用の DID は実験結果に近い
Ferraro and Miranda (2017):DID とマッチングデザイン(一対一共変量マッチング)の併用は、マッチングなしの DID より良好で、推定値は実験結果に非常に近い。ただし同じアプローチは Wichman and Ferraro (2017) ではうまくいかない。詳細は Duflo et al (2007) を参照。
処置効果の推定とは、結局のところ「反事実をどう作るか」の問題である。RCT は無作為化で反事実を保証し、観察データの各手法(マッチング・DID・IV・RDD・合成統制法)は、それぞれ異なる仮定のもとで反事実を近似する。仮定が成り立つかを点検し、何の平均効果(ATE / ATT / LATE / 局所効果)を推定しているのかを明示することが要諦である。
発展文献(Further Readings)
全般(General)
(ごく入門)中室 (2017)、伊藤 (2017)
(入門)Khandker et al (2009);森田 (2014)
(中級)Angrist and Pischke;Abadie and Cattaneo (2018);Todd (2007);Wooldridge 2010, ch.21;Greene, ch.19.6;Cameron and Trivedi, ch.25;Imbens and Wooldridge (2009)
原典 P.105 脚注30。論文題名は McConnell B (2024) "Can't See the Forest for the Logs: On the Perils of Using Difference-in-Differences With a Log-Dependent Variable."
参考文献(References)― 主要抜粋
Abadie, A., & Cattaneo, M. D. (2018). "Econometric methods for program evaluation." Annual Review of Economics, 10, 465-503.
Abadie, A., Diamond, A., & Hainmueller, J. (2010). "Synthetic control methods for comparative case studies: Estimating the effect of California's tobacco control program." Journal of the American Statistical Association, 105(490), 493-505.
Abadie, Alberto. (2003). "Semiparametric Instrumental Variable Estimation of Treatment Response Models." Journal of Econometrics 113: 231–63.
De Chaisemartin, C., and X. D'Haultfoeuille. (2020). "Two-Way Fixed Effects Estimators With Heterogeneous Treatment Effects." American Economic Review 110(9): 2964–2996.
Duflo, E., Glennerster, R., & Kremer, M. (2007). "Using randomization in development economics research: A toolkit." Handbook of Development Economics, vol.4, ch.61, pp.3895-3962.
Ferraro, P. J., & Miranda, J. J. (2017). "Panel data designs and estimators as substitutes for randomized controlled trials in the evaluation of public programs." JAERE, 4(1), 281-317.
Fong, C., Hazlett, C., and Imai, K. (2018). "Covariate Balancing Propensity Score for a Continuous Treatment." Annals of Applied Statistics 12(1): 156–77.
Hausman, C., & Rapson, D. S. (2018). "Regression discontinuity in time: Considerations for empirical applications." Annual Review of Resource Economics, 10, 533-552.
Imbens, G. W., & Wooldridge, J. M. (2009). "Recent developments in the econometrics of program evaluation." Journal of Economic Literature, 47(1), 5-86.
Imbens, G., Angrist, J. (1994). "Identification and estimation of local average treatment effects." Econometrica 62(2), 467–476.
Khandker, S., Koolwal, G. B., & Samad, H. (2009). Handbook on Impact Evaluation: Quantitative Methods and Practices. The World Bank.
Lee, D. S., & Lemieux, T. (2010). "Regression discontinuity designs in economics." Journal of Economic Literature, 48(2), 281-355.
Manski, C., and Pepper, J. (2000). "Monotone Instrumental Variables: With an Application to the Returns to Schooling." Econometrica, 68(4), 997–1010.
McConnell, B. (2024). "Can't See the Forest for the Logs: On the Perils of Using Difference-in-Differences With a Log-Dependent Variable." Working paper.
Roth, J., Sant'Anna, P., Bilinski, A., Poe, J. (2023). "What's trending in difference-in-differences? A synthesis of the recent econometrics literature." J. Econometrics 235(2), 2218–2244.
Todd, P. E. (2007). "Evaluating social programs with endogenous program placement and selection of the treated." Handbook of Development Economics, vol.4, ch.60, pp.3847-3894.
Wing, C., Simon, K., & Bello-Gomez, R. A. (2018). "Designing difference in difference studies: best practices for public health policy research." Annual Review of Public Health, 39.
Wooldridge, J. (2021). "Two-way fixed effects, the two-way Mundlak regression, and difference-in-differences estimators." SSRN: http://dx.doi.org/10.2139/ssrn.3906345
出典:原典 P.112–114。Greene、Cameron and Trivedi、Wooldridge (2010)、Stock and Watson、Angrist and Pischke は本章で繰り返し参照される標準教科書。Chang・Grout・Fuje・Pan・Sharma・Asher and Novosad ほか農業分野の RD 応用文献の完全な書誌は原典 P.113–114 を参照。