Chapter 18 · Part V 因果推論と応用 · 原典 P.100–114

処置効果（プログラム評価）

あるプログラム（処置）への参加が結果に与える因果効果そのものを、どう測るか。潜在結果フレームワークで「測りたい量」を定義し、無作為化比較試験（RCT）を理想形として、観察データで因果効果を識別する各手法 ― マッチング・傾向スコア・差の差分法（DID）・操作変数法（IV）・回帰不連続デザイン（RDD）・合成統制法 ― を、必要な仮定とともに体系的に展開する。

ATE/ATT RCT マッチング DID RDD 合成統制法

川崎賢太郎（東京大学大学院農学生命科学研究科）原典 P.100–114 Treatment Effects (Program Evaluation)

図解で読む原文に忠実な和訳

Contents

01. 潜在結果フレームワーク ― 処置効果とは
02. ATE と ATT ― 平均処置効果
03. 反事実と選択バイアス
04. 潜在結果のモデル化と内生性
05. RCT ― 無作為化比較試験
06. 観察可能変数による選択（非交絡）
07. OLS と完全マッチング
08. 傾向スコアマッチング（PSM）
09. PSM の前提・推論・OLSとの比較
10. 観察不能変数による選択
11. 差の差分法（DID）
12. DID の前提検証・欠点・TWFE
13. 操作変数法（IV）と LATE
14. 非遵守・ITT・遵守者平均因果効果
15. 回帰不連続デザイン（RDD）
16. RDD の推定とシャープ/ファジー
17. 合成統制法と手法の比較
18. まとめ・発展文献・参考文献

SECTION 01

潜在結果フレームワーク ― 処置効果とは

問いは、ある処置（treatment）への参加 \(d\) が、結果 \(y\) に与える効果である。各個人は処置を「受けた世界」と「受けなかった世界」の2つの潜在結果をもつ。

動機（motivation）は、ある処置 \(d\)（ダミー変数）への参加が、アウトカム \(y\) に与える効果を知ることである。たとえば \(d\)＝職業訓練プログラム（job training programs）、\(y\)＝賃金（wage）。\(d = 1\) の人々を処置群（treated group）、\(d = 0\) の人々を統制群（control group）と呼ぶ。

各個人には、処置を受けた場合の潜在結果（potential outcome with treatment）\(y_{1i}\) と、処置を受けなかった場合の潜在結果（potential outcome without treatment）\(y_{0i}\) の2つが存在する。

処置効果（treatment effect）とは、この2つの量の差である。すなわち個人 \(i\) について \(y_{1i} - y_{0i}\)。

処置効果は個人ごとに異なる（vary by individual）ことを許す。しかし個人レベルで処置効果を測定することは不可能である。そこで研究者は、何らかの平均的な指標（average measures）に焦点を当てる。

Professor Note ― "treatment" の語源

"treatment"（処置）という語は、ある医学的「処置」や薬剤の効果を推定することに関心が置かれる医学（medical science）に由来する。

原典 P.100 脚注28。

SECTION 02

ATE と ATT ― 平均処置効果

個人レベルの効果は測れない。代わりに用いられる平均指標が ATE（平均処置効果）と ATT（処置群における平均処置効果）である。

ATE

平均処置効果
Average Treatment Effects

母集団全体にわたる処置効果の平均。

\[ \mathrm{ATE} \equiv E[y_{1i} - y_{0i}] \]

ATT

処置群における平均処置効果
ATE on the Treated

実際に処置を受けた者（\(d_i = 1\)）に限った処置効果の平均。

\[ \mathrm{ATT} \equiv E[y_{1i} - y_{0i} \mid d_i = 1] \]

各個人について、我々は \(y_{1i}\) か \(y_{0i}\) のどちらか一方しか観測できない（個人は \(d = 1\) か \(d = 0\) のいずれか一つの状態にしか存在しないため）。したがって ATE も ATT も直接には計算できない。

SECTION 03

反事実と選択バイアス

観測できない側の状態を反事実（counterfactual）と呼ぶ。選択（selection）があると、処置群の平均アウトカムは \(E[y_{1i}]\) の妥当な推定にならない。

観測できない方の状態を 反事実（counterfactual） という。

さらに、選択（すなわち個人が処置を受けるか否かを自ら選ぶ）が存在する場合、処置群の平均アウトカム \(E[y_{1i} \mid d_i = 1]\) は \(E[y_{1i}]\) の妥当な推定値ではない。全期待値の法則（law of total expectation）により、

\[ E[y_{1i}] = E\big[\,E[y_{1i} \mid d_i]\,\big] = E[y_{1i} \mid d_i = 1] \ \text{と}\ E[y_{1i} \mid d_i = 0] \ \text{の母集団加重平均} \]

問題は、選択があると \(E[y_{1i} \mid d_i = 0]\)（観測不能） が \(E[y_{1i} \mid d_i = 1]\)（観測可能） と同じとは限らない点にある。同様に、非処置群の平均アウトカム \(E[y_{0i} \mid d_i = 0]\) も \(E[y_{0i}]\) の妥当な推定値ではない。

例：\(d\)＝職業訓練プログラム、\(y\)＝賃金。高学歴の労働者が低学歴の労働者より頻繁に職業訓練に参加するなら、平均賃金は職業訓練の効果だけでなく教育水準をも反映してしまう。したがって、単純な平均賃金の差は職業訓練の効果ではない。

SECTION 04

潜在結果のモデル化と内生性

潜在結果を式で定式化すると、観測される \(y_i\) は処置ダミー \(d_i\) と誤差からなる回帰式になる。\(d\) が誤差や効果の異質性と相関すると、内生性が生じる。

潜在結果を次のように定式化する。当面、\(y\) に影響しうる他の共変量（covariates）は捨象する。

\[ \begin{aligned} y_{1i} &= \beta + \alpha_i + u_i \qquad &&\text{if } d_i = 1 \\ y_{0i} &= \beta \phantom{{}+ \alpha_i} + u_i \qquad &&\text{if } d_i = 0 \end{aligned} \]

したがって、観測されるアウトカムは

\[ y_i = d_i\, y_{1i} + (1 - d_i)\, y_{0i} = \beta + \alpha_i d_i + u_i \]

ここで \(\alpha_i\) は個人 \(i\) の処置効果である。項を整理すると、

\[ y_i = \beta + \alpha_i d_i + u_i = \beta + E[\alpha_i]\, d_i + \big[\,u_i + d_i(\alpha_i - E[\alpha_i])\,\big] \equiv \beta + E[\alpha_i]\, d_i + e_i \]

ここで \(E[\alpha_i]\) は ATE（\(\alpha_i\) の平均）である。

もし \(d\) が \(u\) または \((\alpha_i - E[\alpha_i])\) と相関するならば、内生性（endogeneity）が生じ、OLS 推定量は \(E[\alpha_i]\)（ATE）の一致推定値を与えない。本章の各手法は、この内生性をいかに乗り越えるかの工夫である。

SECTION 05

RCT ― 無作為化比較試験

最も強力で説得的な手法は無作為化比較試験（RCT）である。くじ引きで処置の割り当てを決めれば、潜在結果と処置状態が統計的に独立となり、単純な平均差が ATE を不偏に推定する。

The most powerful and convincing method is randomized controlled trials (RCT). In RCT, a lottery determines whether an individual gets treatment or not, i.e. allocation into the treatment group is a purely random event.

最も強力で説得的な手法は無作為化比較試験（RCT）である。RCT では、くじ引き（lottery）が個人に処置を与えるか否かを決める。すなわち処置群への割り当ては純粋に無作為な事象である。

例：テネシー STAR 実験（Tennessee STAR experiment）。小学校における少人数学級の効果を推定するために設計された。生徒は3種類の学級のいずれかに無作為に割り当てられた。結果は、学級規模が小さいほどテストスコアが約5%上昇することを示唆した。

処置が個人にわたって無作為化されていれば、平均処置効果の推定は単純である。必要なのは2群の平均アウトカムを比較することだけである。無作為化は、潜在結果 \((y_{1i}, y_{0i})\) が処置状態 \(d_i\) と統計的に独立であることを保証する。すなわち、

\[ \begin{aligned} E[y_{1i} \mid d_i = 1] &= E[y_{1i} \mid d_i = 0] = E[y_{1i}] \\ E[y_{0i} \mid d_i = 1] &= E[y_{0i} \mid d_i = 0] = E[y_{0i}] \end{aligned} \]

処置ありの潜在結果は処置群でも非処置群でも同じ。処置なしの潜在結果も処置群・非処置群で同じ（原文では観測不能な条件付き期待値が灰色で示される）。

したがって、

\[ \mathrm{ATE} \equiv E[y_{1i} - y_{0i}] = E[y_{1i}] - E[y_{0i}] = E[y_{1i} \mid d_i = 1] - E[y_{0i} \mid d_i = 0] \]

最後の2項は観測可能なので、ATE を計算できる。

\[ \widehat{\mathrm{ATE}} = \bar{y}^{\,T} - \bar{y}^{\,U} \]

\(\bar{y}^{\,T}\) は処置群（treated）の平均アウトカム、\(\bar{y}^{\,U}\) は非処置群（untreated）の平均アウトカム。

さらに、次が従う。

\[ \mathrm{ATT} \equiv E[y_{1i} - y_{0i} \mid d_i = 1] = E[y_{1i} \mid d_i = 1] - E[y_{0i} \mid d_i = 1] = E[y_{1i}] - E[y_{0i}] = \mathrm{ATE} \]

この場合 ATE = ATT となる。したがって RCT は、平均差（difference-in-means）が ATE と ATT の不偏推定値であることを保証する。

RCT の欠点（Drawbacks）

費用と時間がかかる

たとえば STAR 実験は1200万ドルを要し、4年間にわたった。途上国での実験、社会実験ではなく実験室実験（laboratory experiments）、「ナッジ（nudge）」実験などにより予算を削減できる。

外的妥当性（external validity）

結果がそのプログラム固有のものであり、より広く適用できないかもしれない。因果のメカニズムが不明確である。鈴木 (2019) を参照。

これらの理由から、多くの経済研究は依然として非実験（観察）データ（non-experimental / observational data）を用いる。観察データの場合、個人が処置を受けるか否かを少なくとも部分的には自ら決めている（選択）と仮定せざるを得ない。これは \((y_1, y_0)\) と \(d\) の独立性を破壊するため、単純な平均差は ATE を反映しない。

SECTION 06

観察可能変数による選択（非交絡）

観察データでまず置く仮定が観察可能変数による選択（selection on observables）である。条件付き独立性・無視可能性・非交絡（unconfoundedness）とも呼ばれる。

観察可能変数による選択の仮定（条件付き独立性 conditional independence、無視可能性 ignorability、非交絡 unconfoundedness とも呼ばれる）：\(x\) を所与とすれば、\((y_1, y_0)\) と \(d\) は独立である。すなわち、

\[ E[y_1 \mid x, d = 1] = E[y_1 \mid x, d = 0] \quad\Longleftrightarrow\quad E[y_1 \mid x, d] = E[y_1 \mid x] \]

言葉で言えば、同じ \(x\) の値をもつ個人どうしを比較すれば、処置下の期待アウトカムは処置群でも非処置群でも同じということである。\(y_0\) についても同様の議論が成り立つ。

\[ E[y_0 \mid x, d = 1] = E[y_0 \mid x, d = 0] \quad\Longleftrightarrow\quad E[y_0 \mid x, d] = E[y_0 \mid x] \]

例：\(d\)＝職業訓練、\(y\)＝賃金で、教育（\(x\)）による選択バイアスを懸念しているとする。このとき教育を制御（control for）すれば、観察可能変数による選択の仮定のもとで処置効果を一致推定できる。

\(x\) を制御する方法はいくつかある。次節以降で、完全マッチング・OLS・傾向スコアマッチングを順に見る。

SECTION 07

OLS と完全マッチング

\(x\) が離散で値が少なければ完全マッチングが使える。だが \(x\) が多数・連続なら非現実的になり、OLS か傾向スコアマッチングに頼る。

完全（共変量）マッチング ― Exact (covariate) matching

\(x\) が離散で少数の値しか取らないなら、\(x\) の値が同一の個人どうしを比較することで処置効果を計算できる。たとえば \(x\) がスカラーで \(x_1\) または \(x_2\) のいずれかを取るとき、

\[ \widehat{\mathrm{ATT}} = \text{average over } k \text{ of } \Big\{ E[y_1 \mid x = x_k, d = 1] - E[y_0 \mid x = x_k, d = 0] \Big\}, \quad k = 1, 2 \]

しかし応用研究では通常、データを \(x\)–\(d\) 別のセル（cells）に分割することは非現実的か不可能である。\(x\) は多数の変数を含み、その一部は離散ではなく連続であることが多いからである。こうした場合、\(x\) を制御する方法は2つ ―OLS と 傾向スコアマッチング（PSM）である。

OLS

\[ y_i = \beta + \alpha_i d_i + x_i \beta + u_i \]

参加の意思決定 \(d\) が \(u\) と無相関（ただし \(x\) とは相関しうる。すなわち観察可能変数による選択）であると仮定する。すると、

\[ y_i = \beta + \alpha_i d_i + x_i \beta + u_i = \beta + E[\alpha_i]\, d_i + x_i \beta + \big[\,u_i + d_i(\alpha_i - E[\alpha_i])\,\big] \]

もしパラメータの異質性（parameter heterogeneity）\((\alpha_i - E[\alpha_i])\) が \(d\) と \(x\) の双方と無相関ならば、OLS は \(E[\alpha_i]\)（ATE）の一致推定値を与える。

SECTION 08

傾向スコアマッチング（PSM）

\(x\) が多数のとき、すべてで同時にマッチングするのは難しい。そこで傾向スコア（propensity score）という1次元の量でマッチングする。

\(x\) が多数あると、これらすべてで同時にマッチングするのは困難である。幸い、代わりに傾向スコアでマッチングするという回避策がある。

第1段階 ― 処置確率の推定

次式を二値反応モデル（binary response model、例：ロジットまたはプロビット）で推定する。

\[ d_i = x_i \beta + u_i \]

すると処置を受ける確率を計算できる。\(\mathrm{Prob}(d = 1) = F(x\beta) \equiv P(x)\)。この確率 \(P\) を傾向スコアと呼ぶ。

第2段階 ― 反事実アウトカムの近似

処置を受けた個人 \(i\) の反事実アウトカム \(y_{0i}\) を、個人 \(i\) と似た傾向スコアをもつ非処置者の平均アウトカムとして計算する。

数式で書くと、

\[ \widehat{\mathrm{ATT}} = \frac{1}{N_T} \sum_{i \in \{d=1\}} \left( y_{1i} - \sum_{j \in \{d=0\}} w_{ij}\, y_{0j} \right) \]

\(w\) は重み、\(N_T\) は処置された観測値の数。最後の項は、処置個人 \(i\) の \(y_{0i}\)（反事実）の推定値である。

最も単純な重みは次の通り：最近傍（nearest neighbour、最も似た \(P\)）について \(w = 1\)、それ以外は \(0\)。これを 1-最近傍マッチング（1 nearest-neighbour matching）と呼ぶ。

1-最近傍マッチングの数値例

処置群の各個人 \(i\) に対し、傾向スコア \(P\) が最も近い非処置個人 \(j\) を1人選び、その \(Y\) を反事実とする。

処置群（Treated）
\(i\)	\(X_1\)	\(X_2\)	\(P\)	\(Y\)
1	…	…	0.80	20
2	…	…	0.10	120
3	…	…	0.01	2
4	…	…	0.50	80

非処置群（Untreated）
\(j\)	\(X_1\)	\(X_2\)	\(P\)	\(Y\)
1	…	…	0.11	105
2	…	…	0.35	60
3	…	…	0.79	75
4	…	…	0.02	5

処置個人 \(i=1\)（\(P=0.80\)）には非処置 \(j=3\)（\(P=0.79\)）が、\(i=3\)（\(P=0.01\)）には \(j=4\)（\(P=0.02\)）が最近傍として割り当てられる。出典：原典 P.103 の数値例を表として再現。

他の重み（Other weights）

N-NN

N-最近傍マッチング（N nearest-neighbour matching）

\(N\) 個の最近傍について \(w = 1/N\)、それ以外は \(0\)。

カーネルマッチング（kernel matching）

より滑らかな関数（more smooth function）を用いる。

半径マッチング（radius matching）

\(|P_i - P_j| < r\) のとき \(w > 0\)（\(r\) は研究者が定める閾値）。

SECTION 09

PSM の前提・推論・OLSとの比較

なぜ PSM は機能するのか。観察可能変数による選択の仮定のもと、傾向スコア \(P\) を条件づけても \((y_{1i}, y_{0i})\) と \(d\) は独立になるからである。

なぜ PSM は機能するのか。観察可能変数による選択の仮定（\(x\) を所与とすれば \((y_{1i}, y_{0i})\) と \(d\) は独立）のもとでは、傾向スコア \(P\) を所与としても \((y_{1i}, y_{0i})\) と \(d\) は独立である、ということが成り立つ。

\[ \begin{aligned} E[y_0 \mid d = 1, P(x)] &= E[y_0 \mid d = 0, P(x)] \\ E[y_1 \mid d = 1, P(x)] &= E[y_1 \mid d = 0, P(x)] \end{aligned} \]

第1式は、処置群の反事実アウトカム \(E[y_0 \mid d = 1, P(x)]\) を、傾向スコア \(P\) が同じであれば非処置群の実際のアウトカム \(E[y_0 \mid d = 0, P(x)]\) で近似できることを示している。

ATT 推定に必要な2条件

弱い形の非交絡 ― \(E[y_0 \mid d, x] = E[y_0 \mid x]\)

これは観察可能変数による選択の仮定の弱い版である。\(E[y_1 \mid x, d] = E[y_1 \mid x]\) は不要だから（必要条件は OLS より弱い）。この条件を満たすには、処置への選択を決める豊富な変数群が必要である。

共通サポート（重なり）条件 ― Common support / overlap

\(0 < P(d = 1 \mid x) < 1\)。任意の \(x\) の値について、処置個人と非処置個人の両方が観察される可能性があることを意味する。処置群のみ・非処置群のみの領域があれば、マッチングは共通サポートの領域でのみ正当化される。

PSM はセミパラメトリック手法（semi-parametric method）である。第1段階（プロビット）はパラメトリックだが、第2段階は関数形を一切仮定しない。

\(x\) の選択：参加を決める時点で個人が利用可能な変数を使う（処置によって影響を受ける変数は含めるべきでない）。その他の指針は Todd (2007) p.3868-70 を参照。

Professor Note ― 標準誤差とブートストラップ

推論のためには ATT の標準誤差を推定する必要がある。傾向スコアは真値ではなく（二値選択モデルで）推定された値であったことを思い出そう。第2段階の標準誤差は、傾向スコアがある程度の不確実性をもって推定されているという事実を考慮しなければならない。標準誤差を推定する人気があり比較的単純な方法の一つがブートストラップ（bootstrapping）である。ブートストラップは非常に汎用的で、解析式で標準誤差を計算するのが難しいときにいつでも有用である。

原典 P.103 脚注29。

ATE 計算にはより強い仮定が要る

ATE の計算にはより強い仮定（\(E[y_0 \mid d, x] = E[y_0 \mid x]\) と \(E[y_1 \mid d, x] = E[y_1 \mid x]\) の双方）が必要で、\(y_{1i}\) も推定しなければならない（Wooldridge, 2010, p.914, 命題21.2 を参照）。このため、PSM を用いる大半の研究者は ATT に焦点を当てる。

OLS とマッチングの比較

OLS

実装と解釈が容易。
共通サポートの概念を無視する。
特定の関数形を仮定する。
\(E[y_1 \mid x, d] = E[y_1 \mid x]\) と \(E[y_0 \mid d, x] = E[y_0 \mid x]\) の両方（観察可能変数による選択の仮定）を要する。

マッチング推定量

共通サポートの領域内の観測値のみを用いて処置効果を推定する。
第2段階に関数形の仮定がなく、これは魅力的。
共通サポート外の処置群への処置効果は決して推定できない。
後者（\(y_0\) の条件）のみを要する。

Professor Note ― 発展トピック（Advanced topic）

Fong (2018) は、連続的な処置変数に使える一種の PSM 手法 ― 共変量バランシング一般化傾向スコア（covariate balancing generalized propensity score, CBGPS）― を開発した。

原典 P.104。

SECTION 10

観察不能変数による選択

選択が観察不能変数（unobservable variable）に部分的に基づくと、\(x\) を条件づけても \((y_1, y_0)\) と \(d\) はもはや独立にならない。マッチングは破綻する。

観察不能変数による選択（Selection on unobservables）：選択の意思決定が部分的に観察不能変数に基づく。したがって \(x\) を条件づけた後でも、\((y_1, y_0)\) と \(d\) はもはや独立ではない。

\[ \begin{aligned} E[y_1 \mid x, d = 1] &\neq E[y_1 \mid x, d = 0] \\ E[y_0 \mid x, d = 1] &\neq E[y_0 \mid x, d = 0] \end{aligned} \]

例：\(d\)＝職業訓練、\(y\)＝賃金。職業訓練への参加が観察不能な労働者の能力（ability）に依存するなら、平均賃金は職業訓練の効果だけでなく能力をも反映する。教育のような観察可能な特性を制御した後でも、処置効果を一致推定できない。

観察不能変数による選択のもとで処置効果を推定する方法はいくつかある。すなわち 差の差分法（DID）推定量・操作変数法（IV）・回帰不連続デザイン（RDD）である。以下で順に扱う。

SECTION 11

差の差分法（DID）

差の差分法（difference-in-differences, DID）は、処置効果が一定 \((\alpha_i = \alpha)\) のモデルで、ATT を「差の差」として計算する。中核仮定は共通（平行）時間トレンドである。

処置効果が一定 \((\alpha_i = \alpha)\) のモデルを考える。

\[ y_{it} = \alpha\, d_{it} + a_i + b_t + u_{it} \]

\(i\) は観測単位（個人または集団レベル）、\(a_i\) は単位固有効果、\(b_t\) は時点効果。

最も単純な DID は、2単位（\(i = 1, 2\)）× 2時点（\(t = 1, 2\)）だけを要し、処置は第1時点と第2時点の間に生じる。階差をとった式 \(\Delta y_{it} = \alpha \Delta d_{it} + \Delta b_t + \Delta u_{it}\) において、\(d\) と \(u\) は無相関と仮定する。すると次が示せる。

\[ \begin{aligned} E[\Delta y_{it} \mid \Delta d_{it} = 1] &= \alpha + E[\Delta b_t \mid \Delta d_{it} = 1] \\ E[\Delta y_{it} \mid \Delta d_{it} = 0] &= E[\Delta b_t \mid \Delta d_{it} = 0] \end{aligned} \]

DID の中核仮定は「共通（平行）時間トレンド（common / parallel time trend）」である。すなわちトレンドが処置群と非処置群で共通：\(E[\Delta b_t \mid \Delta d_{it} = 1] = E[\Delta b_t \mid \Delta d_{it} = 0]\)。

すると、

\[ \alpha = E[\Delta y_{it} \mid \Delta d_{it} = 1] - E[\Delta y_{it} \mid \Delta d_{it} = 0] \]

図 5.2.1（原典 P.105、出典 Angrist and Pischke）。DID モデルにおける因果効果。横軸が処置前（Before）・処置後（After）、縦軸が雇用率（Employment rate）。処置群の実線トレンドと統制群の実線トレンドに加え、処置群の反事実トレンド（counterfactual trend、破線）が描かれ、処置後の処置群実測値と反事実値の差が処置効果（Treatment Effect）として図示される。図は原典を参照のこと。

この式は、ATT が「差の差（difference in difference）」として計算できることを示す。

\[ \widehat{\mathrm{ATT}} = \big(\bar{y}^{\,T}_{t_1} - \bar{y}^{\,T}_{t_0}\big) - \big(\bar{y}^{\,U}_{t_1} - \bar{y}^{\,U}_{t_0}\big) \]

\(\bar{y}^{\,T}\) は処置群、\(\bar{y}^{\,U}\) は非処置群の平均アウトカム。\(t_0\) は処置前、\(t_1\) は処置後。

ただし実務では標準誤差を計算する必要があるので、元の式に固定効果（fixed effect）を走らせるか、階差をとった式 \(\Delta y_{it} = \alpha \Delta d_{it} + \Delta b_t + \Delta u_{it}\) に OLS を適用すべきである。

\(d\) と \(u\) を相関させる交絡因子（confounders）があると疑われる場合、制御変数 \(x_{it}\) を加えれば相関を除去できるかもしれない。

\[ y_{it} = \alpha\, d_{it} + x_{it}\beta + b_t + u^*_{it} \]

新しい固有誤差 \(u^*\)（\(= u_{it} - x_{it}\beta\)）は \(d\) と無相関と仮定される。

SECTION 12

DID の前提検証・欠点・TWFE

共通トレンド仮定は処置前期間のプロットとプラセボ検定で点検する。仮定が成り立たないときは合成統制法やマッチングを併用する。

共通トレンド仮定（Common trend assumption）の点検

処置前期間のプロット

最も単純な点検法は、処置前期間における処置群・非処置群の \(y\) を比較すること。平均 \(y\) をグラフに描き、平行（parallel）かどうかを見る。これには処置前期間のデータが必要である。

プラセボ検定（Placebo test）

処置前期間のいずれかで処置が起きたと仮定する。これはもちろん偽の「プラセボ」なので、処置効果はゼロのはず。推定された処置効果が有意なら、共通トレンド仮定の違反の兆候かもしれない。

共通トレンド仮定は \(y\) の形に依存することに注意。\(y\) について成り立っても、\(\log(y)\) については成り立たないかもしれない。

共通トレンドが成り立たない場合、合成統制法（synthetic control method, Abadie et al 2010）を使える。処置前期間で共通トレンド仮定を満たすように各統制群へ重みを導き、統制群アウトカムの加重平均（処置群と比較する対象）を計算する。ただし当てはまり（fit）が低いなら、この方法を使うべきでない。あるいは、傾向スコア（PSM）または共変量（Ferraro and Miranda 2017）で処置群と統制群をマッチングして共通トレンド仮定を満たそうとする方法もある。これらは処置前期間のデータを要しないため、仮定を明示的に検定することはできない。

Professor Note ― 推論（Inference）

クラスター数が多い場合、クラスター標準誤差（clustered s.e.）はうまく機能する。クラスター数が少ない場合、いくつかの方法が提案されているが、文献はまだ合意に達していない（Wing et al 2018）。

原典 P.105。

DID の欠点（Drawbacks）

このモデルは、選択の意思決定 \(d\) と固有誤差 \(u\) に相関がないと仮定する。しかしそうとは限らない。たとえば \(y\) が所得、\(d\) が訓練プログラムなら、プログラム開始前に一時的な所得低下を経験した人ほどプログラムに参加しやすい。
一部の研究は、この問題を緩和するため三重差分（triple-difference / difference-in-difference-in-difference）推定量を適用する。Lai (2017) を参照。

異質な処置効果（Heterogeneous treatment effects）

処置効果が農場 \(i\) ごとに異なる場合、固定効果推定量はうまく機能しない（係数が必ずしも ATT や ATE を表さない）。近年の多くの研究は異質な処置効果のための異なる推定量を提案している。適切な手法は、処置のタイミングが共通か異なるか（時差導入 staggered adoption）、共変量 \(x_i\) があるか否かに依存する。たとえば Wooldridge (2021) を参照。

Professor Note ― 双方向固定効果（TWFE）

3時点以上かつ処置タイミングに変動がある設定では、単位固定効果と時点固定効果を入れた DID モデル（双方向固定効果モデル、two-way fixed effects, TWFE）は、平行トレンド仮定が成り立ち、かつ処置効果が群間・時点間で一定なら、平均処置効果について不偏である（De Chaisemartin and D'Haultfoeuille 2020）。これらの条件が満たされないと、TWFE 推定値の解釈は難しい。適切な方法は Roth et al (2023) を参照。
理由：TWFE は群と時点をまたぐ処置効果の加重平均であり、その重みは各群–時点セルの観測値数に比例する必要がなく、負にすらなりうるからである。

原典 P.106。

SECTION 13

操作変数法（IV）と LATE

観察不能変数による選択でも、良い操作変数 \(z\) があれば 2SLS で因果効果を推定できる。だが処置効果が異質だと、IV が識別するのは局所的平均処置効果（LATE）である。

伝統的 IV ― 処置効果が一定の場合

まず処置効果が一定 \((\alpha_i = \alpha)\) と仮定する。

\[ \begin{aligned} \text{アウトカム式：}\quad & y_i = \alpha\, d_i + x_{i1}\beta_1 + u_{1i} \\ \text{選択（参加）式：}\quad & d_i = \mathbf{1}\big[\,x_{i2}\beta_2 + z_i \gamma_2 + u_{2i} > 0\,\big] \end{aligned} \]

\(d\) と \(u_1\) は相関すると仮定する（観察不能変数による選択）。両者が相関するのは \(u_2\) と \(u_1\) が相関するときに限る（「二値反応モデル」の章を参照）。

\(d\) と相関するが \(u_1\) とは相関しない操作変数 \(z\) があれば、通常の 2SLS を適用できる。2SLS は \(\alpha = \mathrm{ATE} = \mathrm{ATT}\) の一致推定値を与える。

あるいは、内生変数がダミーなので、傾向スコアを操作変数として使うこともできる。

第1段階

選択式をプロビットまたはロジットで推定し、予測確率（傾向スコア）を計算する。

第2段階

傾向スコアを操作変数として（説明変数としてではない！）用い、アウトカム式を 2SLS で推定する（Wooldridge 2010, p.939）。

IV 法の欠点：\(\mathrm{Cov}(z, d) \neq 0\) かつ \(\mathrm{Cov}(z, u_1) = 0\) を満たす良い操作変数を見つけることは、常に難しい。

異質な処置効果と LATE

処置効果が個人ごとに異なる場合、モデルは次のようになる。

\[ \begin{aligned} & y_i = \alpha_i d_i + x_{i1}\beta_1 + u_{1i} \\ & d_i = \mathbf{1}\big[\,x_{i2}\beta_2 + \gamma_i z_i + u_{2i} > 0\,\big] \end{aligned} \]

この場合、IV は ATE も ATT も識別しない。むしろ IV は \(\alpha_i\) の加重平均を与え、重みは \(\gamma_i\)：\(E(\alpha_i \gamma_i)/E(\gamma_i)\)。すなわち操作変数が最も影響を及ぼす者ほど大きな重みを受ける。これを局所的平均処置効果（local average treatment effects, LATE）と呼ぶ。

例：労働者が職業訓練プログラムの対象資格をもち、無作為に優先番号（または案内状）\(z\) を割り当てられ、それがプログラムへの受け入れやすさに影響するとする。半数はプログラムから便益を得ると知っており参加を決めうる（彼らには \(\alpha_i = \alpha' > 0\) かつ \(\gamma_i > 0\)）。残り半数は自分にはプログラムが無効と知っており、受け入れられても参加しない（彼らには \(\alpha_i = \gamma_i = 0\)）。ATE は \(E(\alpha_i) = 0.5\alpha'\) だが、LATE は \(E(\alpha_i \gamma_i)/E(\gamma_i) = \alpha'\)。つまりこの例では、LATE は参加しそうな労働者についての因果効果であり、いかなる状況でも参加しない者には重みを与えない。対照的に ATE はすべての個人に等しい重みを置く。

したがって、重みが既知でない限り LATE の解釈は難しい。通常、研究者はサブサンプル（例：性別・年齢・地域）で回帰を走らせ、推定結果がどう変わるかを論じることで批判を避ける（伊藤 2016）。あるいは部分識別アプローチ（partial identification approach, Manski 2000）を使える。これは処置効果の「点」ではなく「バウンド（bounds）」のみを識別するが、より緩い仮定でよく、LATE ではなく ATT を明らかにする（Imbens and Wooldridge 2009, p.59）。

Professor Note

対照的に、内生性がないという仮定のもとでは、OLS は \(\alpha_i\) の平均値を与える。Stock and Watson, ch.13.6 を参照。

原典 P.107 脚注31。

SECTION 14

非遵守・ITT・遵守者平均因果効果

LATE の概念は非遵守を伴う RCT で特に重要になる。割り当て \(z\) の効果である ITT は真の処置効果を過小評価する。

すべての RCT が全員に処置を受けさせられるわけではない。たとえば、研究者が新しい肥料の作物収量への影響を知りたく、無作為に選んだ農家に肥料を提供する。しかし肥料を受け取った農家の一部はそれを使わない。これを非遵守（noncompliance）と呼ぶ。肥料使用の意思決定が収量決定要因の観察不能因子と相関すると、推定される影響はバイアスを受ける。非遵守は前述のテネシー STAR 学級規模実験でも観察された：当初大規模学級に割り当てられた一部の児童が小規模学級に移った（Duflo et al 2007）。

\(z = 1\) なら処置群に割り当て、\(z = 0\) なら統制群に割り当て。\(d = 1\) なら実際に処置を受け（実施し）、\(d = 0\) なら受けない。

処置群（\(z = 1\)）と統制群（\(z = 0\)）のアウトカムを比較する \(E[y_i \mid z = 1] - E[y_i \mid z = 0]\) はどうか。この式は、処置対象者が全員実際に処置を受ける通常の RCT では ATE を与えるが、非遵守を伴う RCT では与えない。

これは割り当て \(z\) の効果（処置意図 Intention to Treat, ITT）を捉えるが、処置 \(d\) の効果は捉えない。\(z\) は \(d\) と等しくないからである。ITT は \(d\) の真の影響を過小評価する。処置群（\(z = 1\)）の一部が処置を受けないからである。ITT は一部の設定で有用かもしれないが、政策担当者は通常、割り当て \(z\) の影響ではなく処置 \(d\) の影響を知りたい。

\(z\) を操作変数として \(y\) を \(d\) に回帰する

\(z\) は無作為で \(d\) と相関するはずなので、\(z\) は操作変数として妥当である。これは ATT か ATE か、それとも別の何かを計算するのか。対象者を4つのタイプに分けよう。

表割り当てに対する処置受領の4タイプ
タイプ	処置群に割り当てられたら処置を受けるか？	統制群に割り当てられたら処置を受けるか？
常時受領者 Always-takers	Yes	Yes
遵守者 Compliers	Yes	No
天邪鬼 Defiers（ひねくれ者）	No	Yes
決して受けない者 Never-takers	No	No

天邪鬼（defiers）がいなければ、IV 回帰は遵守者の処置効果を明らかにする：\(E[y_{1i} \mid \text{compliers}] - E[y_{0i} \mid \text{compliers}] = E[\alpha_i \mid \text{compliers}]\)。これは LATE または遵守者平均因果効果（Complier Average Causal Effect, CACE）と呼ばれる（Imbens and Angrist 1994）。遵守者とは、割り当て \(z\) を変えると処置状態が影響を受ける者である（前述の記法では \(\gamma_i\) が高い者）。

LATE は回帰を走らせずに計算することもできる（ただし標準誤差は得られない）。

\[ \mathrm{LATE} = \frac{E(y \mid z = 1) - E(y \mid z = 0)}{E(d \mid z = 1) - E(d \mid z = 0)} = \frac{\mathrm{ITT}}{\text{difference in share of receiving treatment}} \]

Professor Note

LATE の推定は、複数の説明変数があるとより複雑になる。ただし実務では結果は似る傾向がある。Abadie (2003) を参照。

原典 P.108 脚注32。

SECTION 15

回帰不連続デザイン（RDD）

政策に処置資格の閾値（threshold）があるとき、RDD が使える。閾値の直上と直下の個人は観察不能要因において本質的に同じとみなせるので、アウトカムの差を処置に帰属できる。

回帰不連続（regression discontinuity, RD）は、政策が処置の対象資格を得るための一定の閾値をもつときに適用できる。例：年金プランの対象になる年齢の閾値、財政援助の対象になる所得の閾値。閾値（不連続点）のちょうど両側にいる個人は、関連するアウトカムに影響する観察不能要因において本質的に同じとみなせる。したがって、アウトカムの差は処置に帰属できる。

RD デザインには2タイプある。

Sharp RD

シャープ RD

処置が共変量 \(s\) の決定論的関数（deterministic function）である。すなわち \(s\) が閾値を超えれば、すべての農家がプログラムに参加する。

Fuzzy RD

ファジー RD

処置を受ける確率が共変量 \(s\) の決定論的関数である。たとえば \(s\) が閾値を超えると、農家は参加するか否かを任意に選べる。

原典 P.109 の図（出典 Cameron and Trivedi）。シャープ／ファジー RD デザイン。横軸が選択変数 \(s\)、縦軸が処置を受ける頻度（probability）。シャープ RD は閾値で 0 から 1 へ垂直にジャンプし（実線・階段状）、ファジー RD は緩やかに上昇する（破線）。図は原典を参照のこと。

シャープ RD

シャープ RD は、選択が \(s\) の不連続関数のときに用いる：\(s > s_0\) なら \(d = 1\)、それ以外は \(0\)。閾値 \(s_0\) のちょうど下にいる個人の平均アウトカムは、ちょうど上にいる個人にとって妥当な反事実となる。

図 19.8（原典 P.109、出典 Greene）。回帰不連続。横軸が割当変数（Rate）、縦軸がスコア（Score）の散布図。閾値の左右それぞれに回帰直線が当てはめられ、閾値での縦方向のギャップが処置効果（RD Estimated Treatment Effect）として示される。図は原典を参照のこと。

式の単純化版を考える：\(y_i = \beta + \alpha_i d_i + u_i\)。RD の中核仮定は連続性仮定（continuity assumptions）である。

条件付き期待値の連続性

\(E[\alpha_i \mid s_i]\) と \(E[u_i \mid s_i]\) は \(s_0\) において連続である。

近傍での独立性

参加の意思決定 \(d\) は、\(s_0\) の近傍において参加利得 \(\alpha_i\) から独立である。

すると、

\[ E[y_i \mid s_i] = \beta + E[\alpha_i \mid s_i]\, E[d_i \mid s_i] + E[u_i \mid s_i] = \beta + E[\alpha_i \mid s_i]\, P[d_i = 1 \mid s_i] + E[u_i \mid s_i] \]

\(E[y_i \mid s_i]\) は、その点での \(P[d_i = 1 \mid s_i]\) の不連続の結果として、\(s_0\) で不連続になる。小さな \(\epsilon > 0\) を用いると、

\[ E[y_i \mid s_0 + \epsilon] - E[y_i \mid s_0 - \epsilon] = \Big\{ E[\alpha_i \mid s_0 + \epsilon]\, P[d_i = 1 \mid s_0 + \epsilon] - E[\alpha_i \mid s_0 - \epsilon]\, P[d_i = 1 \mid s_0 - \epsilon] \Big\} + \Big\{ E[u_i \mid s_0 + \epsilon] - E[u_i \mid s_0 - \epsilon] \Big\} \]

\(\epsilon \to 0\) の極限をとると、連続性仮定により誤差項の差は消え、処置効果が次のように識別される。

\[ E[\alpha_i \mid s_0] = \frac{\displaystyle\lim_{s \downarrow s_0} E[y_i \mid s] - \lim_{s \uparrow s_0} E[y_i \mid s]}{\displaystyle\lim_{s \downarrow s_0} P[d_i = 1 \mid s] - \lim_{s \uparrow s_0} P[d_i = 1 \mid s]} \]

シャープ RD では、分母は 1 に簡約される（閾値で処置確率が 0 から 1 へジャンプするため）。これは特性 \(s\) が \(s_0\) の周辺にある個人についての処置効果を測る。ATE でも ATT でもなく、より局所的（local）な処置効果の尺度である。

SECTION 16

RDD の推定とシャープ/ファジー

シャープ RD は OLS（多項式 \(f(s_i)\) 付き）、ファジー RD は閾値ダミーを操作変数とする 2SLS で推定する。「時間」での不連続には注意。

例 ― 奨学金と大学院進学

アメリカの高校生はテストスコアに基づいて奨学金を授与される。奨学金保持者は大学院に進学しやすいか。シャープ RD は、閾値のちょうど上のスコアの学生と、ちょうど下のスコアの学生の大学院進学率を比較する。スコアの高い学生は（能力などにより）奨学金とは無関係に大学院に進学しやすいと予想されるが、これは授与の閾値の近傍で大学院進学率とテストスコアの関係に回帰を当てはめることで制御される。

Professor Note ― 農業分野での RD 活用

農業分野の文献は、地域境界（Grout et al 2011）、農場規模（Chang and Lin 2015）、年齢（Chang 2013, 2017）、タイミング（Fuje 2018; Aysoy et al. 2015; Ruan et al. 2021）、距離（Pan et al 2018）、所得（Sharma et al. 2019）、人口（Asher and Novosad 2020）における不連続を活用している。

原典 P.110。

ファジー RD

例：\(y\) は生徒のテストスコア、\(d\) は学級規模（二値ではない）、\(s\) は同学年の生徒総数。政府が最大学級規模を40人と定めるとする。すると40人までの学年の生徒は最大40人の学級に入ると予想できるが、41人の学年は2学級に分割される。よって \(s = 40\) の周辺で学級規模に不連続が生じる。これがファジー RD である。学級規模（\(d\)）と \(s\) の関係が一対一でないからである。たとえば \(s = 40\) のとき、学級規模はほとんどの場合40人だが、一部の学校では2学級に分割されうる。

図 6.2.1（原典 P.110、出典 Angrist and Lavy 1999）。ファジー RD の第1段階：回帰不連続による学級規模（Class size）の推定。横軸が学年の登録者数（Enrollment count）、縦軸が学級規模。実線が実際の学級規模、破線が「マイモニデスの法則（Maimonides Rule）」に基づく予測。40・80・120人付近で鋸歯状の不連続が見られる。図は原典を参照のこと。

RD の欠点：RD の大きな欠点は、参加の確率（odds）の不連続な変化に依存する点である。これは、与えられた点での平均パラメータのみが識別可能であることを意味する。処置効果 \(\alpha\) が \(s\) とともに変化する場合、これは問題になりうる。

「時間」での不連続には注意が必要（Hausman and Rapson 2018）。年次データ（Yearly data）：識別は非常に困難。日次データ（Daily data）：可能だが特有の問題がある。実施の遅れ（Delay in implementation）：可能。

推定法（Estimation method）

上記の処置効果（極限の比）を推定するには、\(s_0\) の両側で平均の差をとればよい。だがこの方法は（もちろんノンパラメトリックだが）有限標本ではあまり良い性能を示しそうにない。バイアスを減らすにはノンパラメトリックな局所線形回帰（local linear regression）法を使える（Angrist and Pischke, p.263）。

シャープ RDでは、次式の OLS が一致推定値を与える（Cameron and Trivedi, p.880; Angrist and Pischke, p.255）。

\[ y_i = \beta + \alpha d_i + f(s_i) + u_i \]

\(f(s_i)\) は \(s_i\) の関数（例：\(\gamma_1 s_i + \gamma_2 s_i^2\)）。ただし \(f(s_i)\) を誤って特定すると、OLS 推定量はもはや一致しない。一方、ノンパラメトリック版のシャープ RD は関数形を一切課さない。

ファジー RDでは、次の手順の 2SLS が一致推定値を与える（Cameron and Trivedi, p.882; Angrist and Pischke, p.262）。

第1段階

\(d_i = g(s_i) + \pi T_i + u_{2i}\) を OLS で走らせる。ここでダミー変数 \(T \equiv \mathbf{1}[s_i > s_0]\) を操作変数として用い、パラメータ \(\pi\) は \(s_0\) における傾向スコアの不連続を表す。

第2段階

\(y_i = \beta + \alpha\, \hat{d}_i + f(s_i) + u_i\) を OLS で走らせる。\(f(s_i)\) と \(g(s_i)\) を正しく特定すれば、この2段階手順は一致する。

SECTION 17

合成統制法と手法の比較

共通トレンドが成り立たないときの選択肢が合成統制法（synthetic control）である。最後に、実験と非実験の比較、そして全手法の選択指針を一望する。

合成統制法（Synthetic control method）

共通トレンドが成り立たない場合、合成統制法（Abadie et al 2010）を使える。処置前期間で共通トレンド仮定を満たすように各統制群へ重みを導き、統制群アウトカムの加重平均を計算して、処置群と比較する。ただし当てはまり（fit）が低いなら、この方法を使うべきでない。（出典：原典 P.105。代表文献 Abadie, Diamond, and Hainmueller 2010 はカリフォルニアのたばこ規制プログラムの効果を推定。）

実験 vs 非実験（Experiments vs Non-Experiments）

結果はまちまちである。非実験的手法が実験結果をかなりよく再現できるとする研究もあれば、より否定的な研究もある。

RD の性能は良い

Cook, Shadish and Wong (2006)、Buddlemeyer and Skofias (2003)。

PSM

制御変数が多ければ PSM はうまくいく

Diaz and Handa (2006)：多数の制御変数が利用可能なとき PSM は良好。

DID

マッチング併用の DID は実験結果に近い

Ferraro and Miranda (2017)：DID とマッチングデザイン（一対一共変量マッチング）の併用は、マッチングなしの DID より良好で、推定値は実験結果に非常に近い。ただし同じアプローチは Wichman and Ferraro (2017) ではうまくいかない。詳細は Duflo et al (2007) を参照。

手法の選択指針 ― まとめ表

選択メカニズムに応じて、必要となる道具（IV・パネルデータ・パラメトリックか否か）が異なる。

表選択メカニズム別の手法選択（原典 P.112）
手法	選択メカニズム	IV 必要？	パネル必要？	パラメトリック？
無作為化実験	無作為化（Random）	No	No	No
OLS	観察可能変数による選択	No	No	Yes
マッチング	観察可能変数による選択	No	No	1段階：Yes 2段階：No
FE（固定効果）	（時間不変の）観察不能変数による選択	No	Yes	Yes
DID	（時間不変の）観察不能変数による選択	No	Yes （反復クロスセクションも可）	No
IV	観察不能変数による選択	Yes	No	Yes
シャープ RD	観察可能変数による選択（\(s\) のみ）	No	No	Yes or No
ファジー RD	観察不能変数による選択（\(s\) と観察不能の両方）	No （\(s\) が IV の役割）	No	Yes or No

SECTION 18

まとめ・発展文献・参考文献

本章は、因果効果そのものを測る手法群を選択メカニズムの仮定に応じて整理した。理想は RCT、観察データでは仮定の強さと使える道具に応じて手法を選ぶ。

処置効果の推定とは、結局のところ「反事実をどう作るか」の問題である。RCT は無作為化で反事実を保証し、観察データの各手法（マッチング・DID・IV・RDD・合成統制法）は、それぞれ異なる仮定のもとで反事実を近似する。仮定が成り立つかを点検し、何の平均効果（ATE / ATT / LATE / 局所効果）を推定しているのかを明示することが要諦である。

発展文献（Further Readings）

全般（General）

（ごく入門）中室 (2017)、伊藤 (2017)
（入門）Khandker et al (2009)；森田 (2014)
（中級）Angrist and Pischke；Abadie and Cattaneo (2018)；Todd (2007)；Wooldridge 2010, ch.21；Greene, ch.19.6；Cameron and Trivedi, ch.25；Imbens and Wooldridge (2009)
Plantinga (2021) は衛星データ向けの各種推定量（PSM・IV・DID・RD・RCT）の利用法をレビュー。

手法別（RCT / DID / IV / RD）

RCT：Duflo, et al. (2007)（邦訳『政策評価のための因果関係の見つけ方』）；青柳・小林 (2019)『経済セミナー』連載「EBPM の思考法」
DID：Wing et al 2018；農業経済学分野のレビュー川崎 (2021)
IV：Imbens (2014)；Sovey and Green (2011)；農業経済学分野のレビュー川崎 (2022)
RD：Lee and Lemieux (2010) JEL；Skovron and Titiunik (2015)；農業経済学分野のレビュー川崎 (2020)

Professor Note ― 対数従属変数と DID の落とし穴

処置群と統制群でベースラインのアウトカム水準が大きく異なるとき、水準（levels）と対数（logs）のどちらを選ぶかが結果を劇的に変えうる。極端な場合、推定された処置効果の符号さえ変わりうる。研究者は、平行トレンドを満たすように見えるのはどの定式化か、ではなく、経済的文脈に基づいて、適切なモデルが加法的（水準）か乗法的（パーセント成長）かを事前（a priori）に決めるべきである（McConnell 2024）。

原典 P.105 脚注30。論文題名は McConnell B (2024) "Can't See the Forest for the Logs: On the Perils of Using Difference-in-Differences With a Log-Dependent Variable."

参考文献（References）― 主要抜粋

Abadie, A., & Cattaneo, M. D. (2018). "Econometric methods for program evaluation." Annual Review of Economics, 10, 465-503.
Abadie, A., Diamond, A., & Hainmueller, J. (2010). "Synthetic control methods for comparative case studies: Estimating the effect of California's tobacco control program." Journal of the American Statistical Association, 105(490), 493-505.
Abadie, Alberto. (2003). "Semiparametric Instrumental Variable Estimation of Treatment Response Models." Journal of Econometrics 113: 231–63.
De Chaisemartin, C., and X. D'Haultfoeuille. (2020). "Two-Way Fixed Effects Estimators With Heterogeneous Treatment Effects." American Economic Review 110(9): 2964–2996.
Duflo, E., Glennerster, R., & Kremer, M. (2007). "Using randomization in development economics research: A toolkit." Handbook of Development Economics, vol.4, ch.61, pp.3895-3962.
Ferraro, P. J., & Miranda, J. J. (2017). "Panel data designs and estimators as substitutes for randomized controlled trials in the evaluation of public programs." JAERE, 4(1), 281-317.
Fong, C., Hazlett, C., and Imai, K. (2018). "Covariate Balancing Propensity Score for a Continuous Treatment." Annals of Applied Statistics 12(1): 156–77.
Hausman, C., & Rapson, D. S. (2018). "Regression discontinuity in time: Considerations for empirical applications." Annual Review of Resource Economics, 10, 533-552.
Imbens, G. W., & Wooldridge, J. M. (2009). "Recent developments in the econometrics of program evaluation." Journal of Economic Literature, 47(1), 5-86.
Imbens, G., Angrist, J. (1994). "Identification and estimation of local average treatment effects." Econometrica 62(2), 467–476.
Khandker, S., Koolwal, G. B., & Samad, H. (2009). Handbook on Impact Evaluation: Quantitative Methods and Practices. The World Bank.
Lee, D. S., & Lemieux, T. (2010). "Regression discontinuity designs in economics." Journal of Economic Literature, 48(2), 281-355.
Manski, C., and Pepper, J. (2000). "Monotone Instrumental Variables: With an Application to the Returns to Schooling." Econometrica, 68(4), 997–1010.
McConnell, B. (2024). "Can't See the Forest for the Logs: On the Perils of Using Difference-in-Differences With a Log-Dependent Variable." Working paper.
Roth, J., Sant'Anna, P., Bilinski, A., Poe, J. (2023). "What's trending in difference-in-differences? A synthesis of the recent econometrics literature." J. Econometrics 235(2), 2218–2244.
Todd, P. E. (2007). "Evaluating social programs with endogenous program placement and selection of the treated." Handbook of Development Economics, vol.4, ch.60, pp.3847-3894.
Wing, C., Simon, K., & Bello-Gomez, R. A. (2018). "Designing difference in difference studies: best practices for public health policy research." Annual Review of Public Health, 39.
Wooldridge, J. (2021). "Two-way fixed effects, the two-way Mundlak regression, and difference-in-differences estimators." SSRN: http://dx.doi.org/10.2139/ssrn.3906345
伊藤公一朗 (2017)『データ分析の力因果関係に迫る思考法』光文社新書.
伊藤成朗 (2016)「開発経済学」『進化する経済学の実証分析（経済セミナー増刊）』経済セミナー編集部編、日本評論社.
川崎賢太郎 (2020)「農業政策の効果測定手法：回帰不連続デザイン」『農林水産政策研究』第33号、pp.63-75.
川崎賢太郎 (2021)「農業政策の効果測定手法：差分の差分法」『農林水産政策研究』第35号、pp.19-30.
川崎賢太郎 (2022)「農業政策の効果測定手法：操作変数法」『農林水産政策研究』第36号、pp.13-29.
鈴木綾 (2019)「開発ミクロ実証経済学は実験系論文に寄せられる課題を解消しているか？ ─開発経済学ジャーナルのシステマティックレビューを基に─」『農業経済研究』.
中室牧子・津川友介 (2017)『「原因と結果」の経済学─データから真実を見抜く思考法』.

出典：原典 P.112–114。Greene、Cameron and Trivedi、Wooldridge (2010)、Stock and Watson、Angrist and Pischke は本章で繰り返し参照される標準教科書。Chang・Grout・Fuje・Pan・Sharma・Asher and Novosad ほか農業分野の RD 応用文献の完全な書誌は原典 P.113–114 を参照。

潜在結果フレームワーク ― 処置効果とは

ATE と ATT ― 平均処置効果

平均処置効果Average Treatment Effects

処置群における平均処置効果ATE on the Treated

反事実と選択バイアス

潜在結果のモデル化と内生性

RCT ― 無作為化比較試験

RCT の欠点（Drawbacks）

費用と時間がかかる

外的妥当性（external validity）

観察可能変数による選択（非交絡）

OLS と完全マッチング

完全（共変量）マッチング ― Exact (covariate) matching

OLS

傾向スコアマッチング（PSM）

第1段階 ― 処置確率の推定

第2段階 ― 反事実アウトカムの近似

1-最近傍マッチングの数値例

他の重み（Other weights）

N-最近傍マッチング（N nearest-neighbour matching）

カーネルマッチング（kernel matching）

半径マッチング（radius matching）

PSM の前提・推論・OLSとの比較

ATT 推定に必要な2条件

弱い形の非交絡 ― \(E[y_0 \mid d, x] = E[y_0 \mid x]\)

共通サポート（重なり）条件 ― Common support / overlap

ATE 計算にはより強い仮定が要る

OLS とマッチングの比較

OLS

マッチング推定量

観察不能変数による選択

差の差分法（DID）

DID の前提検証・欠点・TWFE

共通トレンド仮定（Common trend assumption）の点検

処置前期間のプロット

プラセボ検定（Placebo test）

DID の欠点（Drawbacks）

異質な処置効果（Heterogeneous treatment effects）

操作変数法（IV）と LATE

伝統的 IV ― 処置効果が一定の場合

第1段階

第2段階

異質な処置効果と LATE

非遵守・ITT・遵守者平均因果効果

\(z\) を操作変数として \(y\) を \(d\) に回帰する

回帰不連続デザイン（RDD）

シャープ RD

ファジー RD

シャープ RD

条件付き期待値の連続性

近傍での独立性

RDD の推定とシャープ/ファジー

例 ― 奨学金と大学院進学

ファジー RD

推定法（Estimation method）

第1段階

第2段階

合成統制法と手法の比較

合成統制法（Synthetic control method）

実験 vs 非実験（Experiments vs Non-Experiments）

RD の性能は良い

制御変数が多ければ PSM はうまくいく

マッチング併用の DID は実験結果に近い

手法の選択指針 ― まとめ表

まとめ・発展文献・参考文献

発展文献（Further Readings）

全般（General）

手法別（RCT / DID / IV / RD）

参考文献（References）― 主要抜粋

平均処置効果
Average Treatment Effects

処置群における平均処置効果
ATE on the Treated