数量経済分析 図解ポータル
Chapter 18  ·  Part V 因果推論と応用  ·  原典 P.100–114  ·  全文和訳

処置効果(プログラム評価) ― Treatment Effects (Program Evaluation)

本ページは、川崎賢太郎『数量経済分析』2026 S1 講義ノート第18章の原文に忠実な全文和訳である。要約・再構成は行わず、原文の論理展開・数式・脚注・参考文献の順序をそのまま日本語に移している。直観的な理解には図解版を併用されたい。

川崎賢太郎(東京大学大学院農学生命科学研究科) 原典 P.100–114 全文和訳
図解で読む 原文に忠実な和訳

Spring 2026 / Kentaro Kawasaki

背景Background

動機(Motivation):ある処置 \(d\)(ダミー変数)への参加が、アウトカム \(y\) に与える効果である。

たとえば \(d = \) 職業訓練プログラム(job training programs)、\(y = \) 賃金(wage)

\(d = 1\) の人々を処置群(treated group)と呼び、\(d = 0\) の人々を統制群(control group)と呼ぶ。

各個人には、処置を受けた場合の潜在結果(potential outcome with treatment)(\(y_{1i}\) と表記)と、処置を受けなかった場合の潜在結果(potential outcome without treatment)(\(y_{0i}\) と表記)が存在する。

処置効果(treatment effect)とは、これら2つの量の差である。すなわち \(y_{1i} - y_{0i}\)28

処置効果は個人ごとに異なる(varies by individual)ことを許す。しかし、個人レベルで処置効果を測定することは不可能である。そのため研究者は、何らかの平均的な指標(average measures)に焦点を当てる。

典型的には2つの指標が用いられる。

各個人については、\(y_{1i}\) か \(y_{0i}\) のどちらか一方しか観測できない(個人は \(d = 1\) か \(d = 0\) の2つの状態のうち一方にしか存在しないため)。したがって、ATE も ATT も直接には計算できない。

観測できないほうの状態を反事実(counterfactual)と呼ぶ。

さらに、選択(selection)が存在する場合(すなわち個人が処置を受けるか否かを自ら選ぶ場合)、処置群の平均アウトカム \(E[y_{1i} \mid d_i = 1]\) は \(E[y_{1i}]\) の妥当な推定値ではない。

\[ E[y_{1i}] = E\big[\,E[y_{1i} \mid d_i]\,\big] \ \text{(全期待値の法則)} = \ E[y_{1i} \mid d_i = 1] \ \text{と}\ E[y_{1i} \mid d_i = 0]\ \text{を母集団で加重した平均} \]

問題は、選択がある場合、\(E[y_{1i} \mid d_i = 0]\)(観測不能)が \(E[y_{1i} \mid d_i = 1]\)(観測可能)と同じとは限らない点にある。

同様に、非処置群の平均アウトカム \(E[y_{0i} \mid d_i = 0]\) も \(E[y_{0i}]\) の妥当な推定値ではない。

たとえば \(d = \) 職業訓練プログラム、\(y = \) 賃金。高学歴の労働者が低学歴の労働者よりも頻繁に職業訓練プログラムに参加するなら、平均賃金は職業訓練プログラムの効果だけでなく、教育水準をも反映してしまう。したがって、単純な平均賃金の差は職業訓練プログラムの効果ではない。

潜在結果を次のように定式化しよう。当面、\(y\) に影響しうる他の共変量は捨象する。

\[ \begin{aligned} y_{1i} &= \beta + \alpha_i + u_i \qquad &&\text{if } d_i = 1 \\ y_{0i} &= \beta \phantom{{}+ \alpha_i} + u_i \qquad &&\text{if } d_i = 0 \end{aligned} \]

したがって、

\[ y_i = d_i\, y_{1i} + (1 - d_i)\, y_{0i} = \beta + \alpha_i\, d_i + u_i \]

ここで \(\alpha_i\) は個人 \(i\) の処置効果である。

項を整理すると、

\[ y_i = \beta + \alpha_i\, d_i + u_i = \beta + E[\alpha_i]\, d_i + \big[\,u_i + d_i(\alpha_i - E[\alpha_i])\,\big] \equiv \beta + E[\alpha_i]\, d_i + e_i \]

ここで \(E[\alpha_i]\) は ATE(\(\alpha_i\) の平均)である。

もし \(d\) が \(u\) または \(\alpha_i - E[\alpha_i]\) と相関するならば、内生性(endogeneity)が生じ、OLS 推定量は \(E[\alpha_i]\) の一致推定値を与えない。

RCT:無作為化比較試験RCT: Randomized controlled trials

最も強力で説得的な手法は、無作為化比較試験(randomized controlled trials, RCT)である。

RCT では、くじ引き(lottery)が個人に処置を与えるか否かを決める。すなわち、処置群への割り当ては純粋に無作為な事象である。

例:テネシー STAR 実験(the Tennessee STAR experiment)。この実験は、小学校における少人数学級の効果を推定するために設計された。生徒は3種類の学級のうち1つに無作為に割り当てられた。結果は、学級規模が小さいほどテストスコアが約5%上昇することを示唆した。

処置が個人にわたって無作為化されていれば、平均処置効果の推定は単純である。必要なのは、2群の平均アウトカムを比較することだけである。

無作為化は、潜在結果 \((y_{1i}, y_{0i})\) が処置状態 \(d_i\) と統計的に独立であることを保証する。すなわち、

\[ \begin{aligned} E[y_{1i} \mid d_i = 1] &= E[y_{1i} \mid d_i = 0] = E[y_{1i}] \\ E[y_{0i} \mid d_i = 1] &= E[y_{0i} \mid d_i = 0] = E[y_{0i}] \end{aligned} \]

(第1式:処置ありの潜在結果は処置群でも非処置群でも同じ。第2式:処置なしの潜在結果も処置群・非処置群で同じ。原文では観測不能な条件付き期待値が灰色で示されている。)

したがって、

\[ \mathrm{ATE} \equiv E[y_{1i} - y_{0i}] = E[y_{1i}] - E[y_{0i}] = E[y_{1i} \mid d_i = 1] - E[y_{0i} \mid d_i = 0] \]

最後の2項は観測可能なので、ATE を計算できる。

\[ \widehat{\mathrm{ATE}} = \bar{y}^{\,T} - \bar{y}^{\,U} \]

ここで \(\bar{y}^{\,T}\) は処置群の平均アウトカム、\(\bar{y}^{\,U}\) は非処置群の平均アウトカムである。

さらに、次が従う。

\[ \mathrm{ATT} \equiv E[y_{1i} - y_{0i} \mid d_i = 1] = E[y_{1i} \mid d_i = 1] - E[y_{0i} \mid d_i = 1] = E[y_{1i}] - E[y_{0i}] = \mathrm{ATE} \]

したがって、この場合 ATE = ATT となる。

このように、RCT は平均差(difference-in-means)が ATE と ATT の不偏推定値であることを保証する。

RCT の欠点(Drawbacks of RCT)

費用と時間がかかる(例:STAR 実験は1200万ドルを要し、4年間にわたった)。

途上国で実験を行うこと、社会実験ではなく実験室実験(laboratory experiments)を行うこと、「ナッジ(nudge)」実験を行うことなどにより、予算を削減できる。

外的妥当性(External validity):結果がそのプログラム固有のものであり、より広くは適用できないかもしれない。因果のメカニズムが不明確である。鈴木 (2019) を参照。

これらの理由から、多くの経済研究は依然として非実験(観察)データ(non-experimental / observational data)を用いる。非実験データの場合、個人が処置を受けるか否かを少なくとも部分的には自ら決めている(選択)と仮定しなければならない。これは \((y_1, y_0)\) と \(d\) の独立性を破壊するため、単純な平均差は ATE を反映しない。

観察可能変数による選択Selection on observables

観察可能変数による選択の仮定(selection on observables assumption。条件付き独立性 conditional independence、無視可能性 ignorability、非交絡 unconfoundedness の仮定とも呼ばれる):\(x\) を所与とすれば、\((y_1, y_0)\) と \(d\) は独立である。すなわち、

\[ E[y_1 \mid x, d = 1] = E[y_1 \mid x, d = 0] \quad \text{あるいは同値に} \quad E[y_1 \mid x, d] = E[y_1 \mid x] \]

言葉で言えば、同じ \(x\) の値をもつ個人どうしを比較すれば、処置下の期待アウトカムは処置個人でも非処置個人でも同じ、ということである。\(y_0\) についても同様の議論が成り立つ。

\[ E[y_0 \mid x, d = 1] = E[y_0 \mid x, d = 0] \quad \text{あるいは同値に} \quad E[y_0 \mid x, d] = E[y_0 \mid x] \]

たとえば \(d = \) 職業訓練プログラム、\(y = \) 賃金で、教育(\(x\))によって生じる選択バイアスを懸念しているとする。このとき、教育を制御すれば、観察可能変数による選択の仮定のもとで処置効果を一致推定できる。

\(x\) を制御する方法はいくつかある。

完全(共変量)マッチング(Exact (covariate) matching)\(x\) が離散で少数の値しか取らないなら、\(x\) の値が同一の個人どうしを比較することで処置効果を計算できる。たとえば \(x\) がスカラーで \(x_1\) または \(x_2\) のいずれかを取るとき、\(k\)(\(k = 1, 2\))について \(E[y_1 \mid x = x_k, d = 1] - E[y_0 \mid x = x_k, d = 0]\) を平均することで ATT を推定できる。

しかし応用研究では通常、データを \(x\)–\(d\) 別のセル(cells)に分割することは非現実的か不可能である。\(x\) は多数の変数を含み、その一部は離散ではなく連続であることが多いからである。こうした場合、\(x\) を制御する方法は2つある ― OLS と傾向スコアマッチング(propensity score matching, PSM)である。

OLS

\[ y_i = \beta + \alpha_i\, d_i + x_i \beta + u_i \]

参加の意思決定 \(d\) が \(u\) と無相関(ただし \(x\) とは相関しうる。すなわち観察可能変数による選択)であると仮定する。すると、

\[ y_i = \beta + \alpha_i\, d_i + x_i \beta + u_i = \beta + E[\alpha_i]\, d_i + x_i \beta + \big[\,u_i + d_i(\alpha_i - E[\alpha_i])\,\big] \]

もしパラメータの異質性 \((\alpha_i - E[\alpha_i])\) が \(d\) と \(x\) の双方と無相関ならば、OLS は \(E[\alpha_i]\)(ATE)の一致推定値を与える。

傾向スコアマッチング(PSM)Propensity score matching (PSM)

\(x\) が多数あると、これらすべてで同時にマッチングするのは困難である。幸い、代わりに傾向スコアでマッチングするという回避策がある。

手続き(Procedure)

第1段階:次式を二値反応モデル(binary response model、例:ロジットまたはプロビット)で推定する。

\[ d_i = x_i \beta + u_i \]

すると、処置を受ける確率を計算できる。\(\mathrm{Prob}(d = 1) = F(x\beta) \equiv P(x)\)。この確率 \(P\) を傾向スコア(propensity score)と呼ぶ。

第2段階:処置を受けた個人 \(i\) の反事実アウトカム(\(y_{0i}\))を、個人 \(i\) と似た傾向スコアをもつ非処置者の平均アウトカムとして計算する。

数式で書くと、次のように表せる。

\[ \widehat{\mathrm{ATT}} = \frac{1}{N_T} \sum_{i \in \{d=1\}} \left( y_{1i} - \sum_{j \in \{d=0\}} w_{ij}\, y_{0j} \right) \]

ここで \(w\) は重み、\(N_T\) は処置された観測値の数である。

最後の項は、処置個人 \(i\) の \(y_{0i}\)(反事実)の推定値である。

最も単純な重みは次の通りである。最近傍(nearest neighbour、最も似た \(P\))について \(w = 1\)、それ以外は \(0\)。

これを 1-最近傍マッチング(1 nearest-neighbour matching)と呼ぶ。

1-最近傍マッチングの数値例:

処置群(Treated)
\(i\)\(X_1\)\(X_2\)\(P\)\(Y\)
10.8020
20.10120
30.012
40.5080
非処置群(Untreated)
\(j\)\(X_1\)\(X_2\)\(P\)\(Y\)
10.11105
20.3560
30.7975
40.025

※ 原典 P.103 掲載の数値例を表として再現。傾向スコア \(P\) が最も近い相手をマッチングする(例:処置 \(i=1\)(\(P=0.80\))には非処置 \(j=3\)(\(P=0.79\))、処置 \(i=3\)(\(P=0.01\))には非処置 \(j=4\)(\(P=0.02\)))。

他の重みも可能である。

なぜ PSM は機能するのか。観察可能変数による選択の仮定(\(x\) を所与とすれば \((y_{1i}, y_{0i})\) と \(d\) は独立)のもとでは、傾向スコア \(P\) を所与としても \((y_{1i}, y_{0i})\) と \(d\) は独立である、ということもまた成り立つ。

\[ \begin{aligned} E[y_0 \mid d = 1, P(x)] &= E[y_0 \mid d = 0, P(x)] \\ E[y_1 \mid d = 1, P(x)] &= E[y_1 \mid d = 0, P(x)] \end{aligned} \]

第1式は、処置群の反事実アウトカム(\(E[y_0 \mid d = 1, P(x)]\))を、傾向スコア \(P\) が同じであれば、非処置群の実際のアウトカム(\(E[y_0 \mid d = 0, P(x)]\))として近似できることを示している。

ATT を推定するには、2つの条件が必要である。

  1. \(E[y_0 \mid d, x] = E[y_0 \mid x]\)。これは観察可能変数による選択の仮定の弱い版である。\(E[y_1 \mid x, d] = E[y_1 \mid x]\) は不要だからである(したがって必要条件は OLS より弱い)。この条件を満たすには、処置への選択を決める豊富な変数群が必要である。
  2. 共通サポート(重なり)条件(Common support / overlap condition):\(0 < P(d = 1 \mid x) < 1\)。これは、任意の \(x\) の値について、処置個人と非処置個人の両方が観察される可能性があることを意味する。処置群のみ、あるいは非処置群のみの領域があれば、マッチングは共通サポートの領域上で行われるときにのみ正当化される。

PSM はセミパラメトリック手法(semi-parametric method)である。第1段階(プロビット)はパラメトリックだが、第2段階は関数形を一切仮定しない。

\(x\) の選択:参加について決定する時点で個人が利用可能な変数を使う(処置によって影響を受ける変数は含めるべきでない)。その他の指針は Todd (2007) p.3868-70 を参照。

推論のためには、ATT の標準誤差を推定する必要がある。傾向スコアは真値ではなく、(二値選択モデルで)推定された値であったことを思い出そう。第2段階の標準誤差は、傾向スコアがある程度の不確実性をもって推定されているという事実を考慮しなければならない。標準誤差を推定する、人気があり比較的単純な方法の一つが、ブートストラップ(bootstrapping)である29

ATE の計算にはより強い仮定(\(E[y_0 \mid d, x] = E[y_0 \mid x]\) と \(E[y_1 \mid d, x] = E[y_1 \mid x]\) の双方)が必要で、\(y_{1i}\) も推定しなければならない(Wooldridge, 2010, p.914, 命題21.2 を参照)。このため、PSM を用いる大半の研究者は ATT に焦点を当てる。

OLS とマッチングの比較OLS vs Matching

OLS は実装と解釈が容易である。

OLS は共通サポートの概念を無視し、特定の関数形を仮定する。

これに対しマッチング推定量は、共通サポートの領域内の観測値のみを用いて処置効果を推定する。さらに、第2段階に関数形の仮定がなく、これは魅力的である。しかし、共通サポートの領域外の処置群に対する処置効果は決して推定できない。

OLS は \(E[y_1 \mid x, d] = E[y_1 \mid x]\) と \(E[y_0 \mid d, x] = E[y_0 \mid x]\) の両方(観察可能変数による選択の仮定)を要するのに対し、マッチングは後者のみを要する。

発展トピックAdvanced topic

Fong (2018) は、連続的な処置変数に使える一種の PSM 手法 ― 共変量バランシング一般化傾向スコア(covariate balancing generalized propensity score, CBGPS) ― を開発した。

観察不能変数による選択Selection on unobservables

観察不能変数による選択(Selection on unobservables):選択の意思決定が部分的に観察不能変数に基づく。したがって、\(x\) を条件づけた後でも、\((y_1, y_0)\) と \(d\) はもはや独立ではない。

\[ \begin{aligned} E[y_1 \mid x, d = 1] &\neq E[y_1 \mid x, d = 0] \\ E[y_0 \mid x, d = 1] &\neq E[y_0 \mid x, d = 0] \end{aligned} \]

たとえば \(d = \) 職業訓練プログラム、\(y = \) 賃金。職業訓練プログラムへの参加が観察不能な労働者の能力(ability)に依存するなら、平均賃金は職業訓練プログラムの効果だけでなく、能力をも反映する。教育のような観察可能な特性を制御した後でも、処置効果を一致推定できない。

観察不能変数による選択の仮定のもとで処置効果を推定する方法はいくつかある。すなわち、差の差分法(difference-in-difference, DID)推定量、操作変数法(instrumental variable method)、回帰不連続デザイン(regression discontinuity design)である。

DID:差の差分法DID: difference-in-differences

処置効果が一定(\(\alpha_i = \alpha\))であるモデルを考える。

\[ y_{it} = \alpha\, d_{it} + a_i + b_t + u_{it} \]

ここで \(i\) は観測単位(個人または集団レベル)である。

最も単純な DID は、2時点(\(t = 1, 2\))にわたる2単位(\(i = 1, 2\))のみを要し、処置は第1時点と第2時点の間に生じる。

階差をとった式 \(\Delta y_{it} = \alpha\, \Delta d_{it} + \Delta b_t + \Delta u_{it}\) において、\(d\) と \(u\) は無相関と仮定する。すると、次が示せる。

\[ E[\Delta y_{it} \mid \Delta d_{it} = 1] = \alpha + E[\Delta b_t \mid \Delta d_{it} = 1] \]
\[ E[\Delta y_{it} \mid \Delta d_{it} = 0] = E[\Delta b_t \mid \Delta d_{it} = 0] \]

DID の中核仮定は「共通(平行)時間トレンド(common / parallel time trend)」である。すなわち、トレンドが処置群と非処置群で共通であること:\(E[\Delta b_t \mid \Delta d_{it} = 1] = E[\Delta b_t \mid \Delta d_{it} = 0]\)。

すると、\(\alpha = E[\Delta y_{it} \mid \Delta d_{it} = 1] - E[\Delta y_{it} \mid \Delta d_{it} = 0]\)。

図 5.2.1(原典 P.105、出典:Angrist and Pischke)。DID モデルにおける因果効果の図。横軸は処置の前(Before)・後(After)、縦軸は雇用率(Employment rate)。処置群の雇用トレンド(employment trend in treated group)と統制群の雇用トレンド(employment trend in control group)の実線に加え、処置群の反事実トレンド(counterfactual trend、破線)が描かれ、処置後における処置群の実測値と反事実値との差が処置効果(Treatment Effect)として図示される。図そのものは原典を参照のこと。

この式は、ATT が「差の差(difference in difference)」として計算できることを示している。

\[ \widehat{\mathrm{ATT}} = \big(\bar{y}^{\,T}_{t_1} - \bar{y}^{\,T}_{t_0}\big) - \big(\bar{y}^{\,U}_{t_1} - \bar{y}^{\,U}_{t_0}\big) \]

ここで \(\bar{y}^{\,T}\) は処置群の平均アウトカム、\(\bar{y}^{\,U}\) は非処置群の平均アウトカムである(\(t_0\) は処置前、\(t_1\) は処置後)。

ただし実務では標準誤差を計算する必要があるので、元の式に固定効果(fixed effect)を走らせるか、階差をとった式(\(\Delta y_{it} = \alpha\, \Delta d_{it} + \Delta b_t + \Delta u_{it}\))に OLS を適用すべきである。

\(d\) と \(u\) を相関させる交絡因子(confounders)がありうると疑われる場合、制御変数(\(x_{it}\))を加えれば、その相関を除去できるかもしれない。

\[ y_{it} = \alpha\, d_{it} + x_{it}\beta + b_t + u^*_{it} \]

ここで新しい固有誤差 \(u^*\)(\(= u_{it} - x_{it}\beta\))は \(d\) と無相関と仮定される。

共通トレンド仮定Common trend assumption

この仮定を点検する最も単純な方法は、処置前期間における処置群と非処置群の \(y\) を比較することである。平均 \(y\) をグラフに描き、それらが平行(parallel)かどうかを見る。これには処置前期間のデータが必要である。

処置前期間を用いたプラセボ検定(Placebo test):処置前期間のいずれかで処置が起きたと仮定する。これはもちろん偽の「プラセボ」なので、処置効果はゼロのはずである。推定された処置効果が有意であれば、共通トレンド仮定の違反の兆候かもしれない。

共通トレンド仮定は \(y\) の形に依存することに注意したい。\(y\) について成り立っても、\(\log(y)\) については成り立たないかもしれない30

共通トレンドが成り立たない場合、合成統制法(synthetic control method, Abadie et al 2010)を使うことができる。これは、処置前期間で共通トレンド仮定を満たすように各統制群へ重みを導き、次いで統制群アウトカムの加重平均を計算し、それに処置群を比較する。ただし、当てはまり(fit)が低い場合は、この方法を使うべきでない。

あるいは、共通トレンド仮定を満たすことを期待して、傾向スコア(PSM)または共変量(Ferraro and Miranda 2017)に基づいて処置群と統制群をマッチングすることもできる。これらの方法は処置前期間のデータを要しないため、この仮定を明示的に検定することはできない。

推論Inference

クラスター数が多い場合、クラスター標準誤差(clustered s.e.)はうまく機能する。クラスター数が少ない場合、いくつかの方法が提案されているが、文献はまだ合意に達していない(Wing et al 2018)。

欠点Drawbacks

このモデルは、選択の意思決定(\(d\))と固有誤差(\(u\))の間に相関がないと仮定する。しかしそうとは限らない。たとえば \(y\) が所得で \(d\) が訓練プログラムなら、プログラムが実施される前に一時的な所得低下を経験した人ほど、プログラムに参加しやすい。

一部の研究は、この問題を緩和するために三重差分(triple-difference / difference-in-difference-in-difference)推定量を適用する。Lai (2017) を参照。

異質な処置効果Heterogeneous treatment effects

処置効果が農場(\(i\))ごとに異なる場合、固定効果推定量はうまく機能しない(係数が必ずしも ATT や ATE を表さない)。

近年の多くの研究は、異質な処置効果のための異なる推定量を提案している。適切な手法は、処置のタイミングが共通か異なるか(時差導入 staggered adoption)、共変量(\(x_i\))があるか否かに依存する。

たとえば Wooldridge (2021) を参照。

TWFE

3時点以上かつ処置タイミングに変動がある設定では、単位固定効果と時点固定効果を入れた DID モデル(双方向固定効果モデル(two-way fixed effects model, TWFE)と呼ばれる)は、平行トレンド仮定が成り立ち、かつ処置効果が群間・時点間の双方で一定であるならば、平均処置効果について不偏である(De Chaisemartin and D'Haultfoeuille 2020)。

これらの条件が満たされない場合、TWFE 推定値を解釈するのは難しい。適切な方法は Roth et al (2023) を参照。

理由は次のとおりである。TWFE は群と時点をまたぐ処置効果の加重平均であり、その重みは各群–時点セルの観測値数に比例する必要がなく、負にすらなりうる。

IV:操作変数法IV: instrumental variable

伝統的な IV:処置効果が一定の場合Traditional IV: Constant treatment effects

まず、処置効果が一定(\(\alpha_i = \alpha\))であると仮定する。

アウトカム式(Outcome equation):\(y_i = \alpha\, d_i + x_{i1}\beta_1 + u_{1i}\)

選択(参加)式(Selection (participation) equation):\(d_i = 1[\,x_{i2}\beta_2 + z_i\gamma_2 + u_{2i} > 0\,]\)

\(d\) と \(u_1\) は相関すると仮定する(観察不能変数による選択の仮定)。

これらが相関するのは、\(u_2\) と \(u_1\) が相関するときに限られる(「二値反応モデル」の章を参照)。

\(d\) とは相関するが \(u_1\) とは相関しない操作変数 \(z\) があれば、通常の2段階最小二乗法(2SLS)を適用できる。

2SLS は \(\alpha = \mathrm{ATE} = \mathrm{ATT}\) の一致推定値を与える。

あるいは、内生変数がダミーであることから、傾向スコアを操作変数として用いることもできる。

第1段階:選択式をプロビットまたはロジットで推定し、予測確率(傾向スコア)を計算する。

第2段階:傾向スコアを操作変数(説明変数ではない!)として用い、アウトカム式を2SLS で推定する(Wooldridge 2010, p.939)。

IV 法の欠点:\(\mathrm{Cov}(z, d) \neq 0\) かつ \(\mathrm{Cov}(z, u_1) = 0\) を満たす良い IV を見つけることは、常に難しい。

異質な処置効果と LATEHeterogeneous treatment effects and LATE

処置効果が個人によって異なる場合、モデルは次のようになる。

\[ y_i = \alpha_i\, d_i + x_{i1}\beta_1 + u_{1i} \]
\[ d_i = 1[\,x_{i2}\beta_2 + \gamma_i z_i + u_{2i} > 0\,] \]

この場合、IV は ATE も ATT も識別しない31。むしろ IV は \(\alpha_i\) の加重平均を与え、その重みは \(\gamma_i\) である:\(E(\alpha_i \gamma_i)/E(\gamma_i)\)。すなわち、IV が最も強く影響する者ほど大きな重みを受ける。これを局所平均処置効果(local average treatment effects, LATE)と呼ぶ。

例:労働者が職業訓練プログラムの対象となりうるとし、彼らに無作為に優先番号(または案内状)\(z\) が割り当てられるとしよう。これはプログラムに受け入れられやすさに影響する。労働者の半数は、自分がプログラムから便益を得ると知っており、したがってプログラムへの登録を決めるかもしれない。彼らについては \(\alpha_i = \alpha' > 0\) かつ \(\gamma_i > 0\)。残り半数は、自分にとってプログラムは効果がないと知っており、たとえ受け入れられても登録しない。すなわち彼らについては \(\alpha_i = \gamma_i = 0\)。ATE は \(E(\alpha_i) = 0.5\alpha'\) であるのに対し、LATE は \(E(\alpha_i \gamma_i)/E(\gamma_i) = \alpha'\) である。したがってこの例では、LATE はプログラムに登録しやすい労働者についての因果効果であり、いかなる状況でも登録しない者には重みを与えない。これに対し ATE は、登録するか否かにかかわらず、すべての個人に等しい重みを置く。

したがって、重みが既知でない限り、LATE を解釈するのは難しい。典型的には、研究者はサブサンプル(例:性別・年齢・地域)で回帰を走らせ、推定結果がどう変わるかを論じることで批判を回避する(伊藤 2016)。あるいは、部分識別アプローチ(partial identification approach, Manski 2000)を用いることもできる。このアプローチは処置効果の(点ではなく)「上下限(bounds)」のみを識別するが、より緩い仮定で済み、LATE ではなく ATT を明らかにする(Imbens and Wooldridge 2009, p.59)。

非遵守を伴う RCT のための IVIV for RCT with noncompliance

LATE の概念は、非遵守を伴う RCT(RCT with noncompliance)において特に重要である。

一部の RCT では、すべての人に処置を受けさせることを強制できない。

たとえば、研究者が新しい肥料の作物収量への影響を知りたいとして、無作為に選んだ農家に肥料を提供するとする。しかし、肥料を受け取った農家のなかには、それを使わない者もいる。これを「非遵守(noncompliance)」と呼ぶ。肥料使用の意思決定が収量決定要因の観察不能な要素と相関するなら、推定される影響はバイアスをもつ。

非遵守は、前述のテネシー STAR 学級規模実験でも観察された。当初大規模学級に割り当てられた一部の子どもが、小規模学級に移動したのである(Duflo et al 2007)。

処置群に割り当てられた場合を \(z = 1\)、統制群に割り当てられた場合を \(z = 0\) とする。

実際に処置を受ける(実施する)場合を \(d = 1\)、そうでない場合を \(d = 0\) とする。

処置群(\(z = 1\))と統制群(\(z = 0\))のアウトカムを比較する、すなわち \(E[y_i \mid z = 1] - E[y_i \mid z = 0]\) を計算するとどうなるか。

この式は、処置を受けたすべての被験者が実際に処置を受ける通常の RCT のもとでは ATE を与えるが、非遵守を伴う RCT のもとでは ATE を与えない。

それは割り当て \(z\) の効果(処置意図 estimate、Intention to Treat, ITT)を捉えるが、\(z\) が \(d\) と等しくないため、処置 \(d\) の効果は捉えない。

ITT は \(d\) の真の影響を過小評価する。処置群(\(z = 1\))の一部の人々が処置を受け損なうためである。

ITT は一部の状況では有用かもしれないが、政策担当者は通常、割り当て \(z\) の影響ではなく、処置 \(d\) の影響を知りたい。

では、\(z\) を操作変数として用いて \(y\) を \(d\) に回帰するとどうか。\(z\) は無作為で \(d\) と相関するはずなので、操作変数として妥当である。これは ATT を計算するのか、ATE を計算するのか、それとも別の何かを計算するのか。

被験者を4つのタイプに分けよう。

割り当てに対する受諾行動による4タイプ
処置群に割り当てられたら処置を受ける(実施する)か?統制群に割り当てられたら処置を受けるか?
常時受容者
(Always-takers)
YesYes
遵守者
(Compliers)
YesNo
天邪鬼
(Defiers)
NoYes
常時拒否者
(Never-takers)
NoNo

もし天邪鬼(defiers、ひねくれ者)が存在しなければ、IV 回帰は遵守者の処置効果を明らかにする。すなわち \(E[y_{1i} \mid \text{compliers}] - E[y_{0i} \mid \text{compliers}] = E[\alpha_i \mid \text{compliers}]\)。これは LATE または遵守者平均因果効果(Complier Average Causal Effect, CACE)と呼ばれる(Imbens and Angrist 1994)。

遵守者とは、割り当て \(z\) を変えることで処置状態が影響を受ける者である(先の表記でいえば、\(\gamma_i\) が高い者)。

LATE は回帰を走らせずに計算することもできる(ただしこの方法では標準誤差は得られない)32

\[ \mathrm{LATE} = \frac{E(y \mid z = 1) - E(y \mid z = 0)}{E(d \mid z = 1) - E(d \mid z = 0)} = \frac{\mathit{ITT}}{\text{処置を受ける割合の差(difference in share of receiving treatment)}} \]

RD:回帰不連続RD: Regression discontinuity

RD は、政策が処置の対象となるための一定の閾値(threshold)をもつ場合に適用できる。

閾値(不連続点)の異なる側のすぐ近くに位置する個人は、関連するアウトカムに影響する観察不能要因について、本質的に同じとみなせる。したがって、アウトカムの差は処置に帰せられる。

RD デザインには2種類ある。

図 25.2(原典 P.109、出典:Cameron and Trivedi)。シャープ RD・ファジー RD デザインの図(Sharp and Fuzzy RD Designs;処置の割り当ては sharp(solid)・fuzzy(dashed)の両デザインで示される)。横軸が選択変数 \(S\)(Selection variable S)、縦軸が処置を受ける頻度・確率(\(\Pr[D=1 \mid S]\))。シャープ RD では閾値で割り当てが 0 から 1 へ垂直にジャンプし(実線・階段状)、ファジー RD では緩やかに上昇する(破線)。図そのものは原典を参照のこと。

シャープ RDSharp RD

シャープ RD は、選択が \(s\) の不連続関数であるときに用いる:\(s > s_0\) のとき \(d = 1\)、それ以外は \(0\)。

カットオフ \(s_0\) のすぐ下にいる個人の平均アウトカムは、カットオフのすぐ上にいる個人に対する妥当な反事実である。

図 19.8(原典 P.109、出典:Greene)。回帰不連続(Regression Discontinuity)の散布図。横軸が割当変数(Rate)、縦軸がスコア(Score)。カットオフを境に観測値の散布と回帰直線の当てはめが描かれ、不連続点におけるジャンプが RD 推定処置効果(RD Estimated Treatment Effect)として図示される。図そのものは原典を参照のこと。

簡略化した式を考える:\(y_i = \beta + \alpha_i\, d_i + u_i\)。

RD の中核仮定は連続性仮定(continuity assumptions)である。

すると、

\[ E[y_i \mid s_i] = \beta + E[\alpha_i \mid s_i]\, E[d_i \mid s_i] + E[u_i \mid s_i] = \beta + E[\alpha_i \mid s_i]\, P[d_i = 1 \mid s_i] + E[u_i \mid s_i] \]

\(E[y_i \mid s_i]\) は、その点における \(P[d_i = 1 \mid s_i]\) の不連続性の帰結として、\(s_0\) で不連続となる。

小さな値 \(\epsilon > 0\) を用いて、いま次のように書ける。

\[ E[y_i \mid s_0 + \epsilon] - E[y_i \mid s_0 - \epsilon] = \big\{ E[\alpha_i \mid s_0 + \epsilon]\, P[d_i = 1 \mid s_0 + \epsilon] - E[\alpha_i \mid s_0 - \epsilon]\, P[d_i = 1 \mid s_0 - \epsilon] \big\} + \big\{ E[u_i \mid s_0 + \epsilon] - E[u_i \mid s_0 - \epsilon] \big\} \]

\(\epsilon \to 0\) の極限をとると、

\[ \lim_{s \to s_0^+} E[y_i \mid s] - \lim_{s \to s_0^-} E[y_i \mid s] = E[\alpha_i \mid s_0] \left( \lim_{s \to s_0^+} P[d_i = 1 \mid s] - \lim_{s \to s_0^-} P[d_i = 1 \mid s] \right) \]

したがって、

\[ E[\alpha_i \mid s_0] = \frac{\displaystyle \lim_{s \to s_0^+} E[y_i \mid s] - \lim_{s \to s_0^-} E[y_i \mid s]}{\displaystyle \lim_{s \to s_0^+} P[d_i = 1 \mid s] - \lim_{s \to s_0^-} P[d_i = 1 \mid s]} \]

シャープ RD では、分母は1に帰着する。

これは、特性 \(s\) が \(s_0\) の周辺にある個人についての処置効果を測る。それは ATE でも ATT でもなく、むしろ

より局所的な処置効果の指標である。

Example

アメリカの高校生は、テストスコアに基づいて奨学金を授与される。奨学金受給者は大学院へ進学しやすいか。

シャープ RD は、テストスコアが閾値のすぐ上にいる学生の大学院進学率を、すぐ下にいる学生のそれと比較する。

テストスコアが高い学生は、(たとえば能力ゆえに)奨学金とは無関係に大学院へ進学しやすいと予想される。しかしこれは、授与カットオフの近傍で大学院進学率とテストスコアの関係に回帰を当てはめることで制御される。

農業分野では、文献は地域境界の不連続(Grout et al 2011)、農場規模(Chang and Lin 2015)、年齢(Chang 2013, 2017)、タイミング(Fuje 2018; Aysoy et al. 2015; Ruan et al. 2021)、距離(Pan et al 2018)、所得(Sharma et al. 2019)、人口(Asher and Novosad 2020)を活用している。

ファジー RDFuzzy RD

ファジー RD は、処置を受ける確率が \(s\) の不連続関数であるときに用いる。

例:\(y\) は生徒のテストスコア、\(d\) は学級規模(二値ではない)、\(s\) は同一学年の生徒総数。政府が学級規模の上限を40人に設定したとする。すると、40人以下の学年の生徒は最大40人の学級に入ると予想できるが、41人の学年は2学級に分割される。したがって、\(s = 40\) の周辺で学級規模に不連続が生じる。

これがファジー RD であるのは、学級規模(\(d\))と \(s\) の関係が1対1ではないからである。たとえば \(s = 40\) のとき、学級規模はたいていの場合40人になるが、一部の学校では2学級に分割されることもある。

図 6.2.1(原典 P.110、出典:Angrist and Lavy 1999)。学級規模のテストスコアへの効果を回帰不連続で推定するためのファジー RD 第1段階(The fuzzy-RD first-stage)。横軸が学年の在籍者数(Enrollment count)、縦軸が学級規模(Class size)。実線が実測の学級規模(Actual class size)、破線が「マイモニデスの法則(Maimonides Rule)」に基づく予測で、40・80・120人ごとの分割により生じる鋸歯状の不連続が示される(「B. 第4学年(Fourth Grade)」)。図そのものは原典を参照のこと。

RD の欠点:RD の主要な欠点は、参加の見込み(odds of participation)の不連続な変化に依存する点である。これは、ある1点における平均パラメータのみが識別可能であることを意味する。これは、処置効果 \(\alpha\) が \(s\) とともに変化するときにはいつでも問題となりうる。

「時間」の不連続に焦点を当てる場合は注意が必要である(Hausman and Rapson 2018)。

推定方法Estimation method

次式

\[ E[\alpha_i \mid s_0] = \frac{\displaystyle \lim_{s \to s_0^+} E[y_i \mid s] - \lim_{s \to s_0^-} E[y_i \mid s]}{\displaystyle \lim_{s \to s_0^+} P[d_i = 1 \mid s] - \lim_{s \to s_0^-} P[d_i = 1 \mid s]} \]

を推定するには、\(s_0\) の両側で平均の差をとればよい。しかしこの方法は、もちろんノンパラメトリックだが、有限標本ではあまり良い性能を示しそうにない。バイアスを減らすには、ノンパラメトリックな局所線形回帰(local linear regression)法を用いることができる(Angrist and Pischke, p.263)。

シャープ RD デザインでは、次式に OLS を適用すると一致推定値が得られる(Cameron and Trivedi, p.880, Angrist and Pischke, p.255)。

\[ y_i = \beta + \alpha\, d_i + f(s_i) + u_i \]

ここで \(f(s_i)\) は \(s_i\) の関数である(例:\(\theta_1 s_i + \theta_2 s_i^2\))。

ただし、\(f(s_i)\) が誤って特定されていると、OLS 推定量はもはや一致しない。他方、シャープ RD 法のノンパラメトリック版は、関数形を一切課さない。

ファジー RD デザインでは、次式に2SLS を適用すると一致推定値が得られる(Cameron and Trivedi, p.882, Angrist and Pischke, p.262)。

第1段階:\(d_i = g(s_i) + \pi T_i + u_{2i}\) を OLS で推定する。ここでダミー変数 \(T \equiv 1[s_i > s_0]\) を操作変数として用い、パラメータ \(\pi\) は \(s_0\) における傾向スコアの不連続を表す。

第2段階:\(y_i = \beta + \alpha\, \hat{d}_i + f(s_i) + u_i\) を OLS で推定する。

\(f(s_i)\) と \(g(s_i)\) が正しく特定されているもとで、この2段階手続きは一致する。

実験と非実験Experiments vs Non-Experiments

結果はまちまちである。ノンパラメトリック手法(非実験的手法)が実験結果をかなりよく再現できると見出す研究もあれば、より否定的な研究もある。

Cook, Shadish and Wong (2006)、Buddlemeyer and Skofias (2003):RD の性能は良い。

Diaz and Handa (2006):多数の制御変数が利用可能なとき、PSM はうまく機能する。

DID:Ferraro and Miranda (2017) は、マッチングデザイン(1対1の共変量マッチング)と組み合わせた DID が、マッチングなしの DID より良い性能を示し、推定値が実験結果に非常に近いことを見出している。ただし、同じアプローチは Wichman and Ferraro (2017) ではうまく機能しない。

詳細は Duflo et al (2007) を参照。

まとめSummary

手法選択メカニズム(Selection mechanism)IV が必要?パネルデータが必要?パラメトリック?
OLS無作為化実験(Random)NoNoNo
マッチング
(Matching)
観察可能変数による選択NoNo第1段階:Yes、第2段階:No
FE
(固定効果)
(時間不変の)観察不能変数による選択NoYesYes
DID(時間不変の)観察不能変数による選択NoYes(反復クロスセクションでも可)No
IV観察不能変数による選択YesNoYes
シャープ RD
(Sharp RD)
観察可能変数による選択(\(s\) のみについて)NoNoYes または No
ファジー RD
(Fuzzy RD)
観察不能変数による選択(\(s\) と観察不能変数の双方)No(\(s\) が IV の役を果たす)NoYes または No

発展的文献Further Readings

一般(General):

RCT

DID

IV:

RD:

参考文献References

脚注
  1. "treatment"(処置)という語は、ある医学的「処置」や薬剤の効果を推定することに関心が置かれる医学(medical science)に由来する。
  2. ブートストラップ法は非常に汎用的で、解析式を用いて標準誤差を計算するのが難しいときにはいつでも非常に有用である。
  3. 基準時点のアウトカム水準が処置群と統制群で大きく異なる場合、水準(levels)と対数(logs)のどちらを選ぶかによって結果が劇的に変わりうる。極端な場合には、推定される処置効果の符号さえ変わりうる。研究者は、どちらの定式化が平行トレンドを満たすように見えるかではなく、経済的文脈に基づいて、適切なモデルが加法的(水準)か乗法的(百分率成長)かを事前に決めるべきである(McConnell 2024)。
  4. これに対し、内生性がないという仮定のもとでは、OLS は \(\alpha_i\) の平均値を与える。Stock and Watson, ch.13.6 を参照。
  5. 複数の説明変数があると LATE の推定はより複雑になるが、実務上は結果が類似する傾向がある。Abadie (2003) を参照。