评估政策或者事件的影响,常以历史数据为镜。然而,历史数据错综复杂,要从中识别出真实的因果效应(treatment effect)实非易事。双重差分法(Difference in Differences, DiD)的核心思想在于:比较同一组个体在政策实施前后之变化,并与另一组未受政策影响的个体在相同时段的变化进行对比。若从两组数据间观测到显著差异,便可以认为这一变化是由政策所引起。
基础知识回顾
关键假设
-
无混淆假设(Unconfoundedness Assumption)
$$ \big(Y(1),Y(0)\big) \perp\!\!\!\perp T $$即处理状态 $T$ 与潜在结果 $Y(1)$ 和 $Y(0)$ 相互独立。
-
一致性假设(Consistency Assumption)
$$ \mathbb{E}[Y(1)|T=1] = \mathbb{E}[Y|T=1] $$即在接受处理的组别中,观测到的结果 $Y$ 可以代表潜在结果 $Y(1)$。
在上述假设下,可识别平均处理效应(ATE, Average Treatment Effect):
$$ \mathbb{E}[Y(1) - Y(0)] = \mathbb{E}[Y|T=1] - \mathbb{E}[Y|T=0] $$ -
针对处理组的平均处理效应(ATT, Average Treatment Effect on Treated)
$$ \mathbb{E}[Y(1) - Y(0)|T=1] $$
引入时间维度
引入时间维度,是为了在不依赖于无混淆假设 下进行因果效应的识别。用 $Y_{\tau}(t)$ 表示时间为 $\tau$ 时处理为 $t$ 的潜在结果,那么 ATT 可以表示为:
$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] $$识别策略
假设
-
时间一致性假设(Consistency Assumption Extended to Time)
$$ \forall \tau \quad T=t \implies Y_{\tau} = Y_{\tau}(t) $$ -
平行趋势假设(Parallel Trend Assumption)
$$ \mathbb{E}[Y_1(0) - Y_0(0)|T=1] = \mathbb{E}[Y_1(0) - Y_0(0)|T=0] $$ -
无预处理效应假设(No Pretreatment Effect Assumption)
$$ \mathbb{E}[Y_0(1) - Y_0(0)|T=1] = 0 $$
证明
证明通过双重差分法估计 ATT 可以从以下几个步骤入手:
-
根据时间一致性假设和实际观测数据,有:
$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] = \mathbb{E}[Y_1|T=1] - \mathbb{E}[Y_1(0)|T=1] $$ -
其中,$\mathbb{E}[Y_1(0)|T=1]$ 是不可观测的反事实结果。根据平行趋势假设:
$$ \mathbb{E}[Y_1(0)|T=1] = \mathbb{E}[Y_1|T=0] - \mathbb{E}[Y_0|T=0] + \mathbb{E}[Y_0(0)|T=1] $$ -
根据无预处理效应假设:
$$ \mathbb{E}[Y_0(0)|T=1] = \mathbb{E}[Y_0|T=1] $$ -
所以:
$$ \mathbb{E}[Y_1(0)|T=1] = \mathbb{E}[Y_1|T=0] - \mathbb{E}[Y_0|T=0] + \mathbb{E}[Y_0|T=1] $$ -
最终,我们得到:
$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] = (\mathbb{E}[Y_1|T=1] - \mathbb{E}[Y_0|T=1]) - (\mathbb{E}[Y_1|T=0] - \mathbb{E}[Y_0|T=0]) $$
主要问题
通过双重差分法,我们利用时间维度的信息,在不依赖于严格的无混淆假设下,探究政策或事件的因果效应。然则,其应用亦需谨慎,须仔细检验假设条件,并结合其他方法进行验证。举例而言,平行趋势假设往往难以满足。为了缓解这一问题,我们可以引入控制变量,并假设“受控平行趋势”(Controlled Parallel Trends),即:
$$ \mathbb{E}[Y_1(0) - Y_0(0)|T=1, W] = \mathbb{E}[Y_1(0) - Y_0(0)|T=0, W] $$这样,我们就可以在平行趋势假设难以满足的情况下,仍然通过控制变量 $W$ 来进行因果效应的估计。