利用时间信息探寻因果

评估政策或者事件的影响，常以历史数据为镜。然而，历史数据错综复杂，要从中识别出真实的因果效应（treatment effect）实非易事。双重差分法（Difference in Differences, DiD）的核心思想在于：比较同一组个体在政策实施前后之变化，并与另一组未受政策影响的个体在相同时段的变化进行对比。若从两组数据间观测到显著差异，便可以认为这一变化是由政策所引起。

基础知识回顾

关键假设

无混淆假设（Unconfoundedness Assumption）
$$ \big(Y(1),Y(0)\big) \perp\!\!\!\perp T $$
即处理状态 $T$ 与潜在结果 $Y(1)$ 和 $Y(0)$ 相互独立。
一致性假设（Consistency Assumption）
$$ \mathbb{E}[Y(1)|T=1] = \mathbb{E}[Y|T=1] $$
即在接受处理的组别中，观测到的结果 $Y$ 可以代表潜在结果 $Y(1)$。

在上述假设下，可识别平均处理效应（ATE, Average Treatment Effect）：
$$ \mathbb{E}[Y(1) - Y(0)] = \mathbb{E}[Y|T=1] - \mathbb{E}[Y|T=0] $$
针对处理组的平均处理效应（ATT, Average Treatment Effect on Treated）
$$ \mathbb{E}[Y(1) - Y(0)|T=1] $$

引入时间维度

引入时间维度，是为了在不依赖于无混淆假设 下进行因果效应的识别。用 $Y_{\tau}(t)$ 表示时间为 $\tau$ 时处理为 $t$ 的潜在结果，那么 ATT 可以表示为：

$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] $$

识别策略

假设

时间一致性假设（Consistency Assumption Extended to Time）
$$ \forall \tau \quad T=t \implies Y_{\tau} = Y_{\tau}(t) $$
平行趋势假设（Parallel Trend Assumption）
$$ \mathbb{E}[Y_1(0) - Y_0(0)|T=1] = \mathbb{E}[Y_1(0) - Y_0(0)|T=0] $$
无预处理效应假设（No Pretreatment Effect Assumption）
$$ \mathbb{E}[Y_0(1) - Y_0(0)|T=1] = 0 $$

证明

证明通过双重差分法估计 ATT 可以从以下几个步骤入手：

根据时间一致性假设和实际观测数据，有：
$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] = \mathbb{E}[Y_1|T=1] - \mathbb{E}[Y_1(0)|T=1] $$
其中，$\mathbb{E}[Y_1(0)|T=1]$ 是不可观测的反事实结果。根据平行趋势假设：
$$ \mathbb{E}[Y_1(0)|T=1] = \mathbb{E}[Y_1|T=0] - \mathbb{E}[Y_0|T=0] + \mathbb{E}[Y_0(0)|T=1] $$
根据无预处理效应假设：
$$ \mathbb{E}[Y_0(0)|T=1] = \mathbb{E}[Y_0|T=1] $$
所以：
$$ \mathbb{E}[Y_1(0)|T=1] = \mathbb{E}[Y_1|T=0] - \mathbb{E}[Y_0|T=0] + \mathbb{E}[Y_0|T=1] $$
最终，我们得到：
$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] = (\mathbb{E}[Y_1|T=1] - \mathbb{E}[Y_0|T=1]) - (\mathbb{E}[Y_1|T=0] - \mathbb{E}[Y_0|T=0]) $$

主要问题

通过双重差分法，我们利用时间维度的信息，在不依赖于严格的无混淆假设下，探究政策或事件的因果效应。然则，其应用亦需谨慎，须仔细检验假设条件，并结合其他方法进行验证。举例而言，平行趋势假设往往难以满足。为了缓解这一问题，我们可以引入控制变量，并假设“受控平行趋势”（Controlled Parallel Trends），即：

$$ \mathbb{E}[Y_1(0) - Y_0(0)|T=1, W] = \mathbb{E}[Y_1(0) - Y_0(0)|T=0, W] $$

这样，我们就可以在平行趋势假设难以满足的情况下，仍然通过控制变量 $W$ 来进行因果效应的估计。

参考

Brady Neal - Causality Blog - Brady Neal’s personal website and blog about causal inference and machine learning.