潜在结果框架:因果推论的基石

在 Neyman-Rubin 因果模型(或称“潜在结果框架”,Potential Outcome)中,所谓因果推论,实际上是估计“因果效应”(causal effect)。

何谓因果效应

Rubin 给出一个直观的例子:

Intuitively, …

“If an hour ago I had taken two aspirins instead of just a glass of water, my headache would now be gone,” or “Because an hour ago I took two aspirins instead of just a glass of water, my headache is now gone.”

“如果一个小时前我服用了两个阿司匹林而不是一杯水,我的头痛现在就会消失”,或者“因为一个小时前我服用了两个阿司匹林而不是一杯水,我的头痛现在消失了”

Now define the causal effect of the $E$ versus $C$ treatment on $Y$ for a particular trial (i.e., a particular unit and associated times $t_1$, $t_2$) as follows:

  • Let $y(E)$ be the value of Y measured at $t_2$ on the unit, given that the unit received the experimental Treatment $E$ initiated at $t_1$;
  • Let $y(C)$ be the value of $Y$ measured at $t_2$ on the unit given that the unit received the control Treatment $C$ initiated at $t_1$;
  • Then $y(E) - y(C)$ is the causal effect of the $E$ versus $C$ treatment on $Y$ for that trial, that is, for that particular unit and the times $t_1$, $t_2$

根据他的描述,可以获得如下的表格:

time Experimental ($Y(E)$) Control ($Y(C)$) Causal Effect
$t_1$ $y_{t_1}(E)$ $y_{t_1}(C)$ -
$t_2$ $y_{t_2}(E)$ $y_{t_2}(C)$ $y_{t_2}(E)-y_{t_2}(C)$

注意:表中 $y_{t_2}(E)$ 即上文提及的 $y(E)$,$y_{t_2}(C)$ 即上文提及的 $y(C)$,所以表格定义的因果效应(含下标$t_2$)为 $y_{t_2}(E)-y_{t_2}(C)$

记是否头痛为 $Y$,头痛记为 $1$

$$ Y= \begin{cases} 0\\\ 1\qquad\rm{i.e.headache} \end{cases} $$

$Y(E)$ :服用阿司匹林

$Y(C)$ :喝水(即未服用阿司匹林)

填入上表

时间 阿司匹林 因果效应
一小时前 1 1
一小时后 0 1 $0-1=-1$

解释为,因为服用阿司匹林使头痛 $-1$。

另外,可以看看两种因果效应为 $0$ 的情况(即阿司匹林不是缓解头痛症状的原因),其一为头痛症状未缓解:

时间 阿司匹林 因果效应
一小时前 1 1
一小时后 1 1 $1-1=0$

其二为只喝水不服药,但一小时后头痛好了:

时间 阿司匹林 因果效应
一小时前 1 1
一小时后 0 0 $0-0=0$

从上面的例子可以看出,当我们估计因果效应时,关注的是表格中第二行(即一小时后)的值,这就是所谓的“潜在结果”。因果效应(有时也称作“处理效应”)指的正是这两种潜在结果间的差异。

在进行推断时,我们不能同时获得两种潜在结果。例如,我在一小时前感到头痛,但只是喝了点水,没有服用阿司匹林,则没办法观测到如果我在一小时前服用阿司匹林的情况。

时间 阿司匹林
一小时前 0 1
一小时后 ? 0

无法从观测中获得的结果称作反事实(counterfactual)。在这个最简单的例子中,两种潜在结果总是有一个为反事实结果。

平均因果效应

为了应对反事实结果的数据缺失问题,需要先认识“平均处理效应”(Average Treatment Effect, ATE),有时也称作“平均因果效应”(Average Causal Effect, ACE)。

前面我们提到的因果效应,称作“个体处理效应”(Individual Treatment Effect, ITE)或“个体因果效应”,可以用 $Y(E)-Y(C)$ 表示,即在实验组(E, experiment)和对照组(C, control)两种不同处理下获得的潜在结果的差异。

为了方便,下面我们 $T = 1$ 代表实验组, $T=0$ 代表对照组,将个体处理效应表示为

$$ Y(1)-Y(0)\tag{1} $$

平均因果效应估计的是所有个体因果效应 $(1)$ 的期望

$$ \Bbb{E}[Y(1)-Y(0)] = \Bbb{E}[Y_i(1)-Y_i(0)]\tag{2} $$

假设以下为 FDA 对一种新的高血压药物的测试数据。如果我们无所不知,我们就会知道乔在新药($T=1$)和未处理或当前标准处理($T=0$)下的结果。因果效应或处理效应是这两种潜在结果之间的差异。当考虑多个被试时,有

$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$
130 135 −5
玛丽 130 145 −15
莎莉 130 145 −15
鲍勃 140 150 −10
詹姆士 145 140 +5
平均 135 143 −8

可以通过取所有个体因果效应的平均值来计算平均因果效应,很容易看出平均因果效应通过 $\frac{(-5-15-15-10+5)}{5}=-8$ 计算得到。

而在应用中,由于我们不能同时观测到两个潜在结果,所以更多的通过期望的线性性质来获得平均因果效应,即 $135-143=-8$ 。

$$ \Bbb{E}[Y(1)-Y(0)]=\Bbb{E}[Y(1)]-\Bbb{E}[Y(0)]\tag{3} $$

比如,我们实际观测到的数据为

$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$
130 ? ?
玛丽 120 ? ?
莎莉 ? 125 ?
鲍勃 ? 130 ?
詹姆士 115 ? ?
平均 121.66 127.5 −5.83

或者

$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$
130 ? ?
鲍勃 110 ? ?
詹姆士 105 ? ?
玛丽 ? 130 ?
莎莉 ? 125 ?
苏茜 ? 135 ?
平均 115 130 −15

假设个体被随机分配不同的处理,即是否进行新药的试用。本例中,平均因果效应通过忽略无法被观测的潜在结果,计算实验组的平均值与对照组的平均值之差,结果虽然有所不同,但理论上讲,在样本较大且方差较小的情况下,结果接近于真实的平均因果效应。

假设〇

Ignorability

直接忽略无法观测的潜在结果是一种可行的方案吗?我们怎么保证对照组和实验组之间能够相互比较(comparable)?一般来说,能够相互比较,要求两组之间除了处理不同($T=1$ 或 $T=0$)之外,其他任何条件都是没有差别的。

那么,假如在选择接受新药测试的个体前,也就是未将这些个体区分为实验组和对照组前,他们是不存在任何差别的。无论怎么选择其中一半数量的个体来接受新药测试,获得的血压水平数据都是一致的。也就是说,这个总体的潜在结果的期望应该是一样的。

Exchangeability

换个角度,如果我们让原来的实验组不接受新药测试(其结果将会与原对照组相近),让原来的对照组接受新药测试(结果将会与原实验组相近),也会获得与原来结果一样的血压水平数据。

表现为:

$$ \Bbb{E}[Y(1)|T=1]=\Bbb{E}[Y(1)|T=0]=\Bbb{E}[Y(1)] $$

以及,

$$ \Bbb{E}[Y(0)|T=1]=\Bbb{E}[Y(0)|T=0]=\Bbb{E}[Y(0)] $$

据此可以推导出 $\Bbb{E}[Y(1)|T=t]=\Bbb{E}[ Y(1)]$ 和 $\Bbb{E}[Y(0)|T=t]=\Bbb{E}[Y(0)]$。

这意味着潜在结果和接受哪一种处理($t$)之间没有关系。也就是说,当我们讨论一组因果关系时,潜在结果是确定的。

$$ (Y(1), Y(0))\perp\perp{T} $$

此时,用 $\Bbb{E}[Y(1)|T=1]$ 和 $\Bbb{E}[Y(0)|T=0]$ 来计算潜在结果 $\Bbb{E}[Y(1)]$ 和 $\Bbb{E}[Y(0)]$,则平均处理效应 $(3)$ 可以进一步表示为

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)]&=\Bbb{E}[Y(1)]-\Bbb{E}[Y(0)]\\\ &=\Bbb{E}[Y(1)|T=1] -\Bbb{E}[ Y(0)|T=0] \end{aligned} \tag{4} $$

假设一

Conditional exchangeability

$$ (Y(1), Y(0))\perp\perp{T|W} $$

Unconfoundedness

因为存在与药物反应有关的协变量(covariates),所以无论是否接受新药测试都会与血压水平表现出一定的相关性(association)。统计学中,也将这些变量称为“混淆因素”(confounder)。如果我们能够对混淆因素进行控制,那就可以对实验组和对照组进行相互比较。

所以,我们可以估计控制 $W$ 时的平均处理效应:

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)|W]&=\Bbb{E}[Y(1)|W]-\Bbb{E}[Y(0)|W]\\\ &=\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W] \end{aligned} \tag{4*} $$

综合等式 $(4)$ 和 $(4*)$,有平均处理效应:

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)]&=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)-Y(0)|W]\big]\\\ &=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W]\big] \end{aligned} \tag{5} $$

假设二

Consistency

我们很容易意识到,当 $T=1$ 时观测到的结果 $Y$ 为潜在结果 $Y(1)$,当 $T=0$ 时观测到的结果 $Y$ 为潜在结果 $Y(0)$。

如果我们的潜在结果是明确定义的(well defined ),那这个直觉也将是成立的,即 $\Bbb{E}[Y(1)|T=1]=\Bbb{E}[Y|T=1]$ 以及 $\Bbb{E}[Y(1)|T=0]=\Bbb{E}[Y|T=0]$。

因此,

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)] &=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W]\big]\\\ &=\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W] -\Bbb{E}[Y|T=0,W]\big] \end{aligned} \tag{6} $$

调整公式

等式 $(6)$ 称为调整公式(Adjustment Formula)

Given the assumptions of unconfoundedness, positivity, consistency, and no interference, we can identify the average treatment effect:

$$ > \Bbb{E}[Y(1)-Y(0)] > =\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W] -\Bbb{E}[Y|T=0,W]\big] > $$

读到这里,你离理解鲁宾因果框架只剩下一步之遥。从上文的描述中,可以看到还有尚未提及的假设——Positivity 和 No interference。因为这两个假设和consistency一样,非常直觉。

假设三

Positivity

当我们对协变量 $W$ 进行控制时,应该保证 $0<P(T=1|W=w)<1$。简而言之,我们不能控制一个不会发生的事件。如果 $P(W=w)=0$,那么 $P(T=1|W=w)$ 和 $P(T=0|W=w)$ 都等于 $0$。

以离散事件为例,把调整公式展开为

$$ \begin{aligned} &\sum_W{P(W=w)}(\sum_y{P(Y=y|T=1,W=w)}-\sum_y{P(Y=y|T=0,W=w)})\\\ =&\sum_W{P(W=w)}(\sum_y\frac{P(Y=y,T=1,W=w)}{P(T=1,W=w)}-\sum_y\frac{P(Y=y,T=0,W=w)}{P(T=0,W=w)})\\\ =&\sum_W{P(W=w)}(\sum_y\frac{P(Y=y,T=1,W=w)}{P(T=1|W=w)P(W=w)}-\sum_y\frac{P(Y=y,T=0,W=w)}{P(T=0|W=w)P(W=w)}) \end{aligned} $$

其中分母中的 $P(T=1|W=w)$ 或 $P(T=0|W=w)$ 不等于 $0$。

假设四

No interference

个体之间无干扰的假设一直被理所当然地默认了,即个体的观测结果与其他个体接受怎样处理无关。乔的血压与詹姆斯是否服用降压药没有关系。这个假设虽然看似直观,但在很多实际研究中可能并不成立,可能会导致调整公式对因果效应的估计不准确。

SUTVA

最后,如果你在文献中看到稳定单元处理值假设(Stable Unit Treatment Value Assumption, SUTVA) ,可以认为是 No interference 和 Consistency 的组合。

当 SUTVA 不满足的情况下,估计因果效应会变得困难。

考虑乔的血压与玛丽是否接受了药物有关的情况。如果乔和玛丽是一对同居的夫妻,玛丽负责家庭的饮食。服用新药使玛丽喜欢口味偏咸的食物,所以她会用比其他情况下更多的盐来烹饪。而高盐饮食会增加乔的血压。因此,他的结果将取决于他接受的处理和玛丽接受的处理。

此时,我们需要通过考虑更多的处理来解释相关的观察结果,玛丽是否接受处理对应了乔的4种潜在结果。

乔 = c,玛丽 = E 乔 = E,玛丽 = E 乔 = c,玛丽 = c 乔 = E,玛丽 = c
140 130 125 120

其中,实验(E, experiment)代表服用新药, 对照(C, control)代表不服用新药。

因为同时存在两个以上的潜在结果,所以也有多种因果效应需要被估计:

从因果效应的绝对值上看($15>10>5$),玛丽服用新药物对乔的影响,比乔自己服用新药的影响更大,并且作用效果是相反的。

通过这种方式,能够在鲁宾因果框架内对因果效应进行估计。如果乔以外的其他个体也与玛丽有关,那么我们必须考虑进一步的潜在结果。关联的单位数量越多,涉及的潜在结果就越多,计算也变得越复杂。为了估计单一处理相对于对照的因果效应,应该保证 SUTVA 成立。