潜在结果框架:因果推论的基石
在 Neyman-Rubin 因果模型(或称“潜在结果框架”,Potential Outcome)中,所谓因果推论,实际上是估计“因果效应”(causal effect)。
何谓因果效应
Rubin 给出一个直观的例子:
Intuitively, …
“If an hour ago I had taken two aspirins instead of just a glass of water, my headache would now be gone,” or “Because an hour ago I took two aspirins instead of just a glass of water, my headache is now gone.”
“如果一个小时前我服用了两个阿司匹林而不是一杯水,我的头痛现在就会消失”,或者“因为一个小时前我服用了两个阿司匹林而不是一杯水,我的头痛现在消失了”
…
Now define the causal effect of the $E$ versus $C$ treatment on $Y$ for a particular trial (i.e., a particular unit and associated times $t_1$, $t_2$) as follows:
- Let $y(E)$ be the value of Y measured at $t_2$ on the unit, given that the unit received the experimental Treatment $E$ initiated at $t_1$;
- Let $y(C)$ be the value of $Y$ measured at $t_2$ on the unit given that the unit received the control Treatment $C$ initiated at $t_1$;
- Then $y(E) - y(C)$ is the causal effect of the $E$ versus $C$ treatment on $Y$ for that trial, that is, for that particular unit and the times $t_1$, $t_2$
根据他的描述,可以获得如下的表格:
time | Experimental ($Y(E)$) | Control ($Y(C)$) | Causal Effect |
---|---|---|---|
$t_1$ | $y_{t_1}(E)$ | $y_{t_1}(C)$ | - |
$t_2$ | $y_{t_2}(E)$ | $y_{t_2}(C)$ | $y_{t_2}(E)-y_{t_2}(C)$ |
注意:表中 $y_{t_2}(E)$ 即上文提及的 $y(E)$,$y_{t_2}(C)$ 即上文提及的 $y(C)$,所以表格定义的因果效应(含下标$t_2$)为 $y_{t_2}(E)-y_{t_2}(C)$
记是否头痛为 $Y$,头痛记为 $1$
$$ Y= \begin{cases} 0\\\ 1\qquad\rm{i.e.headache} \end{cases} $$$Y(E)$ :服用阿司匹林
$Y(C)$ :喝水(即未服用阿司匹林)
填入上表
时间 | 阿司匹林 | 水 | 因果效应 |
---|---|---|---|
一小时前 | 1 | 1 | |
一小时后 | 0 | 1 | $0-1=-1$ |
解释为,因为服用阿司匹林使头痛 $-1$。
另外,可以看看两种因果效应为 $0$ 的情况(即阿司匹林不是缓解头痛症状的原因),其一为头痛症状未缓解:
时间 | 阿司匹林 | 水 | 因果效应 |
---|---|---|---|
一小时前 | 1 | 1 | |
一小时后 | 1 | 1 | $1-1=0$ |
其二为只喝水不服药,但一小时后头痛好了:
时间 | 阿司匹林 | 水 | 因果效应 |
---|---|---|---|
一小时前 | 1 | 1 | |
一小时后 | 0 | 0 | $0-0=0$ |
从上面的例子可以看出,当我们估计因果效应时,关注的是表格中第二行(即一小时后)的值,这就是所谓的“潜在结果”。因果效应(有时也称作“处理效应”)指的正是这两种潜在结果间的差异。
在进行推断时,我们不能同时获得两种潜在结果。例如,我在一小时前感到头痛,但只是喝了点水,没有服用阿司匹林,则没办法观测到如果我在一小时前服用阿司匹林的情况。
时间 | 阿司匹林 | 水 |
---|---|---|
一小时前 | 0 | 1 |
一小时后 | ? | 0 |
无法从观测中获得的结果称作反事实(counterfactual)。在这个最简单的例子中,两种潜在结果总是有一个为反事实结果。
平均因果效应
为了应对反事实结果的数据缺失问题,需要先认识“平均处理效应”(Average Treatment Effect, ATE),有时也称作“平均因果效应”(Average Causal Effect, ACE)。
前面我们提到的因果效应,称作“个体处理效应”(Individual Treatment Effect, ITE)或“个体因果效应”,可以用 $Y(E)-Y(C)$ 表示,即在实验组(E, experiment)和对照组(C, control)两种不同处理下获得的潜在结果的差异。
为了方便,下面我们 $T = 1$ 代表实验组, $T=0$ 代表对照组,将个体处理效应表示为
$$ Y(1)-Y(0)\tag{1} $$平均因果效应估计的是所有个体因果效应 $(1)$ 的期望
$$ \Bbb{E}[Y(1)-Y(0)] = \Bbb{E}[Y_i(1)-Y_i(0)]\tag{2} $$假设以下为 FDA 对一种新的高血压药物的测试数据。如果我们无所不知,我们就会知道乔在新药($T=1$)和未处理或当前标准处理($T=0$)下的结果。因果效应或处理效应是这两种潜在结果之间的差异。当考虑多个被试时,有
$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$ 乔 130 135 −5 玛丽 130 145 −15 莎莉 130 145 −15 鲍勃 140 150 −10 詹姆士 145 140 +5 平均 135 143 −8
可以通过取所有个体因果效应的平均值来计算平均因果效应,很容易看出平均因果效应通过 $\frac{(-5-15-15-10+5)}{5}=-8$ 计算得到。
而在应用中,由于我们不能同时观测到两个潜在结果,所以更多的通过期望的线性性质来获得平均因果效应,即 $135-143=-8$ 。
$$ \Bbb{E}[Y(1)-Y(0)]=\Bbb{E}[Y(1)]-\Bbb{E}[Y(0)]\tag{3} $$比如,我们实际观测到的数据为
$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$ 乔 130 ? ? 玛丽 120 ? ? 莎莉 ? 125 ? 鲍勃 ? 130 ? 詹姆士 115 ? ? 平均 121.66 127.5 −5.83 或者
$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$ 乔 130 ? ? 鲍勃 110 ? ? 詹姆士 105 ? ? 玛丽 ? 130 ? 莎莉 ? 125 ? 苏茜 ? 135 ? 平均 115 130 −15
假设个体被随机分配不同的处理,即是否进行新药的试用。本例中,平均因果效应通过忽略无法被观测的潜在结果,计算实验组的平均值与对照组的平均值之差,结果虽然有所不同,但理论上讲,在样本较大且方差较小的情况下,结果接近于真实的平均因果效应。
假设〇
Ignorability
直接忽略无法观测的潜在结果是一种可行的方案吗?我们怎么保证对照组和实验组之间能够相互比较(comparable)?一般来说,能够相互比较,要求两组之间除了处理不同($T=1$ 或 $T=0$)之外,其他任何条件都是没有差别的。
那么,假如在选择接受新药测试的个体前,也就是未将这些个体区分为实验组和对照组前,他们是不存在任何差别的。无论怎么选择其中一半数量的个体来接受新药测试,获得的血压水平数据都是一致的。也就是说,这个总体的潜在结果的期望应该是一样的。
Exchangeability
换个角度,如果我们让原来的实验组不接受新药测试(其结果将会与原对照组相近),让原来的对照组接受新药测试(结果将会与原实验组相近),也会获得与原来结果一样的血压水平数据。
表现为:
$$ \Bbb{E}[Y(1)|T=1]=\Bbb{E}[Y(1)|T=0]=\Bbb{E}[Y(1)] $$以及,
$$ \Bbb{E}[Y(0)|T=1]=\Bbb{E}[Y(0)|T=0]=\Bbb{E}[Y(0)] $$据此可以推导出 $\Bbb{E}[Y(1)|T=t]=\Bbb{E}[ Y(1)]$ 和 $\Bbb{E}[Y(0)|T=t]=\Bbb{E}[Y(0)]$。
这意味着潜在结果和接受哪一种处理($t$)之间没有关系。也就是说,当我们讨论一组因果关系时,潜在结果是确定的。
$$ (Y(1), Y(0))\perp\perp{T} $$此时,用 $\Bbb{E}[Y(1)|T=1]$ 和 $\Bbb{E}[Y(0)|T=0]$ 来计算潜在结果 $\Bbb{E}[Y(1)]$ 和 $\Bbb{E}[Y(0)]$,则平均处理效应 $(3)$ 可以进一步表示为
$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)]&=\Bbb{E}[Y(1)]-\Bbb{E}[Y(0)]\\\ &=\Bbb{E}[Y(1)|T=1] -\Bbb{E}[ Y(0)|T=0] \end{aligned} \tag{4} $$假设一
Conditional exchangeability
$$ (Y(1), Y(0))\perp\perp{T|W} $$Unconfoundedness
因为存在与药物反应有关的协变量(covariates),所以无论是否接受新药测试都会与血压水平表现出一定的相关性(association)。统计学中,也将这些变量称为“混淆因素”(confounder)。如果我们能够对混淆因素进行控制,那就可以对实验组和对照组进行相互比较。
所以,我们可以估计控制 $W$ 时的平均处理效应:
$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)|W]&=\Bbb{E}[Y(1)|W]-\Bbb{E}[Y(0)|W]\\\ &=\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W] \end{aligned} \tag{4*} $$综合等式 $(4)$ 和 $(4*)$,有平均处理效应:
$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)]&=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)-Y(0)|W]\big]\\\ &=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W]\big] \end{aligned} \tag{5} $$假设二
Consistency
我们很容易意识到,当 $T=1$ 时观测到的结果 $Y$ 为潜在结果 $Y(1)$,当 $T=0$ 时观测到的结果 $Y$ 为潜在结果 $Y(0)$。
如果我们的潜在结果是明确定义的(well defined ),那这个直觉也将是成立的,即 $\Bbb{E}[Y(1)|T=1]=\Bbb{E}[Y|T=1]$ 以及 $\Bbb{E}[Y(1)|T=0]=\Bbb{E}[Y|T=0]$。
因此,
$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)] &=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W]\big]\\\ &=\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W] -\Bbb{E}[Y|T=0,W]\big] \end{aligned} \tag{6} $$调整公式
等式 $(6)$ 称为调整公式(Adjustment Formula)
Given the assumptions of unconfoundedness, positivity, consistency, and no interference, we can identify the average treatment effect:
$$ > \Bbb{E}[Y(1)-Y(0)] > =\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W] -\Bbb{E}[Y|T=0,W]\big] > $$
读到这里,你离理解鲁宾因果框架只剩下一步之遥。从上文的描述中,可以看到还有尚未提及的假设——Positivity 和 No interference。因为这两个假设和consistency一样,非常直觉。
假设三
Positivity
当我们对协变量 $W$ 进行控制时,应该保证 $0<P(T=1|W=w)<1$。简而言之,我们不能控制一个不会发生的事件。如果 $P(W=w)=0$,那么 $P(T=1|W=w)$ 和 $P(T=0|W=w)$ 都等于 $0$。
以离散事件为例,把调整公式展开为
$$ \begin{aligned} &\sum_W{P(W=w)}(\sum_y{P(Y=y|T=1,W=w)}-\sum_y{P(Y=y|T=0,W=w)})\\\ =&\sum_W{P(W=w)}(\sum_y\frac{P(Y=y,T=1,W=w)}{P(T=1,W=w)}-\sum_y\frac{P(Y=y,T=0,W=w)}{P(T=0,W=w)})\\\ =&\sum_W{P(W=w)}(\sum_y\frac{P(Y=y,T=1,W=w)}{P(T=1|W=w)P(W=w)}-\sum_y\frac{P(Y=y,T=0,W=w)}{P(T=0|W=w)P(W=w)}) \end{aligned} $$其中分母中的 $P(T=1|W=w)$ 或 $P(T=0|W=w)$ 不等于 $0$。
假设四
No interference
个体之间无干扰的假设一直被理所当然地默认了,即个体的观测结果与其他个体接受怎样处理无关。乔的血压与詹姆斯是否服用降压药没有关系。这个假设虽然看似直观,但在很多实际研究中可能并不成立,可能会导致调整公式对因果效应的估计不准确。
SUTVA
最后,如果你在文献中看到稳定单元处理值假设(Stable Unit Treatment Value Assumption, SUTVA) ,可以认为是 No interference 和 Consistency 的组合。
当 SUTVA 不满足的情况下,估计因果效应会变得困难。
考虑乔的血压与玛丽是否接受了药物有关的情况。如果乔和玛丽是一对同居的夫妻,玛丽负责家庭的饮食。服用新药使玛丽喜欢口味偏咸的食物,所以她会用比其他情况下更多的盐来烹饪。而高盐饮食会增加乔的血压。因此,他的结果将取决于他接受的处理和玛丽接受的处理。
此时,我们需要通过考虑更多的处理来解释相关的观察结果,玛丽是否接受处理对应了乔的4种潜在结果。
乔 = c,玛丽 = E 乔 = E,玛丽 = E 乔 = c,玛丽 = c 乔 = E,玛丽 = c 乔 140 130 125 120
其中,实验(E, experiment)代表服用新药, 对照(C, control)代表不服用新药。
因为同时存在两个以上的潜在结果,所以也有多种因果效应需要被估计:
- 玛丽接受处理时(E),服用新药物使乔的血压下降,因果效应为130−140=-10
- 相对地,玛丽没有接受处理时(C),新药对乔的因果效应为120−125=-5
- 在乔没有得到处理的情况下(C),玛丽的接受新药测试通过高盐饮食使乔的血压升高,因果效应为140−125=15。
从因果效应的绝对值上看($15>10>5$),玛丽服用新药物对乔的影响,比乔自己服用新药的影响更大,并且作用效果是相反的。
通过这种方式,能够在鲁宾因果框架内对因果效应进行估计。如果乔以外的其他个体也与玛丽有关,那么我们必须考虑进一步的潜在结果。关联的单位数量越多,涉及的潜在结果就越多,计算也变得越复杂。为了估计单一处理相对于对照的因果效应,应该保证 SUTVA 成立。