Published on: 2021-11-17

Last updated: 2021-11-17

潜在结果框架：因果推论的基石

在 Neyman-Rubin 因果模型（或称“潜在结果框架”，Potential Outcome）中，所谓因果推论，实际上是估计“因果效应”（causal effect）。

何谓因果效应

Rubin 给出一个直观的例子：

Intuitively, …

“If an hour ago I had taken two aspirins instead of just a glass of water, my headache would now be gone,” or “Because an hour ago I took two aspirins instead of just a glass of water, my headache is now gone.”

“如果一个小时前我服用了两个阿司匹林而不是一杯水，我的头痛现在就会消失”，或者“因为一个小时前我服用了两个阿司匹林而不是一杯水，我的头痛现在消失了”

…

Now define the causal effect of the $E$ versus $C$ treatment on $Y$ for a particular trial (i.e., a particular unit and associated times $t_1$, $t_2$) as follows:

Let $y(E)$ be the value of Y measured at $t_2$ on the unit, given that the unit received the experimental Treatment $E$ initiated at $t_1$;

Let $y(C)$ be the value of $Y$ measured at $t_2$ on the unit given that the unit received the control Treatment $C$ initiated at $t_1$;

Then $y(E) - y(C)$ is the causal effect of the $E$ versus $C$ treatment on $Y$ for that trial, that is, for that particular unit and the times $t_1$, $t_2$

根据他的描述，可以获得如下的表格：

time	Experimental ($Y(E)$)	Control ($Y(C)$)	Causal Effect
$t_1$	$y_{t_1}(E)$	$y_{t_1}(C)$	-
$t_2$	$y_{t_2}(E)$	$y_{t_2}(C)$	$y_{t_2}(E)-y_{t_2}(C)$

注意：表中 $y_{t_2}(E)$ 即上文提及的 $y(E)$，$y_{t_2}(C)$ 即上文提及的 $y(C)$，所以表格定义的因果效应（含下标$t_2$）为 $y_{t_2}(E)-y_{t_2}(C)$

记是否头痛为 $Y$，头痛记为 $1$

$$ Y= \begin{cases} 0\\\ 1\qquad\rm{i.e.headache} \end{cases} $$

$Y(E)$ ：服用阿司匹林

$Y(C)$ ：喝水（即未服用阿司匹林）

填入上表

时间	阿司匹林	水	因果效应
一小时前	1	1
一小时后	0	1	$0-1=-1$

解释为，因为服用阿司匹林使头痛 $-1$。

另外，可以看看两种因果效应为 $0$ 的情况（即阿司匹林不是缓解头痛症状的原因），其一为头痛症状未缓解：

时间	阿司匹林	水	因果效应
一小时前	1	1
一小时后	1	1	$1-1=0$

其二为只喝水不服药，但一小时后头痛好了：

时间	阿司匹林	水	因果效应
一小时前	1	1
一小时后	0	0	$0-0=0$

从上面的例子可以看出，当我们估计因果效应时，关注的是表格中第二行（即一小时后）的值，这就是所谓的“潜在结果”。因果效应（有时也称作“处理效应”）指的正是这两种潜在结果间的差异。

在进行推断时，我们不能同时获得两种潜在结果。例如，我在一小时前感到头痛，但只是喝了点水，没有服用阿司匹林，则没办法观测到如果我在一小时前服用阿司匹林的情况。

时间	阿司匹林	水
一小时前	0	1
一小时后	?	0

无法从观测中获得的结果称作反事实（counterfactual）。在这个最简单的例子中，两种潜在结果总是有一个为反事实结果。

平均因果效应

为了应对反事实结果的数据缺失问题，需要先认识“平均处理效应”（Average Treatment Effect, ATE），有时也称作“平均因果效应”（Average Causal Effect, ACE）。

前面我们提到的因果效应，称作“个体处理效应”（Individual Treatment Effect, ITE）或“个体因果效应”，可以用 $Y(E)-Y(C)$ 表示，即在实验组（E, experiment）和对照组（C, control）两种不同处理下获得的潜在结果的差异。

为了方便，下面我们 $T = 1$ 代表实验组， $T=0$ 代表对照组，将个体处理效应表示为

$$ Y(1)-Y(0)\tag{1} $$

平均因果效应估计的是所有个体因果效应 $(1)$ 的期望

$$ \Bbb{E}[Y(1)-Y(0)] = \Bbb{E}[Y_i(1)-Y_i(0)]\tag{2} $$

假设以下为 FDA 对一种新的高血压药物的测试数据。如果我们无所不知，我们就会知道乔在新药（$T=1$）和未处理或当前标准处理（$T=0$）下的结果。因果效应或处理效应是这两种潜在结果之间的差异。当考虑多个被试时，有

$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$

乔 130 135 −5

玛丽 130 145 −15

莎莉 130 145 −15

鲍勃 140 150 −10

詹姆士 145 140 +5

平均 135 143 −8

	$Y_i(1)$	$Y_i(0)$	$Y_i(1)−Y_i(0)$
乔	130	135	−5
玛丽	130	145	−15
莎莉	130	145	−15
鲍勃	140	150	−10
詹姆士	145	140	+5
平均	135	143	−8

可以通过取所有个体因果效应的平均值来计算平均因果效应，很容易看出平均因果效应通过 $\frac{(-5-15-15-10+5)}{5}=-8$ 计算得到。

而在应用中，由于我们不能同时观测到两个潜在结果，所以更多的通过期望的线性性质来获得平均因果效应，即 $135-143=-8$ 。

$$ \Bbb{E}[Y(1)-Y(0)]=\Bbb{E}[Y(1)]-\Bbb{E}[Y(0)]\tag{3} $$

比如，我们实际观测到的数据为

$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$

乔 130 ? ?

玛丽 120 ? ?

莎莉 ? 125 ?

鲍勃 ? 130 ?

詹姆士 115 ? ?

平均 121.66 127.5 −5.83

或者

$Y_i(1)$ $Y_i(0)$ $Y_i(1)−Y_i(0)$

乔 130 ? ?

鲍勃 110 ? ?

詹姆士 105 ? ?

玛丽 ? 130 ?

莎莉 ? 125 ?

苏茜 ? 135 ?

平均 115 130 −15

	$Y_i(1)$	$Y_i(0)$	$Y_i(1)−Y_i(0)$
乔	130	?	?
玛丽	120	?	?
莎莉	?	125	?
鲍勃	?	130	?
詹姆士	115	?	?
平均	121.66	127.5	−5.83

	$Y_i(1)$	$Y_i(0)$	$Y_i(1)−Y_i(0)$
乔	130	?	?
鲍勃	110	?	?
詹姆士	105	?	?
玛丽	?	130	?
莎莉	?	125	?
苏茜	?	135	?
平均	115	130	−15

假设个体被随机分配不同的处理，即是否进行新药的试用。本例中，平均因果效应通过忽略无法被观测的潜在结果，计算实验组的平均值与对照组的平均值之差，结果虽然有所不同，但理论上讲，在样本较大且方差较小的情况下，结果接近于真实的平均因果效应。

假设〇

Ignorability

直接忽略无法观测的潜在结果是一种可行的方案吗？我们怎么保证对照组和实验组之间能够相互比较（comparable）？一般来说，能够相互比较，要求两组之间除了处理不同（$T=1$ 或 $T=0$）之外，其他任何条件都是没有差别的。

那么，假如在选择接受新药测试的个体前，也就是未将这些个体区分为实验组和对照组前，他们是不存在任何差别的。无论怎么选择其中一半数量的个体来接受新药测试，获得的血压水平数据都是一致的。也就是说，这个总体的潜在结果的期望应该是一样的。

Exchangeability

换个角度，如果我们让原来的实验组不接受新药测试（其结果将会与原对照组相近），让原来的对照组接受新药测试（结果将会与原实验组相近），也会获得与原来结果一样的血压水平数据。

表现为：

$$ \Bbb{E}[Y(1)|T=1]=\Bbb{E}[Y(1)|T=0]=\Bbb{E}[Y(1)] $$

以及，

$$ \Bbb{E}[Y(0)|T=1]=\Bbb{E}[Y(0)|T=0]=\Bbb{E}[Y(0)] $$

据此可以推导出 $\Bbb{E}[Y(1)|T=t]=\Bbb{E}[ Y(1)]$ 和 $\Bbb{E}[Y(0)|T=t]=\Bbb{E}[Y(0)]$。

这意味着潜在结果和接受哪一种处理（$t$）之间没有关系。也就是说，当我们讨论一组因果关系时，潜在结果是确定的。

$$ (Y(1), Y(0))\perp\perp{T} $$

此时，用 $\Bbb{E}[Y(1)|T=1]$ 和 $\Bbb{E}[Y(0)|T=0]$ 来计算潜在结果 $\Bbb{E}[Y(1)]$ 和 $\Bbb{E}[Y(0)]$，则平均处理效应 $(3)$ 可以进一步表示为

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)]&=\Bbb{E}[Y(1)]-\Bbb{E}[Y(0)]\\\ &=\Bbb{E}[Y(1)|T=1] -\Bbb{E}[ Y(0)|T=0] \end{aligned} \tag{4} $$

假设一

Conditional exchangeability

$$ (Y(1), Y(0))\perp\perp{T|W} $$

Unconfoundedness

因为存在与药物反应有关的协变量（covariates），所以无论是否接受新药测试都会与血压水平表现出一定的相关性（association）。统计学中，也将这些变量称为“混淆因素”（confounder）。如果我们能够对混淆因素进行控制，那就可以对实验组和对照组进行相互比较。

所以，我们可以估计控制 $W$ 时的平均处理效应：

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)|W]&=\Bbb{E}[Y(1)|W]-\Bbb{E}[Y(0)|W]\\\ &=\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W] \end{aligned} \tag{4*} $$

综合等式 $(4)$ 和 $(4*)$，有平均处理效应：

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)]&=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)-Y(0)|W]\big]\\\ &=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W]\big] \end{aligned} \tag{5} $$

假设二

Consistency

我们很容易意识到，当 $T=1$ 时观测到的结果 $Y$ 为潜在结果 $Y(1)$，当 $T=0$ 时观测到的结果 $Y$ 为潜在结果 $Y(0)$。

如果我们的潜在结果是明确定义的（well defined ），那这个直觉也将是成立的，即 $\Bbb{E}[Y(1)|T=1]=\Bbb{E}[Y|T=1]$ 以及 $\Bbb{E}[Y(1)|T=0]=\Bbb{E}[Y|T=0]$。

因此，

$$ \begin{aligned} \Bbb{E}[Y(1)-Y(0)] &=\Bbb{E}_{W}\big[\Bbb{E}[Y(1)|T=1,W] -\Bbb{E}[Y(0)|T=0,W]\big]\\\ &=\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W] -\Bbb{E}[Y|T=0,W]\big] \end{aligned} \tag{6} $$

调整公式

等式 $(6)$ 称为调整公式（Adjustment Formula）

Given the assumptions of unconfoundedness, positivity, consistency, and no interference, we can identify the average treatment effect:
$$ > \Bbb{E}[Y(1)-Y(0)] > =\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W] -\Bbb{E}[Y|T=0,W]\big] > $$

读到这里，你离理解鲁宾因果框架只剩下一步之遥。从上文的描述中，可以看到还有尚未提及的假设——Positivity 和 No interference。因为这两个假设和consistency一样，非常直觉。

假设三

Positivity

当我们对协变量 $W$ 进行控制时，应该保证 $0<P(T=1|W=w)<1$。简而言之，我们不能控制一个不会发生的事件。如果 $P(W=w)=0$，那么 $P(T=1|W=w)$ 和 $P(T=0|W=w)$ 都等于 $0$。

以离散事件为例，把调整公式展开为

$$ \begin{aligned} &\sum_W{P(W=w)}(\sum_y{P(Y=y|T=1,W=w)}-\sum_y{P(Y=y|T=0,W=w)})\\\ =&\sum_W{P(W=w)}(\sum_y\frac{P(Y=y,T=1,W=w)}{P(T=1,W=w)}-\sum_y\frac{P(Y=y,T=0,W=w)}{P(T=0,W=w)})\\\ =&\sum_W{P(W=w)}(\sum_y\frac{P(Y=y,T=1,W=w)}{P(T=1|W=w)P(W=w)}-\sum_y\frac{P(Y=y,T=0,W=w)}{P(T=0|W=w)P(W=w)}) \end{aligned} $$

其中分母中的 $P(T=1|W=w)$ 或 $P(T=0|W=w)$ 不等于 $0$。

假设四

No interference

个体之间无干扰的假设一直被理所当然地默认了，即个体的观测结果与其他个体接受怎样处理无关。乔的血压与詹姆斯是否服用降压药没有关系。这个假设虽然看似直观，但在很多实际研究中可能并不成立，可能会导致调整公式对因果效应的估计不准确。

SUTVA

最后，如果你在文献中看到稳定单元处理值假设（Stable Unit Treatment Value Assumption, SUTVA) ，可以认为是 No interference 和 Consistency 的组合。

当 SUTVA 不满足的情况下，估计因果效应会变得困难。

考虑乔的血压与玛丽是否接受了药物有关的情况。如果乔和玛丽是一对同居的夫妻，玛丽负责家庭的饮食。服用新药使玛丽喜欢口味偏咸的食物，所以她会用比其他情况下更多的盐来烹饪。而高盐饮食会增加乔的血压。因此，他的结果将取决于他接受的处理和玛丽接受的处理。

此时，我们需要通过考虑更多的处理来解释相关的观察结果，玛丽是否接受处理对应了乔的4种潜在结果。

乔 = c，玛丽 = E 乔 = E，玛丽 = E 乔 = c，玛丽 = c 乔 = E，玛丽 = c

乔 140 130 125 120

	乔 = c，玛丽 = E	乔 = E，玛丽 = E	乔 = c，玛丽 = c	乔 = E，玛丽 = c
乔	140	130	125	120

其中，实验（E, experiment）代表服用新药，对照（C, control）代表不服用新药。

因为同时存在两个以上的潜在结果，所以也有多种因果效应需要被估计：

玛丽接受处理时（E），服用新药物使乔的血压下降，因果效应为130−140=-10
相对地，玛丽没有接受处理时（C），新药对乔的因果效应为120−125=-5
在乔没有得到处理的情况下（C），玛丽的接受新药测试通过高盐饮食使乔的血压升高，因果效应为140−125=15。

从因果效应的绝对值上看（$15>10>5$），玛丽服用新药物对乔的影响，比乔自己服用新药的影响更大，并且作用效果是相反的。

通过这种方式，能够在鲁宾因果框架内对因果效应进行估计。如果乔以外的其他个体也与玛丽有关，那么我们必须考虑进一步的潜在结果。关联的单位数量越多，涉及的潜在结果就越多，计算也变得越复杂。为了估计单一处理相对于对照的因果效应，应该保证 SUTVA 成立。

#Statistic #Causality #Treatment Effect #Unconfoundedness #Potential Outcome #Adjustment Formula ...all tags