Causal-Inference on TouchingFish.top

当混淆因素隐匿于幕后

Mon, 27 Jun 2022 00:00:00 +0000

基本问题

所谓混淆因素，指的是与处理（treatment）及结果（outcome）皆有联系之变量。若不予控制，易致偏差，令我们所得结论非因果关系之实，乃混淆所致之假象。然而，倘若混淆因素不可观测（unobserved confounding），我们又该如何在未知中求解因果？

界限估计

当我们不能妄断“unconfoundedness”的条件成立，则需要借助弱假设，推导出因果效应的区间（interval）估计。这类方法一般依赖部分识别（partial identification）之思想，亦即在无法完全排除混淆时，通过宽泛但合理的假设，限定因果效应的可能范围。

如 Bounding methods 并不假设完全无混淆（unconfoundedness），而是假设混淆的影响在某特定范围内。借此，我们可以得出一个因果效应的上下界，而非唯一值之估计。这种思路可以在不严苛的假设之下，仍提供有意义的推断。

“The Law of Decreasing Credibility: the credibility of inference decreases with the strength of the assumptions maintained.”

No-Assumptions Bound

对二元（binary）之个体处理效应（ITE）而言，其最大值和最小值为

$$ -1 \leq Y_i(1)-Y_i(0) \leq 1 \qquad \text{if } \forall t,0 \leq Y(t) \leq 1 $$

故平均处理效应（ATE）之区间长度也都在 $2$ 之内。

在无需任何假设的条件下，较之 ITE，ATE 的区间长度可减半，即 ATE 将落于长度为 $1$ 的区间内。

ASSUMPTION Bounder Potential Outcomes

$$ \forall t,a \leq Y(t) \leq b $$

根据该假设，易得

$$ \begin{aligned} a-b \leq Y_i(1)-Y_i(0) \leq b-a \\\ a-b \leq \Bbb{E}[Y_i(1)-Y_i(0)] \leq b-a \end{aligned} $$

ITE 的区间长度为 $(b-a)-(a-b)=2(b-a)$.

衡量因果推论之稳定性

Wed, 27 Apr 2022 00:00:00 +0000

敏感性分析（sensitivity analysis）乃衡量因果推论之稳定性所用。当研究中存有不可观测混淆因素时，结论或受此影响而失真，敏感性分析可助吾等评估此种未知因素对估计因果效应之干扰程度。今撰此小文，略述其要义。

基本原理

敏感性分析旨在通过设定不同假想情境，量化未观测混淆之潜在影响。其核心在于引入两个参数：一为混淆因素对处理（treatment）的影响，二为混淆因素对结果（outcome）的影响。通过调整此等参数之值，吾辈可模拟不同程度之混淆，并观察因果效应估计之变化。

若吾等发现某结论在较大范围之参数变动中仍保持稳健，则可对所得推断更有信心；反之，若结论在微小假设变化下便剧烈波动，则应审慎看待，或重新考虑所用之假设。

举例而言，在一个线性模型中，考虑可观测的共因 $W$，和不可观测的共因 $U$：

$$ \begin{aligned} T &:= \alpha_w W + \alpha_u U\\\ Y &:= \beta_w W + \beta_u U + \delta T \end{aligned} $$

其中，$\alpha_u$ 乃是混淆因素 $U$ 对处理 $T$ 的影响， $\beta_u$ 则为混淆因素 $U$ 对结果 $Y$ 的影响，$T$ 对 $Y$ 之因果效应表示为 $\delta$。

由调整公式得

$$ \Bbb{E}[Y(1)-Y(0)]=\Bbb{E}_{W,U}\big[\Bbb{E}[Y|T=1,W,U]-\Bbb{E}[Y|T=0,W,U]\big]=\delta $$

因 $U$ 不可观测，故我们只能对 $W$ 进行调整，混淆因素所致之偏差为 $\frac{\beta_u}{\alpha_u}$。

$$ \Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W]-\Bbb{E}[Y|T=0,W]\big]-\Bbb{E}_{W,U}\big[\Bbb{E}[Y|T=1,W,U]-\Bbb{E}[Y|T=0,W,U]\big]=\frac{\beta_u}{\alpha_u} $$

证明

据 $Y$ 与 $T$ 之结构方程，可推出 $\implies U=\frac{T-\alpha_w W}{\alpha_u}$，故有

$$ \begin{aligned} \Bbb{E}_W\big[\Bbb{E}[Y|T=t,W]\big] &=\Bbb{E}_W\big[\Bbb{E}[\beta_w W + \beta_u U + \delta T|T=t,W]\big] \\\ &=\Bbb{E}_W\left[\beta_w W + \beta_u \Bbb{E}[U|T=t,W] + \delta t\right] \\\ &=\Bbb{E}_W\left[\beta_w W + \beta_u \left(\frac{t-\alpha_w W}{\alpha_u}\right) + \delta t\right] \\\ &=\Bbb{E}_W\left[\beta_w W + \frac{\beta_u}{\alpha_u}t - \frac{\beta_u\alpha_w}{\alpha_u}W + \delta t\right] \\\ &=\beta_w\Bbb{E}[W]+\frac{\beta_u}{\alpha_u}t - \frac{\beta_u\alpha_w}{\alpha_u}\Bbb{E}[W] + \delta t \\\ &=\left(\beta_w - \frac{\beta_u\alpha_w}{\alpha_u}\right)\Bbb{E}[W]+\left(\delta+\frac{\beta_u}{\alpha_u}\right) t \end{aligned} $$

若我们对 $W$ 进行调整时，根据上式来估计 ATE

孟德尔随机化的原理

Sun, 24 Apr 2022 00:00:00 +0000

手冲咖啡的香气弥漫在狭小的房间里。

窗外下着雨，和往常一样。我端着第二杯아아（冰美式简称，아이스 아메리카노，ice americano —— 一个无聊的冷知识），坐在电脑前，屏幕上是那篇用孟德尔随机化（Mendelian Randomization, MR）研究喝咖啡和抑郁症关系的论文¹。结论是：没关系。

喝咖啡续命这件事，看来只是续命。

这个结果令人有点失落。毕竟每天两杯美式，总想骗自己说这是在预防抑郁。

去年的经济学奖把因果推论的地位又提升了一档，前几天刚啃完IV（Instrumental Variable, 工具变量法），再看这篇文章，清楚了许多，心境也已经不一样了。

从一个问题开始

咖啡和抑郁没有关系。这句话本身没问题。

问题在于：怎么证明？

最直接的方法是比较喝咖啡的人和不喝咖啡的人，看谁的抑郁风险更高。

但喝咖啡的人和不喝咖啡的人，能直接比较吗？恐怕不能。喝咖啡的人可能本来就生活规律、社交广泛、压力较小——这些因素本身就降低抑郁风险。你怎么知道是咖啡有用，还是这些混淆因素在作祟？

随机对照试验（RCT）可以解决。但你不能把人随机分组，一组命令喝咖啡，一组禁止喝，然后跟踪十年看谁先抑郁。伦理上说不通，时间上也等不起。

所以观察性研究只能告诉你"喝咖啡的人抑郁风险更低"，永远不能告诉你"喝咖啡能降低抑郁风险"。

因果推论在这里碰壁了。

工具变量登场

这时候，计量经济学的老朋友出现了：工具变量。

一个变量 $Z$ 要成为好的工具变量，需要满足三个条件：

相关性：$Z$ 必须和自变量 $T$ 相关
排他性：$Z$ 只能通过 $T$ 影响因变量 $Y$，不能有别的途径
无混淆：$Z$ 和混淆因素无关

用人话说：$Z$ 要能影响 $T$，但只能通过 $T$ 来影响 $Y$，不能自己偷偷影响 $Y$，也不能和影响 $Y$ 的其他因素有关联。

举例：烟草税 $Z$ 作为工具变量，研究吸烟 $T$ 对肺癌 $Y$ 的影响。

烟草税影响吸烟行为（相关性）。烟草税和个人生活习惯可能无关（无混淆）。烟草税只能通过改变吸烟行为来影响肺癌，不能自己直接导致肺癌（排他性）。

满足这三个条件，工具变量就帮你绕开了混淆问题。

怎么用？二阶最小二乘法（2SLS）：

第一阶，用 $Z$ 预测 $T$：

$$T = \pi_0 + \pi_1 Z + u$$

第二阶，用预测值 $\hat{T}$ 回归 $Y$：

精准刻画的智慧（局部效应）

Fri, 22 Apr 2022 00:00:00 +0000

局部平均处理效应（Local Average Treatment Effect, LATE）是解决工具变量（instrumental variables, IV）分析中“异质性”问题的重要概念，尤其在处理效应并非全体受试者均一致之时，LATE 能准确捕捉那些响应工具变量之人群的因果效应。其所估计者，并非总体平均处理效应，而是仅针对那些遵从工具变量之个体（即“遵从者”）的平均处理效应。

样本的分层

如果将医生的处方作为工具变量 $Z$，是否遵从处方服用药物为 $T$，则可以将样本分为“遵从者”（Compliers）与“非遵从者”（Defiers）组，并对这两组个体之潜在结果进行比较。

样本分层记号：借鉴潜在结果的表示，我们用

$$ \begin{aligned} T(1) \triangleq T(Z=1)\\\ T(0) \triangleq T(Z=0) \end{aligned} $$

来表示对 $Z$ 进行干预时获得的处理 $T$，所有样本可以分为以下 4 种类型：

Compliers: $T(1)=1$ and $T(0)=0$
Always-takers: $T(1)=1$ and $T(0)=1$
Never-takers: $T(1)=0$ and $T(0)=0$
Defiers: $T(1)=0$ and $T(0)=1$

其中，遵从者与非遵从者是否接受处理完全取决于工具变量。

而 Always-takers 和 Never-takers 是否接受处理则与工具变量无关。例如，根据自己意愿，而不按处方用药者。

后者之因果图中不存在 $Z \to T$ 的边，故对 Always-takers 和 Never-takers 而言，$Z$ 对 $Y$ 之因果效应为 $0$。

根据是否被要求接受处理($Z=1 \quad \text{or} \quad Z=0$)，以及是否接受处理($T=1 \quad \text{or} \quad T=0$) 进行分层时，共有4种组合：

BEF研究中的因果假设争论

Sun, 03 Apr 2022 00:00:00 +0000

引言

a specific SCM is a causal hypothesis. Fitting to data gives you feedback about your hypothesis (and more). It represents a workflow that can lead to stunning advances. It’s not a magical box that you put your data into, shake, and watch all causal relationships fall out.

— Don Schoolmaster, 05 Feb 2023

生物多样性-生态系统功能（Biodiversity-Ecosystem Function, BEF）研究是生态学中最具争议的领域之一。自1990年代以来，大量研究表明物种多样性与生态系统功能之间存在正相关关系。然而，这种相关性是否代表因果关系，一直是激烈辩论的焦点。

2020年，Schoolmaster、Zirbel和Cronin（SZC）在《Ecology》发表了一篇论文，运用图形因果模型（Graphical Causal Model）重新审视BEF研究中的因果假设。随后，Grace、Loreau和Schmid（GLS）在2021年发表评论文章批评SZC的模型，SZC则在2022年发表回复。这场学术争论不仅涉及BEF研究的核心问题，更触及因果推论方法论的根本。

标准因果模型的问题

传统BEF研究的因果假设

传统BEF研究隐含的因果模型可以表示为：

E → B → Q → F

其中：

工具变量如何通向因果效应

Mon, 28 Mar 2022 00:00:00 +0000

在日常生活中，我们经常会遇到这样的问题：某种行为是否会导致某种结果？例如，吸烟是否会导致肺癌？参加工作培训是否会提高就业率？这些问题的答案并不总是显而易见，因为很多时候，行为和结果之间可能存在其他隐藏的混淆因素。工具变量（Instrumental Variables, IV）是当混淆因素不可观测时，识别因果效应的一种解决方案。

假设我们有以下变量：

$T$：处理变量（例如，是否接受某种治疗）
$Y$：结果变量（例如，健康状况）
$U$：混淆因素（例如，个人健康习惯）
$Z$：工具变量（例如，是否被建议接受治疗）

工具变量 $Z$ 必须满足下列三个假设:

相关性假设（Relevance Assumption）: $Z$ 对 $T$ 存在因果效应
排他限制（Exclusion Restriction）: $Z$ 对 $Y$ 的所有因果效应都必须经过中介 $T$

$Z$ causal effects on $Y$ is fully mediated by $T$.

This assumption is known as the exclusion restriction because it excludes $Z$ from the structural equation for $Y$ and from any other structural equations that would make causal association flow from $Z$ to $Y$ without going through $T$.

利用时间信息探寻因果

Fri, 25 Mar 2022 00:00:00 +0000

评估政策或者事件的影响，常以历史数据为镜。然而，历史数据错综复杂，要从中识别出真实的因果效应（treatment effect）实非易事。双重差分法（Difference in Differences, DiD）的核心思想在于：比较同一组个体在政策实施前后之变化，并与另一组未受政策影响的个体在相同时段的变化进行对比。若从两组数据间观测到显著差异，便可以认为这一变化是由政策所引起。

基础知识回顾

关键假设

无混淆假设（Unconfoundedness Assumption）
$$ \big(Y(1),Y(0)\big) \perp\!\!\!\perp T $$
即处理状态 $T$ 与潜在结果 $Y(1)$ 和 $Y(0)$ 相互独立。
一致性假设（Consistency Assumption）
$$ \mathbb{E}[Y(1)|T=1] = \mathbb{E}[Y|T=1] $$
即在接受处理的组别中，观测到的结果 $Y$ 可以代表潜在结果 $Y(1)$。

在上述假设下，可识别平均处理效应（ATE, Average Treatment Effect）：
$$ \mathbb{E}[Y(1) - Y(0)] = \mathbb{E}[Y|T=1] - \mathbb{E}[Y|T=0] $$
针对处理组的平均处理效应（ATT, Average Treatment Effect on Treated）
$$ \mathbb{E}[Y(1) - Y(0)|T=1] $$

引入时间维度

引入时间维度，是为了在不依赖于无混淆假设 下进行因果效应的识别。用 $Y_{\tau}(t)$ 表示时间为 $\tau$ 时处理为 $t$ 的潜在结果，那么 ATT 可以表示为：

$$ \mathbb{E}[Y_1(1) - Y_1(0)|T=1] $$

识别策略

假设

时间一致性假设（Consistency Assumption Extended to Time）

贝叶斯网络：因果图模型的前身

Mon, 20 Dec 2021 00:00:00 +0000

贝叶斯网络（Bayesian Network），作为一种图形化模型，早在20世纪末便广为流传，其主要用以描述随机变量之间的条件独立性与概率分布关系。它以有向无环图（Directed Acyclic Graph, DAG）为基础，将复杂的概率系统分解为易于处理的子结构。

在这一框架下，每个节点代表一个随机变量，每条有向边则表示变量间的条件依赖。例如，在贝叶斯网络中，若变量 $X$ 指向 $Y$，这仅表示给定 $X$ 的条件下，$Y$ 的概率分布被决定。

条件独立性的理论基础

考虑我们将要进行建模的分布为 $P(x_1,x_2,\dots,x_n)$，根据链式法则（chain rule），对其进行分解：

$$ \begin{aligned} P(x_1,x_2,\dots,x_n)&=P(x_n|x_{n-1},\dots,x_1)P(x_{n-1}|x_{n-2},\dots,x_1)\cdots P(x_2|x_1)P(x_1)\\&=P(x_1)\prod_iP(x_i|x_{i-1},\dots,x_1) \end{aligned} $$

假设 $x_i$ 均为二元变量（binary），其中 $i=1,2,3,\dots,n$。当考虑 $3$ 个变量时（$n=3$），需要建模的因子 $P(x_3|x_2,x_1)$ 有 $4$ 个参数（parameters）：

$x_1$	$x_2$	$P(x_3\\|x_2,x_1)$
0	0	$a_1$
0	1	$a_2$
1	0	$a_3$
1	1	$a_4$

当考虑 $4$ 个变量时（$n=4$），参数为 $8$ 个。

$x_1$	$x_2$	$x_3$	$P(x_4\\|x_3,x_2,x_1)$
0	0	0	$a_1$
0	0	1	$a_2$
0	1	1	$a_3$
0	1	0	$a_4$
1	1	1	$a_5$
1	1	0	$a_6$
1	0	0	$a_7$
1	0	1	$a_8$

也就是说，对 $P(x_n|x_{n-1},\dots,x_1)$ 进行建模必要的参数为 $2^{n-1}$ 个，随着 $n$ 的增加呈指数型增长。

结构性的因果关系表征（因果图）

Sat, 20 Nov 2021 00:00:00 +0000

传统的因果推断（causal inference）多依赖于回归模型与假设检验，着重于处理数据中变量间的关联性，而忽视了因果关系的结构性。因果图模型的引入，则为我们提供了一种全新的视角，可谓因果推断领域的一大颠覆。

结构方程

相比传统回归分析的变量间关联，结构因果模型强调因果关系的显性表达，为我们提供了更多的信息。例如，$M$ 是一个结构因果模型（structural causal model），其中 $V=\{Z,X,Y\}$ 是研究中所讨论因果关系的变量，称为内生变量（endogenous variables），$U=\{U_z.U_x,U_y\}$ 是外生变量（exogenous variables），代表研究中没有被明确建模的扰动（disturbances）。

函数 $F=\{f_z,f_x.f_y\}$ 称为结构方程（structural equations），每个函数表示对应的内生变量的数据生成机制，即对应的内生变量的值由其他变量的值所决定的因果过程。

$$ M=\begin{cases} Z \leftarrow f_z(U_z)\\ X \leftarrow f_x(Z,U_x)\\ Y \leftarrow f_y(X,Z,U_y)\\ U \sim P(U) \end{cases} $$

$P(U)$ 表示外生变量相关联的概率分布，在本例中，假设外生变量是相互独立的。结构因果模型 $M$ 表示内生变量的联合分布 $P(V)$，称作观测分布（observational distribution）。

有向无环图

每一个结构因果模型 $M$ 有一个对应的因果图 $G$，直观地刻画了各个变量之间的因果关系，每个节点表示模型 $M$ 中的一个变量（Variables，$V$），图中每一条边都表示变量之间的因果效应，箭头 $V_i \to V_j$ 说明变量 $V_i$ 是变量 $V_j$ 的直接原因（$V_i$ 出现在 $V_j$ 的结构方程中），表现为一个有向无环图（directed acyclic graph, DAG）。

通常情况下，因果图不会将外生变量明确地表示出来。如果外生变量非独立，即同时存在结构方程 $f_{v_i}$ 和 $f_{v_j}$ 中时，可以用虚线的双向箭头 $V_i \dashleftarrow\dashrightarrow V_j$ 表示。

do 算子

关于因果关系的讨论中，Fisher 的随机化试验是实验性研究的黄金标准，而是否能够进行操纵（manipulability）被认为是讨论因果关系的先决条件，并形成了“无操纵不因果”（“no causation without manipulation”）的观念。

潜在结果框架（因果推论的基石）

Wed, 17 Nov 2021 00:00:00 +0000

在 Neyman-Rubin 因果模型（或称“潜在结果框架”，Potential Outcome）中，所谓因果推论，实际上是估计“因果效应”（causal effect）。

何谓因果效应

Rubin 给出一个直观的例子：

Intuitively, …

“If an hour ago I had taken two aspirins instead of just a glass of water, my headache would now be gone,” or “Because an hour ago I took two aspirins instead of just a glass of water, my headache is now gone.”

“如果一个小时前我服用了两个阿司匹林而不是一杯水，我的头痛现在就会消失”，或者“因为一个小时前我服用了两个阿司匹林而不是一杯水，我的头痛现在消失了”

…

Now define the causal effect of the $E$ versus $C$ treatment on $Y$ for a particular trial (i.e., a particular unit and associated times $t_1$, $t_2$) as follows: