因果图:结构性的因果关系表征
传统的因果推断(causal inference)多依赖于回归模型与假设检验,着重于处理数据中变量间的关联性,而忽视了因果关系的结构性。因果图模型的引入,则为我们提供了一种全新的视角,可谓因果推断领域的一大颠覆。
结构方程
相比传统回归分析的变量间关联,结构因果模型强调因果关系的显性表达,为我们提供了更多的信息。例如,$M$ 是一个结构因果模型(structural causal model),其中 $V={Z,X,Y}$ 是研究中所讨论因果关系的变量,称为内生变量(endogenous variables),$U={U_z.U_x,U_y}$ 是外生变量(exogenous variables),代表研究中没有被明确建模的扰动(disturbances)。
函数 $F={f_z,f_x.f_y}$ 称为结构方程(structural equations),每个函数表示对应的内生变量的数据生成机制,即对应的内生变量的值由其他变量的值所决定的因果过程。
$$ M=\begin{cases} Z \leftarrow f_z(U_z)\\ X \leftarrow f_x(Z,U_x)\\ Y \leftarrow f_y(X,Z,U_y)\\ U \sim P(U) \end{cases} $$$P(U)$ 表示外生变量相关联的概率分布,在本例中,假设外生变量是相互独立的。结构因果模型 $M$ 表示内生变量的联合分布 $P(V)$,称作观测分布(observational distribution)。
有向无环图
每一个结构因果模型 $M$ 有一个对应的因果图 $G$,直观地刻画了各个变量之间的因果关系,每个节点表示模型 $M$ 中的一个变量(Variables,$V$),图中每一条边都表示变量之间的因果效应,箭头 $V_i \to V_j$ 说明变量 $V_i$ 是变量 $V_j$ 的直接原因($V_i$ 出现在 $V_j$ 的结构方程中),表现为一个有向无环图(directed acyclic graph, DAG)。
通常情况下,因果图不会将外生变量明确地表示出来。如果外生变量非独立,即同时存在结构方程 $f_{v_i}$ 和 $f_{v_j}$ 中时,可以用虚线的双向箭头 $V_i \dashleftarrow\dashrightarrow V_j$ 表示。
do 算子
关于因果关系的讨论中,Fisher 的随机化试验是实验性研究的黄金标准,而是否能够进行操纵(manipulability)被认为是讨论因果关系的先决条件,并形成了“无操纵不因果”(“no causation without manipulation”)的观念。
随机试验实际上是评估两种可比较的不同干预对结果变量的效果。干预是进行因果推断的关键,因为干预方式保证了潜在结果框架中一致性假设的成立。
原因 $X$ 对结果 $Y$ 的作用是否定义明确(well-defined),取决于我们操纵 $X=x$ 的方式是否对 $Y$ 造成影响。
在结构因果模型中,干预是对模型的数据生成机制进行修改。do算子用来表示使某个变量为常数的操纵(“holding a variable constant”),是一种假设性的干预(hypothetical intervention)。
在本例中,$do(X=x)$ 意味着将原本的机制 $X \leftarrow f_x(Z,U_x)$ 替换为 $X \leftarrow x$,因此结构因果模型 $M_x$ 为:
$$ M_x=\begin{cases} Z \leftarrow f_z(U_z)\\ X \leftarrow x\\ Y \leftarrow f_y(X,Z,U_y)\\ U \sim P(U) \end{cases} $$相当于在因果图上移除了指向节点 $X$ 的箭头。此时,模型 $M_x$ 表示内生变量的干预分布(interventional distribution),记为 $P(V|do(X=x)$。
根据潜在结果框架中的定义,因果效应考虑了不同干预造成的可能发生的情况之间的差异,干预分布 $P(V|do(X=x)$ 与潜在结果具有相同的本质,故平均处理效应(average treatment effect,ATE)表示为:
$$ ATE_{(X)} = E[Y|do(X=x+1)] - E[Y|do(X=x)] $$因果路径和非因果路径
假设扰动 $U$ 为多元高斯分布,结构方程为线性方程,即
$$ \begin{aligned} Z &\leftarrow U_z\\ X &\leftarrow \lambda_{zx}Z\\ Y &\leftarrow \lambda_{xy}X + \lambda_{zy}Y + U_y\\ \end{aligned} $$,那么平均处理效应为 $ATE_{(X)}=\lambda_{xy}$。而 $Y$ 对 $X$ 的回归系数
$$ \beta_{yx}=\frac{Cov(Y,X)}{Var(X)}=\lambda_{xy}+\lambda_{zx}\lambda_{zy} $$,这是因为 $X$ 和 $Y$ 之间关联混合了因果路径($X \to Y$)和非因果路径($X \leftarrow Z \rightarrow Y$)。非因果路径从指向 $X$ 的边(“后门”)出发,经过混淆因素 $Z$ 到达结果变量 $Y$,称作后门路径(back-door path)。需要注意的是,对 $Z$ 进行调整后 $Y$ 对 $X$ 的回归系数(记作 $\beta_{yx,z}$)估计
$$ \beta_{yx,z}=\lambda_{xy} $$,即在本例中控制 $Z$ 有效地阻断了后门路径。
后门准则和调整公式
了解后门路径首先要认识因果图中三种主要的模式:
- 中介(Mediator),或称链式(chains)结构:如 $X \to Z \to Y$。控制中介 $Z$ 能够阻断 $X$ 和 $Y$ 之间的关联(association)
- 共因(Common causes),或称叉式(forks)结构,如 $X \leftarrow Z \rightarrow Y$。控制共因 $Z$ 能够阻断其作为混淆因素(confounder)引起的非因果(non-causal)相关性。
- 共同结果(Common effect),或称对撞(collider)结构,如 $X \rightarrow Z \leftarrow Y$ 表示 $X$ 和 $Y$ 产生相同的结果。这种形式的因果关系中,$X$ 和 $Y$ 之间不表现出关联,但控制 $Z$ 会导致 $X$ 和 $Y$ 产生非因果关联。
需要注意的是,控制一个变量的后代(descendant)相当于对该变量也进行了一定程度上的控制。
如果 $Z$ 阻断了 $X$ 和 $Y$ 之间的所有路径,可以说 $Z$ 有向分离(d-separates)了 $X$ 和 $Y$。有向分离(directed separation, d-separation)意味着若 $X$ 和 $Y$ 之间不存在直接关联, 给定 $Z$ 使 $X$ 和 $Y$ 条件独立。
因果图除了可以看作一种数据生成机制,也继承了贝叶斯网络表示变量之间的条件独立性(conditional independence)的特点——在给定一个节点的父节点时,该节点与其非后代之间相互独立,也称为局部马尔科夫假设(Local Markov Assumption)。
后门准则(bak-door criterion)规定了正确估计平均因果效应的调整集 $Z$ 需要满足的条件:
- 阻断 $X \to Y$ 的所有后门路径
- 没有(部分)阻断 $X \to Y$ 的因果路径,以及
- 没有(部分)打开其他后门路径
对于满足后门准则的集合 $Z={Z_1,\ldots,Z_k}$,可以根据干预分布计算期望
$$ E[Y|do(X=x)]=E_{Z}\left[E[Y|X=x,Z]\right] $$结语
结构因果模型是描述数据产生机制和外部干预的形式化语言,可以用来定义外部干预的因果作用,还能定性确定混杂因素,描述多个变量之间的因果关系。通过明确结构化的因果关系和混淆控制机制,我们能够更为清晰且准确地识别因果效应,规避传统方法中可能存在的偏误与误解。其为因果推断提供了更为坚实的理论基础,令人能够在复杂的现实数据中,找寻到潜藏的因果真理。