贝叶斯网络:因果图模型的前身

贝叶斯网络(Bayesian Network),作为一种图形化模型,早在20世纪末便广为流传,其主要用以描述随机变量之间的条件独立性与概率分布关系。它以有向无环图(Directed Acyclic Graph, DAG)为基础,将复杂的概率系统分解为易于处理的子结构。

在这一框架下,每个节点代表一个随机变量,每条有向边则表示变量间的条件依赖。例如,在贝叶斯网络中,若变量 $X$ 指向 $Y$,这仅表示给定 $X$ 的条件下,$Y$ 的概率分布被决定。

条件独立性的理论基础

考虑我们将要进行建模的分布为 $P(x_1,x_2,\dots,x_n)$,根据链式法则(chain rule),对其进行分解:

$$ \begin{aligned} P(x_1,x_2,\dots,x_n)&=P(x_n|x_{n-1},\dots,x_1)P(x_{n-1}|x_{n-2},\dots,x_1)\cdots P(x_2|x_1)P(x_1)\\&=P(x_1)\prod_iP(x_i|x_{i-1},\dots,x_1) \end{aligned} $$

假设 $x_i$ 均为二元变量(binary),其中 $i=1,2,3,\dots,n$。当考虑 $3$ 个变量时($n=3$),需要建模的因子 $P(x_3|x_2,x_1)$ 有 $4$ 个参数(parameters):

$x_1$ $x_2$ $P(x_3|x_2,x_1)$
0 0 $a_1$
0 1 $a_2$
1 0 $a_3$
1 1 $a_4$

当考虑 $4$ 个变量时($n=4$),参数为 $8$ 个。

$x_1$ $x_2$ $x_3$ $P(x_4|x_3,x_2,x_1)$
0 0 0 $a_1$
0 0 1 $a_2$
0 1 1 $a_3$
0 1 0 $a_4$
1 1 1 $a_5$
1 1 0 $a_6$
1 0 0 $a_7$
1 0 1 $a_8$

也就是说,对 $P(x_n|x_{n-1},\dots,x_1)$ 进行建模必要的参数为 $2^{n-1}$ 个,随着 $n$ 的增加呈指数型增长。

如果 $X_4$ 局部依赖于 $X_3$,则在对 $P(x_4|x_3,X_2,x_1)$ 进行建模时,可以只考虑 $P(x_4|x_3)$。

从图上看,只有 $X_3$ 的箭头直接指向 $X_4$,这意味着 $X_4$ 局部依赖于 $X_3$。

Local Markov Assumption: Given its parents in the DAG, a node $X$ is independent of all its non-descendants.

If $P$ is Markov with respect to the graph, then we can simplify the last factor:

$$ > P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3) > $$

假设删除 $X_1 \to X_2$ 以及 $X_2 \to X_3$ 的箭头,

则 $P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2)P(x_3|x_1)P(x_4|x_3)$。

Local Markov Assumption 与 chain rule 结合的一个重要推论即贝叶斯网络分解(Bayesian Network Factorization),也称为贝叶斯网络的链式法则(chain rule for Bayesian Network)或者马尔可夫兼容(Markov compatibility)。

Bayesian Network Factorization: Given a probability distribution $P$ and a DAG $G$, $P$ factorizes according to $G$ if

$$ P(x_1,\dots,x_n)=\prod_iP(x_i|pa_i) $$

其中,$pa_i$ 指的是 $x_i$ 的父结点 parents,即有箭头直接指向 $x_i$ 的结点。

We have given the intuition of how the local Markov assumption implies the Bayesian network factorization, and it turns out that the two are actually equivalent. In other words, we could have started with the Bayesian network factorization as the main assumption (and labeled it as an assumption) and shown that it implies the local Markov assumption. See Koller and Friedman (2009) for these proofs and more information on this topic.

Local Markov Assumption tells us that DAG implies the independencies in $P$. However, it does not gives the information about whether $X$ and $Y$ are adjacent in DAG or not.

为了确保相邻结点间的依赖性,需要一个比 LMA 更强一点的假设,

Minimality Assumption: 1. Given its parents in the DAG, a node $X$ is independent of all its non-descendants. (LMA) 2. Adjacent nodes in the DAG are dependent.

如果图模型中只有 $X$ 和 $Y$ 两个结点,则根据 LMA,有 $p(x,y)=p(x)p(y|x)$,或者 $p(x,y)=p(x)p(y)$,即 $X$ 和 $Y$ 可以是相互独立的,因为 $Y$ 也是 $X$ 的非后代。Minimality 规定了 $X$ 和 $Y$ 之间的独立性($X \perp\perp Y$)不成立。

在贝叶斯网络中,删除箭头会增加随机变量之间的独立性,Minimality 相当于告诉我们不能对贝叶斯网络中的箭头进行删除操作。

因果图:路径分析的工具

贝叶斯网络虽功能强大,却未能明确表达变量间的因果关系,这一点为其后继发展埋下伏笔。

因果图(Causal Graph)将关注点从条件概率转向因果关系。这种转变的关键在于赋予图中的边以因果解释,而非单纯的概率依赖,从而突破了贝叶斯网络的局限。在因果图中,$X \to Y$ 明确表示 $X$ 是 $Y$ 的因果因素。

(Strict) Causal Edges Assumption:在有向图(directed graph)中,每个父结点都是其所有子结点的直接因。子结点依赖于父节点,满足贝叶斯网络中的 Minimality assumption。

贝叶斯网络为因果图奠定了坚实的数学与理论基础,其条件独立性规则为因果推断提供了路径分析的工具,其概率表达形式则为因果效应的量化奠定了模型框架。

后门路径指的是从处理变量到结果变量的一条路径,这条路径通过混淆变量间接联系了二者,不需要符合因果关系的方向。因果图模型通过图中的节点与边,帮助识别可能存在的后门路径,而这些路径通常是传统回归分析未能关注的。后门路径的识别一方面揭示了混淆因素对因果推断的影响,另一方面也为我们提供了通过控制这些混淆因素来获取有效因果推断的方法。

综上,贝叶斯网络虽非直接以因果推断为目标,但其作为因果图的前身,无疑是统计图形模型发展史上的重要里程碑。正因其铺垫,因果图得以在研究关联与推断因果之间架起桥梁,为现代因果推断提供了完整的理论体系与实际工具。