BEF研究中的因果假设争论

引言

a specific SCM is a causal hypothesis. Fitting to data gives you feedback about your hypothesis (and more). It represents a workflow that can lead to stunning advances. It’s not a magical box that you put your data into, shake, and watch all causal relationships fall out.

— Don Schoolmaster, 05 Feb 2023

生物多样性-生态系统功能（Biodiversity-Ecosystem Function, BEF）研究是生态学中最具争议的领域之一。自1990年代以来，大量研究表明物种多样性与生态系统功能之间存在正相关关系。然而，这种相关性是否代表因果关系，一直是激烈辩论的焦点。

2020年，Schoolmaster、Zirbel和Cronin（SZC）在《Ecology》发表了一篇论文，运用图形因果模型（Graphical Causal Model）重新审视BEF研究中的因果假设。随后，Grace、Loreau和Schmid（GLS）在2021年发表评论文章批评SZC的模型，SZC则在2022年发表回复。这场学术争论不仅涉及BEF研究的核心问题，更触及因果推论方法论的根本。

标准因果模型的问题

传统BEF研究的因果假设

传统BEF研究隐含的因果模型可以表示为：

E → B → Q → F

其中：

E (Environment)：环境因素，如温度、pH、资源
B (Biodiversity)：物种多样性，如物种丰富度、Shannon指数
Q (Trait Diversity)：功能性状多样性
F (Ecosystem Function)：生态系统功能

这个模型假设：在控制环境变异后，物种多样性导致功能性状变异，进而影响生态系统功能。SZC将这个模型称为"标准因果模型"（Standard Causal Model）。

SZC的核心批评

SZC指出，这个标准模型存在根本性的逻辑错误。问题在于：物种多样性和功能性状多样性都是复合变量（composite variables），是从物种组成（species composition）计算得出的。

物种多样性的计算公式为：

$$B = \sum_{i \in K} f_B(s_i), \quad K = \{i \in I | s_i > 0\}_B$$

其中 $s_i$ 是物种 $i$ 的丰度，$K$ 是物种集合 $I$ 中丰度不为0的子集。

功能性状多样性的计算公式为：

$$Q = \sum_{i \in K} f_q(s_i, T_i)$$

其中 $T_i$ 是物种 $i$ 的性状数据。

关键洞察：计算功能性状多样性需要的是物种组成数据（各物种的丰度），而不是物种多样性指数。这意味着标准模型中 B → Q 的因果箭头是错误的。

SZC进一步指出，如果功能性状多样性可以写成：

$$Q = f_q(B, T)$$

那么标准模型还有可能成立。但实际上，所有现有的功能性状多样性定义都采用：

$$Q = \sum_{i \in K} f_q(s_i, T_i)$$

这表明计算功能性状多样性需要的是各物种的丰度，而非物种多样性指数。

SZC因果模型

修正的因果图

基于上述分析，SZC提出了修正的因果模型。用文本形式表示如下：

        E
       /|\
      / | \
     v  v  v
    C   T  |
    |\  |  |
    | \ |  |
    v  vv  v
    B   Q→→F

更清晰地，各变量之间的因果关系可以描述为：

E → C：环境影响物种组成
E → T：环境影响功能性状分布
E → F：环境直接影响生态系统功能
C → B：物种组成决定群落组成（如物种丰富度）
C → Q：物种组成影响功能性状组成
T → Q：功能性状分布决定功能性状组成
Q → F：功能性状组成影响生态系统功能

其中：

C (Species Composition)：物种组成，即物种丰度的集合 $\{s_1, ..., s_n\}$
T (Functional Traits)：功能性状分布，即各物种的性状数据 $\{\{t_{11}, ..., t_{1n}\}, ..., \{t_{k1}, ..., t_{kn}\}\}$
B (Community Composites)：群落组成，如物种丰富度、总生物量、Shannon多样性
Q (Functional Trait Composites)：功能性状组成，如群落加权平均值、功能多样性

核心论点

SZC从修正的因果模型中得出三个核心论点：

物种多样性不是生态系统功能的直接原因：物种多样性是通过物种组成计算的，而生态系统功能是由功能性状决定的。在因果图中，没有从B到F的直接或间接路径。
BEF相关性是非因果关联：物种多样性与生态系统功能的相关性是由于它们共同依赖于物种组成。用因果推论的语言来说，这是一个"混淆"（confounding）问题。
物种身份效应源于模型误设：当功能性状模型不完整时，会出现显著的物种身份效应或BEF相关性。这些效应可以作为诊断工具，帮助识别缺失的功能性状。

因果效应的估计

SZC使用后门准则（Backdoor Criterion）推导了生物多样性对生态系统功能的因果效应。后门准则的公式为：

$$P(Y=y|do(X=x)) = \int_z P(Y=y|X=x, Z=z)P(Z=z) \, dz$$

其中 $do(X=x)$ 表示对X进行干预操作，Z是满足后门准则的变量集合。

应用于BEF问题，SZC推导出：

$$P(F=f|do(B=b)) = \int_{q,e} P(F=f|B=b,Q=q,E=e)P(Q=q|C=c,T=t)P(E=e) \, de \, dq$$

由于B到F的所有路径都经过Q和E，所以：

$$P(F=f|B=b,Q=q,E=e) = P(F=f|Q=q,E=e)$$

代入后得到：

$$P(F=f|do(B=b)) = P(F=f)$$

这意味着生物多样性对生态系统功能的因果效应为零。

条件独立声明

因果图编码了一系列条件独立声明。SZC列出了八个关键的条件独立声明：

$B \perp F \mid \{Q, E\}$：给定功能性状组成和环境，生物多样性与生态系统功能独立
$C \perp F \mid \{Q, E\}$：给定功能性状组成和环境，物种组成与生态系统功能独立
$T \perp F \mid \{Q, E\}$：给定功能性状组成和环境，功能性状分布与生态系统功能独立
$E \perp Q \mid \{C, T\}$：给定物种组成和功能性状分布，环境与功能性状组成独立
$E \perp B \mid C$：给定物种组成，环境与生物多样性独立
$B \perp T \mid C$：给定物种组成，生物多样性与功能性状分布独立
$B \perp Q \mid C$：给定物种组成，生物多样性与功能性状组成独立
$C \perp T \mid E$：给定环境，物种组成与功能性状分布独立

这些条件独立声明可以用来检验模型是否正确设定。如果检验失败，说明模型存在误设。

模拟验证

SZC通过模拟验证了他们的论点。生态系统功能被模拟为：

$$F = 2 \cdot CWM_{T1} + CWV_{T1} + E + \epsilon$$

其中 $CWM_{T1}$ 是性状T1的群落加权平均值，$CWV_{T1}$ 是性状T1的群落加权方差，$E$ 是环境梯度，$\epsilon$ 是误差项。

模拟结果显示：

当模型正确设定时，添加物种丰度或生物多样性变量不会产生显著效应
当模型缺少环境变量E时，会出现物种身份效应
当模型缺少 $CWM_{T1}$ 时，会出现物种身份效应和BEF相关性
当模型缺少 $CWV_{T1}$ 时，会出现BEF相关性

这支持了SZC的核心论点：物种身份效应和BEF相关性是模型误设的结果。

Grace等人的批评

GLS在2021年的评论文章中对SZC模型提出了四点主要批评。

批评1：SZC模型不是有效的因果图

GLS认为，SZC将物种组成指向物种多样性的箭头（C → B）表示为因果关系是错误的。他们用一个类比来说明：

想象我们有一个装满物品的仓库，手里拿着一本账本，准确且即时地反映仓库中物品的总数和不同类型的数量。如果仓库里有10种物品，关于有多少种物品的信息同时存在于仓库和账本中。仓库并不"导致"有10种物品，账本只是反映了有多少种物品，这是物品集合的一个定量属性。

GLS主张使用"=“而非”→“来表示这种计算关系。他们认为：

Because biodiversity is a calculated variable, the representation (Fig. 1C) is not a valid causal diagram.

GLS还指出，SZC的图中物种丰富度被表示了两次：一次作为群落层面的变量R，一次作为样本层面非零丰度元素的数量。这种信息重复导致了他们的错误结论。

批评2：SZC预设了无效应假设

GLS指出，SZC模型中没有从B到F的因果路径，因此模型本身就编码了"生物多样性对生态系统功能无因果效应"的假设。SZC的分析结果只是这个假设的推论，而非对假设的检验。

SZC自己也承认：

Using the DAG in Fig. 1C, we will derive the statistical model required to measure a biodiversity effect… Fig. 1C makes clear that the value of this effect is zero [as] there are no causal arrows emitted from the biodiversity node.

GLS认为，这表明SZC的分析并不能检验他们的模型是否正确。

批评3：BEF实验展示的是条件因果

GLS认为，BEF实验中不同混合物（mixture）之间的变异并不意味着无法估计平均因果效应。这只是条件因果（conditional causation）的例子，而非非因果关联。

GLS引用VanderWeele (2015)指出，当平均因果效应（ACE）依赖于协变量时（这在生物系统中很典型），这是条件因果的例子。条件因果仍然是因果，不能因此将R → F的关系声明为虚假关系。

批评4：“实际原因"论证是谬误

GLS批评SZC的论证是"半真半假”（half-truth）的谬误。SZC暗示：如果物种组成对生态系统功能变异有贡献，那么物种丰富度就不能有贡献。

GLS指出，这种论证的问题在于：因果链中的所有变量都是原因，只是有些更远端（distal），有些更近端（proximal）。如果操纵丰富度导致性状数量变化，进而导致功能变化，那么丰富度就是因果链中的一个原因。

GLS认为更恰当的结论应该是：

The evidence suggests that species diversity influences community function, and that the characteristics of the individual species in a community contribute to variations in function.

Schoolmaster等人的回复

SZC在2022年的回复中逐一回应了GLS的批评。

关于确定性变量

SZC指出，GLS禁止在因果图中使用指向确定性变量的箭头，这与因果推论领域的公认实践相矛盾。他们引用了多个文献：

Pearl (2016)：Lord’s Paradox的因果模型中，体重变化（Weight Gain, Y）是从初始体重和最终体重计算得出的确定性变量。
Hernán & Cole (2009)：BMI的因果模型中，BMI是从体重和身高计算得出的确定性变量。
Flanders et al. (2020)：认知功能变化的因果模型中，变化量是从基线和随访测量计算得出的确定性变量。

Pearl and Mackenzie (2018:214)明确指出：

Note that Y is related to $W_I$ and $W_F$ in a purely mathematical, deterministic way: $Y = W_F - W_I$.

更重要的是，SZC应用归纳因果算法（IC-Algorithm）证明，当数据生成过程包含确定性关系时，算法正确地返回指向确定性变量的因果箭头。IC-Algorithm是Pearl (2009)中描述的标准算法，它根据条件独立关系从数据中推断因果结构。

关于因果排序

GLS的第一个推论是：原因和响应之间存在"有限的时间间隔”，箭头"代表信息从过去某时刻移动到现在"。

SZC指出，因果排序问题（Causal Ordering Problem, COP）是人工智能和因果推论领域的一个正式理论问题。Pearl描述了一个准则，用于在给定一组描述变量的对称方程的情况下，确定变量的因果顺序。

SZC在附录S1中应用了这个准则，结果表明：物种组成是物种丰富度的逻辑前因，丰富度在组成确定之前是不可知的。如果要改变群落的物种丰富度，必须改变其物种组成。因此，SZC模型并不违反因果排序原则。

SZC还指出，如果GLS的主张是正确的——有向箭头必须代表"原因和响应之间的有限时间间隔"——那么标准因果模型和GLS的替代模型也是无效的，因为物种丰富度和性状多样性之间没有时间间隔。

关于非对称性

GLS的第二个推论是：我们可以"强制改变箭头尖端的量，而不影响箭头底部的量"。

SZC指出，这个描述误解了因果推论中非对称性的标准定义。GLS的测试是：

If we were to manipulate the variable at the tip of the arrow (e.g., Y), would there be a potential for a response by the variable at the base of the arrow (X)?

但正确的非对称性定义是：如果关系是因果的，那么"对X进行干预会影响Y，但对Y进行干预不会影响X"。

关键的区别在于：GLS的定义要求能够直接操控Y，这对于计算变量是不可能的；但标准的定义只关心操控X对Y的影响，这与能否直接操控Y无关。

用数学语言来说，对 $Y = f(X)$ 进行因果建模意味着：给定一个假设性干预 $X = x_0$（保持所有非X或Y的变量不变），Y的值由 $f(x_0)$ 给出。非对称性意味着这个关系"不对我们控制Y时X（或任何其他变量）的行为做出任何声明"（Pearl 2009a:160）。

GLS的编码模型映射到SZC模型

SZC检验了GLS附录中的模拟代码，发现一个关键问题：GLS的编码因果模型实际上映射到SZC模型，而非他们口头辩护的标准模型。

在GLS的代码中：

R（物种丰富度）没有被用来计算 $Q_d$（性状变异）
$Q_d$ 没有被用来计算F（生态系统功能）

这直接违反了标准模型 $R \rightarrow Q_d \rightarrow F$ 的假设。

SZC在附录S3中证明，GLS的数据生成过程等价于模型 $T \rightarrow Q \rightarrow F$，其中T是系统层面的性状向量。这正好是SZC模型的一个实例。

关于BEF实验的解释

SZC强调，BEF实验中的干预对象是物种组成（C），而非物种丰富度（R）。实验处理应由实际执行的干预定义，而非研究者声称的意图：

An experimental treatment is not defined by what an experimenter says it is or intends it to be, but by the specific intervention the experimenter performs.

实验处理组定义为接受相同干预的实验单元集合。对于BEF实验，干预是对群落结构的操作——选择包含或排除哪些物种。每个具有相同物种包含/排除模式的样地属于同一处理组。

SZC用一个类比来说明：生态学家经常向样地添加不同数量和类型的碳源，以造成不同水平的营养胁迫。这些实验中的处理由添加的碳源的数量和类型定义（即干预），而非所达到的营养胁迫水平。

因此，正确计算平均因果效应需要在相同组成的重复混合物上取平均，而非跨不同混合物取平均。违反这一点被称为"多版本处理假设"（no-multiple-versions-of-treatment assumption）的违反。

物种丰富度不是隐藏原因

GLS声称SZC模型中物种丰富度信息被"悄悄使用"。SZC在附录S3中证明，SZC因果模型可以在移除所有物种丰富度信息的情况下，精确复制GLS编码因果模型生成的值。

SZC给出了一个极端例子：如果种内个体存在功能性状变异，有人用具有性状状态i的个体数量或存在性来填充向量C的元素 $c_i$，那么从SZC模型得到的生态系统功能估计不会改变。这证明在SZC因果模型中，物种丰富度对生态系统功能是因果无关的。

我的思考

物种多样性定义的影响

正如我在笔记中所记录的，物种多样性的定义对研究有重要影响：

等价于群落组成成分：这种定义下，物种多样性研究实际上是在研究群落组成。
作为估计因果效应的因子（随机化）：如Tilman et al. (2014)的做法，通过操纵群落组成来实现确定的生物多样性。

操纵生物多样性实际上是对群落结构的操纵。通过操纵物种组成成分来实现确定的生物多样性，即通过创造不同的C来匹配同样的B，这种实验方式与直接操纵生物多样性不同——对相同的集合C来创造不同的B。

这会导致重要的后果：因为群落组成成分驱动生物多样性B和性状组成Q，操纵群落组成成分C所产生的功能性状变异不会影响生物多样性和生态系统功能的潜在联系。因此，这些实验不能使生物多样性的效应独立。

复合变量的因果地位

SZC的核心贡献在于明确了复合变量的因果地位。环境（E）和生态系统功能（F）是可以直接观测的变量，而物种多样性（B）和功能性状多样性（Q）是通过观测变量计算获得的。

这意味着：

环境对物种多样性和性状多样性的因果效应，以其对物种丰度和性状数据的效应为中介
物种多样性和性状多样性可以视为其因变量的量化

在BEF研究中，多样性是生态系统功能的驱动因素。多样性用于测量混合物的组成复杂性，通常是测量物种组成分布（物种多样性）或功能性状多样性（性状多样性）。

实践意义

SZC的分析对BEF研究有重要的实践意义：

诊断模型误设：物种身份效应和BEF相关性可以作为模型误设的诊断工具。如果发现显著的物种身份效应或BEF相关性，说明模型缺少正确的功能性状组成或环境混淆因子。
指导研究设计：研究应聚焦于识别正确的功能性状组成，而非追求"多样性效应"。功能性状组成可能基于错误的功能性状集合，或正确功能性状集合的错误数学组合。
重新解释实验结果：BEF实验的结果应被理解为操纵物种组成的效应，而非操纵物种丰富度的效应。

关于这场争论的观察

这场争论的核心分歧在于如何理解因果模型中"计算关系"的地位。GLS认为计算关系不是因果关系，因此不能在因果图中用箭头表示。SZC则认为，计算关系可以在因果图中表示，这是因果推论领域的标准做法。

从方法论角度看，SZC的论证更有说服力：

他们引用了Pearl等权威文献，证明确定性变量在因果模型中的使用是标准做法
他们应用IC-Algorithm证明，算法可以正确识别指向确定性变量的因果箭头
他们发现GLS的编码模型实际上映射到SZC模型，这削弱了GLS的批评

但GLS提出的"条件因果"观点也值得认真对待。即使在SZC的框架下，BEF实验也可能估计某些类型的因果效应——只是在相同组成的重复混合物上取平均，而非跨不同混合物取平均。

结论

这场学术争论展示了因果推论方法在生态学中的应用价值。SZC的工作提醒我们：

因果模型是假设：结构因果模型代表的是研究者的因果假设，而非从数据中自动发现的真理。正如Schoolmaster在推特上所说，因果模型不是一个魔法盒子。
变量定义很重要：复合变量的因果地位需要仔细审视，不能简单地将计算关系视为因果关系。物种多样性是从物种组成计算的，功能性状多样性也是从物种组成计算的，这意味着它们之间不存在标准模型所假设的因果链条。
实验设计需要因果清晰性：实验干预的定义应基于实际操作，而非研究者的意图。BEF实验操纵的是物种组成，而非物种丰富度。
条件独立声明是诊断工具：因果图编码的条件独立声明可以用来检验模型是否正确设定。物种身份效应和BEF相关性是模型误设的信号。

这场争论还没有结束。GLS提出的条件因果观点、物种相互作用的重要性等问题，都值得进一步探讨。但SZC的工作已经为BEF研究提供了一个更严谨的因果框架，这对于理解生物多样性与生态系统功能之间的关系具有重要意义。

参考文献

Schoolmaster, D. R. Jr., Zirbel, C. R., & Cronin, J. P. (2020). A graphical causal model for resolving species identity effects and biodiversity–ecosystem function correlations. Ecology, 101(8), e03070.
Grace, J. B., Loreau, M., & Schmid, B. (2021). A graphical causal model for resolving species identity effects and biodiversity–ecosystem function correlations: comment. Ecology, e03378.
Schoolmaster, D. R. Jr., Zirbel, C. R., & Cronin, J. P. (2022). A graphical causal model for resolving species identity effects and biodiversity–ecosystem function correlations: Reply. Ecology, 103(2), e03593.
Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Hernán, M. A., & Cole, S. R. (2009). Invited Commentary: Causal diagrams and measurement bias. American Journal of Epidemiology, 170(8), 959–964.
VanderWeele, T. J. (2015). Explanation in Causal Inference: Methods for Mediation and Interaction. Oxford University Press.