Phylogenetics on TouchingFish.top

树—数据—假设

Tue, 10 Dec 2024 00:00:00 +0000

PGLS 最像一面镜子：它不一定告诉你新东西，但它很擅长把你原来不愿意看的细节照出来。

比如这些：

你的物种名到底有没有对齐
你的分支长度代表什么
你有没有在无意中让几条异常点替你"完成论证"
你拿到的是一棵树，还是一堆不确定的树

我不是在吓人。我只是说：PGLS 的麻烦，大部分不在数学里，在整理里。

这篇我想写成一个"用前自检 + 用后诊断"的清单，但还是按随笔的方式写：因为真正的坑，往往不是你不会做，是你没想到它会坑你。

先把树和数据对齐

这一步没做好，后面都是幻觉。

别信你的眼睛

最常见的错误是：树里叫 Homo_sapiens，表里叫 Homo sapiens。
你以为只是一个空格，代码会很礼貌地替你处理。
但它经常不会，它只会很安静地把样本丢掉。

我建议你在任何拟合之前，强制做三件事：

显式列出：树里有哪些 tip label，数据里有哪些 species
计算交集与差集，并把差集打印出来
最终拟合使用的物种数写进结果里（别让它悄悄变化）

时间，还是替换数

你当然可以说"我用的就是这棵树"。
但 PGLS 会追问：你这棵树的分支长度是什么意思？

时间树（ultrametric）更直观：共享历史 = 共享时间
替换数树有时也能用，但解释要更谨慎：共享历史更像"共享变化量"

（你不写清楚，读者很难判断你 $\Sigma$ 的意义是什么。）

一棵树，还是一堆树

很多时候我们只有一棵"最佳树"，于是就拿它当唯一真相。

但如果你的树来自贝叶斯后验或 bootstrap，你其实已经有一堆树了。
那你至少可以做一件很便宜的事：在多棵树上重复拟合，看看结论是否稳定。

结论不稳定并不可耻。可耻的是你明明可以检查，却假装不知道。

残差里藏了什么

PGLS 的核心假设，是误差结构与树一致（或经 $\lambda$ 调过后足够一致）。
所以你需要看的不是只有系数和 p 值，还有残差。

我通常会做这几件事：

残差 vs 拟合值：有没有明显模式（非线性、异方差）
影响点：有没有某个物种把斜率拽得太狠
系统发育信号：残差里是否仍有明显系统发育结构（意味着模型没吃掉你以为它能吃掉的那部分）

这一步的心态很重要：诊断不是为了证明你对，而是为了找出你错在哪儿。

残差诊断的统计学基础

残差的定义

在 GLS/PGLS 下，残差定义为：

$$e = y - X\hat{\beta}_{GLS}$$

在 OLS 下，残差方差是常数（$\sigma^2$）；但在 GLS 下，由于 $\Sigma$ 不是对角矩阵，原始残差 $e$ 的方差不是常数——离根越近的物种的残差，通常方差更大。

不爱解释的人 / Phylogenetic GLS

Wed, 20 Nov 2024 00:00:00 +0000

同一份数据，同一个自变量，同一个因变量。

OLS 说：显著。

PGLS 说：不显著。

很想把锅甩给树：是不是树不对？是不是分支长度乱了？

还是哪里写错了代码？

PGLS 只是站在那儿，像一个不爱解释的人。

这篇我想用一种不那么"公式"的方式，讲清楚 PGLS 到底在做什么。

你只需要抓住一个中心句：

PGLS 不是换了一个更玄的回归，它只是承认误差有相关结构。

误差像一盘散沙

普通线性回归（OLS，Ordinary Least Squares，普通最小二乘法）通常默认：

$$\epsilon \sim N(0, \sigma^2 I)$$

这里 $I$ 的意思很朴素：误差之间互不相关，方差还都一样。

你可以把它理解成：每个物种的"解释不掉的那部分"，互相之间不应该传染。

但系统发育数据里，这个默认经常站不住脚：近缘物种共享历史，解释不掉的那部分会一起漂。

于是你进入另一个世界。

OLS 估计量的完整推导

$y$ 是因变量的向量（每个物种一个值），$X$ 是设计矩阵（每行一个物种，每列一个自变量，第一列通常是全 1，代表截距），$\beta$ 是我们要估计的系数向量。符号 $'$ 表示转置。

OLS 想做的事情很简单：找一组 $\beta$，让预测值 $X\beta$ 和观测值 $y$ 之间的残差平方和最小。目标函数写成矩阵形式就是：

$$S(\beta) = (y - X\beta)'(y - X\beta)$$

把它展开，是为了后面能对 $\beta$ 求导：

$$S(\beta) = y'y - y'X\beta - \beta'X'y + \beta'X'X\beta$$

中间两项看起来不一样，其实 $y'X\beta$ 是一个标量（1×1 的数），标量的转置等于自己，所以 $\beta'X'y = (y'X\beta)' = y'X\beta$。合并之后：

一棵树，怎么长出一个协方差矩阵

Tue, 05 Nov 2024 00:00:00 +0000

我以前对"在树上做统计"最大的抵触，不是我不信树，而是我不信那句很随意的话：

“我们假设性状沿着树做 Brownian motion。”

听起来像一句推脱。像你问一个人为什么迟到，他说：“路上有点堵。”

堵在哪儿？怎么堵的？堵到什么程度？有没有备选路线？——你越问越像在吵架。

但后来我发现，Brownian motion（BM）在这里的意义，和"世界真的在做随机游走"没什么关系。它更像是一种最小的诚实：你承认性状会变、承认变化会积累、承认近缘会更像，然后你就能把"历史"写成一张可以计算的表。

那张表就是协方差矩阵：$\Sigma$。

这篇我想把三件事讲清楚：

BM 在系统发育语境下到底是什么（别把它当玄学）
为什么 $\Sigma_{ij}$ 只和"共享祖先到根的那段路"有关
Pagel’s $\lambda$ 到底在调什么：不是调"模型拟合"，而是在调"你愿意相信多少历史"

先把 Brownian motion 说成一句人话

BM 在这里可以理解成：

性状的增量（变化）在每一小段时间里都是随机的，方向不固定；但变化会累计，所以时间越长，方差越大。

你不必把它当作宇宙真理。你只要把它当作一个"最低成本"的默认假设：它不要求你知道选择压力、也不要求你知道适应峰值在哪里；它只是说——不解释的东西，就先当成随机漂移。

于是你立刻得到一个很实用的结论：

沿着分支走得越久，性状的不确定性越大
两个物种如果共享一段历史，它们那段历史里累积的"漂移"是同一份，所以它们会相关

相关性在这里不是"统计技巧"，是"共享账本"。

Brownian Motion 的严格定义

上面的人话版够用了，但如果你想完全理解后面的推导，这里有一份不走捷径的版本。

一维标准 Brownian Motion $W(t)$ 是一个随机过程，满足：

初始条件：$W(0) = 0$
独立增量：对任意 $0 \leq s < t$，增量 $W(t) - W(s)$ 与 $\{W(u): u \leq s\}$ 独立
正态增量：$W(t) - W(s) \sim N(0, \sigma^2(t - s))$
连续路径：$W(t)$ 关于 $t$ 几乎必然连续

第 3 条是核心：增量服从正态分布，方差随时间线性增长。这直接导致"走得越久，方差越大"这个结论。

亲缘关系到底哪里不讲道理 / Phylogeny

Tue, 15 Oct 2024 00:00:00 +0000

第一次认真看系统发育树的时候——一堆分叉的线条，像冬天窗户上的霜花。然后有人指着它说：这代表亲缘关系。接着就很自然地推出一句更狠的话：你的数据不独立。

（我当时的反应大概是：我怎么就不独立了？我每个物种都只记录了一行数据啊。很独立，很孤独，甚至。）

但这句话——“不独立”——其实是整套 phylogenetic comparative methods（系统发育比较方法）的门把手。你要进去，得先承认门在那儿。

今天我想把这件事说得朴素一点：树不是装饰，它在记账；而相关性这东西，会从历史里长出来。

树在用什么货币记账

系统发育树最核心的两件东西：

拓扑（topology）：谁和谁更近，分叉顺序是什么
分支长度（branch length）：每条边"有多长"

拓扑像族谱：你是我表弟还是堂弟，这种事不关心你长多高。
分支长度像时间或变化量：这才开始关心"隔了多久"“变了多少”。

问题是：分支长度到底是什么？

常见两种含义：

按时间计：单位可能是百万年（Myr）。这类树往往是 ultrametric（所有叶子到根的距离相同），因为"都活到今天"。
按替换数计：单位更像"每位点多少替换"。这类树不一定 ultrametric。

我更愿意把这件事叫做：树在用两种货币记账。你拿时间树去算替换、拿替换树去当时间，都会"余额不对"。

后面做 PGLS（Phylogenetic Generalized Least Squares，系统发育广义最小二乘）的时候，这个"货币单位"会悄悄进入协方差矩阵里，影响你认为"相关性该有多强"。所以它不是细节，是地基。

根、外群，以及方向感

没有根的树（unrooted tree）只告诉你"相对关系"，不告诉你"谁先谁后"。
有根的树（rooted tree）才有方向：从祖先走到后代。

现实里我们常用外群（outgroup）来定根：找一个确定在研究对象之外的物种（或类群），把根放在它和其他物种之间。

这里的直觉是：根不是为了更好看，是为了让时间的箭头出现。
而一旦时间出现，很多事情就不再是统计上的巧合，而是历史造成的相似。

别站队，先说实话

这两者的矛盾，很多时候不是理论问题，是现实问题：你手里有什么，就用什么，然后你就会担心自己是不是在骗人。

基因树（gene tree）：用某个基因或某段序列推出来的树
物种树（species tree）：物种分化历史的更理想描述（通常需要多基因、多信息整合）

它们不一致很常见：不完全谱系排序（ILS，Incomplete Lineage Sorting）、基因流、水平转移……这些词你以后会越来越熟，熟到有点麻木。

我先给一个"写作上的诚实原则"（也算一种自我保护）：

你用什么树都可以，但你必须写清楚你用的是什么树，以及你为什么这么做。

PGLS 对"树代表相关结构"非常认真。你用错树，它不会骂你，它只会很安静地给你一个看起来很像真的 p 值。

（这就是我最怕的那种错：它不痛，只是悄悄偏离。）

走过同一条路而已

在普通线性回归（OLS，Ordinary Least Squares，普通最小二乘法）里，你经常默认：每个样本的误差互不相关。
翻译成人话：你这个物种的"偏差"，不应该能预测另一个物种的"偏差"。

但如果两个物种共享很长一段进化历史，它们的性状（或者更准确地说：性状里那些你没解释掉的部分）就可能一起漂。

你可以把它想成：

两个人从同一个起点出发走路
走到某个路口才分开
分开之前，他们走过的路完全一样

你说他们最后的位置会不会更像？会的。
不是因为他们商量过，是因为他们共同经历过。

这就是系统发育相关性最朴素的来源：共享祖先的时间越长，性状越相关（在某些模型假设下，比如 Brownian motion，我们下一篇会讲）。

所以"非独立"不是一句道德指控，它只是你对世界的一种承认：历史会留下惯性。

先偷看一眼 PGLS 在修什么

先不讲公式，只讲一句话：