这个系列走到了最后一篇。
前面七篇文章论证了一件事:t检验、ANOVA、相关分析——你在基础统计课上学到的几乎所有参数检验,都是线性回归的特例。有些等价于简单回归,有些等价于加了固定效应的回归,有些等价于标准化后的回归。但归根结底,它们都住在 $Y = X\beta + \varepsilon$ 这栋楼里。
这栋楼本身还远不止如此。今天聊聊:回归的框架为什么比传统检验"能打"那么多。
t检验只能问一个"是或否"
t检验能回答的问题是:两组均值是否不同?
能给你的输出是:t值、p值、“显著还是不显著”。
就这样。
如果你想问"控制年龄之后,两组均值是否仍然不同?"——t检验答不了。如果你想问"剂量每增加一个单位,血压下降多少?"——t检验答不了。如果你想问"男性和女性对治疗的反应是否有差异?"——t检验可以分组做,但不能在一个模型里同时估计主效应和交互效应。
回归框架下,这些问题全都是在一个模型里多加一行 $X$ 的事。
加协变量:从"有没有差异"到"为什么有差异"
成组t检验告诉你:治疗组和对照组的血压有显著差异。
回归可以告诉你:在控制了年龄、性别和基线血压之后,治疗组和对照组的血压仍然有显著差异。
只需要把模型从
$$ Y = \beta_0 + \beta_1 \cdot \rm{treatment} + \varepsilon $$扩展为
$$ Y = \beta_0 + \beta_1 \cdot \rm{treatment} + \beta_2 \cdot \rm{age} + \beta_3 \cdot \rm{sex} + \beta_4 \cdot \rm{baseline} + \varepsilon $$$\beta_1$ 的含义从"两组均值之差"变成了"其他条件不变时,治疗组与对照组的血压差异"。从 association 到 conditional association,这是一大步。
在医学研究中,不加协变量的分析几乎是不可发表的。因为随机对照试验(RCT)虽然理论上保证了组间可比性,但实际中总有运气不好的时候——万一治疗组平均年龄偏高呢?加协变量就是在统计上抹平这些偶然的不均衡。
而t检验没有"加协变量"这个选项。你得另找方法——通常是回归。
交互项:效应不是一成不变的
t检验默认治疗效应在所有子群体中相同。回归可以加交互项:
$$ Y = \beta_0 + \beta_1 \cdot \rm{treatment} + \beta_2 \cdot \rm{sex} + \beta_3 \cdot (\rm{treatment} \times \rm{sex}) + \varepsilon $$$\beta_3$ 告诉你:男性和女性的治疗效应是否有显著差异?
在t检验的世界里,你要先把数据按性别拆成两份,分别做两次t检验,然后肉眼看两个p值是不是一个显著一个不显著(这种"肉眼判断交互效应"的做法其实很不靠谱,因为你没有检验交互项本身是否显著)。
在回归的世界里,加一行 treatment * sex 就完事了,summary() 直接告诉你交互项是否显著。
连续变量:t检验处理不了的事
这是回归根本性的优势。t检验只能比较离散的分组。如果你的自变量是连续的——药物剂量、收入水平、污染物浓度——t检验根本无从下手。
你当然可以把连续变量截断成分组(dichotomize),比如"高剂量组 vs 低剂量组"。但这样做有几个问题:
- 损失信息:把连续变量变成二分类,相当于把所有高于中位数的人一视同仁——剂量 100mg 和 1000mg 的人被归为同一组。
- 人为阈值:选哪个截断点是任意的。中位数?三分位数?临床阈值?不同选择可能得出不同结论。
- 降低检验效能:连续变量的信息量大得多,二分化之后 power 显著下降。
回归天然支持连续自变量。不截断,不分组,$X$ 是多少就是多少。
预测
t检验和ANOVA不做预测。它们只告诉你"是否有差异",不告诉你"如果来一个新患者,他的预期结果是多少"。
回归模型 $\hat{Y} = X\hat\beta$ 天然是一个预测机器。把新患者的特征代入 $X$,$\hat{Y}$ 就是预测值。加上预测区间(prediction interval),你还能给出预测的不确定度。
在机器学习时代的语境下,“预测"能力几乎是最被看重的能力。而传统检验完全不具备这个功能。
从"哪把钥匙开哪把锁"到"一把万能钥匙”
学完这些,再回头看基础统计的课程表,感觉很奇怪。
第一节课学 t 检验——一把细小的钥匙,专开"两组均值比较"这把锁。第二节课学 ANOVA——换了一把稍大的钥匙,开"多组均值比较"。第三节课学相关——第三把钥匙,开"两个连续变量的线性关系"。第四节课学回归——你终于拿到了万能钥匙。
正确的认知顺序应该是:先给你万能钥匙,然后告诉你"这把钥匙也可以开这些特定的锁——其实就是同一把"。而不是先给你一堆形状各异的钥匙,让你误以为它们是完全不同的工具,最后才发现它们都来自同一个锁匠。
我不是在批评基础统计的教学方式——毕竟"先学特例、再学一般"在很多学科里是合理的。但对于已经学完基础课的人来说,花一点时间重新用"回归"这个镜头审视一遍学过的东西,会有一种"近视被纠正"的清晰感。
这大概就是这个系列的微薄价值。
它不教新技术,不推新公式。只是把散落一地的工具捡起来,告诉你它们底下刻着同一个名字。