学了这么多年统计,有一个问题我直到很晚才想明白。
为什么基础统计课要教那么多互不相关的检验方法?t检验、ANOVA、Pearson相关、线性回归——它们各自有各自的公式、各自的适用条件、各自的查表方式。考试的时候,你得先判断"这道题该用哪种检验",然后再套对应的公式。
我当时就是这么学的。背了一堆检验,考完就忘,需要考试的时候又背一遍。
直到某天我突然意识到:
它们其实都是同一个公式的不同写法。
更准确地说,它们都是线性回归模型 $Y = X\beta + \varepsilon$ 在 $X$ 取不同形式时的特例。
这个发现让我整个人有点懵。倒不是因为数学有多难——恰恰相反,是因为数学太简单了。简单到你会怀疑:为什么当初没人告诉我?
当然,老师不这样教是有原因的(可能是怕我们一时接受不了?也可能教材就是从各种检验分别讲起的,历史惯性使然)。但站在"事后诸葛亮"的视角,用回归统一一切,确实能让统计的版图变得异常清晰。
回归是最通用的语言
考虑最简单的线性回归:
$$ Y = \beta_0 + \beta_1 X + \varepsilon $$这里 $\beta_0$ 是截距,$\beta_1$ 是斜率,$\varepsilon$ 是误差项。你关心的问题是:$X$ 对 $Y$ 有没有影响?统计上就是检验 $H_0: \beta_1 = 0$。
现在,如果我告诉你 $X$ 可以是什么,你就知道为什么回归能统一一切了:
- 如果 $X$ 只有 $0$ 和 $1$ 两个取值(比如:$0$ = 对照组,$1$ = 实验组),这个回归就是成组t检验。
- 如果根本没有 $X$,只保留截距 $\beta_0$,这个回归就是单样本t检验。
- 如果把 $X$ 扩展为多个 $0/1$ 虚拟变量(表示多组分类),就变成了单因素ANOVA。
- 如果 $X$ 是连续的,并且先把 $X$ 和 $Y$ 都标准化,回归系数 $\beta_1$ 恰好等于Pearson相关系数 $r$。
- 如果加入个体固定效应(每个受试者一个截距),就变成了配对t检验的等价形式。
这就有意思了。五个看起来八竿子打不着的检验方法,在回归的框架下全是一个东西。
t² = F
更精妙的是,在两组比较的情形下,t检验、ANOVA、含虚拟变量的回归三者不仅结论相同——连数字都完全一样。
具体来说:$t^2 = F$。
这不是近似,是严格相等。自由度为 $df$ 的 $t$ 分布,平方之后就是自由度为 $(1, df)$ 的 $F$ 分布。两组ANOVA输出的那个F统计量,恰好是成组t检验t统计量的平方。
所以你看,统计课把t检验和ANOVA分成两章来讲,但数学上它们共享同一个灵魂。
这个系列的野心
接下来的文章,我会逐一拆解这些等价关系。不是泛泛而谈"它们差不多",而是把数学推导展开,让你看到t值、p值、自由度如何在回归框架下被精确复现。
具体路线:
- 单样本t检验——只有截距项的回归,最简情形。
- 成组t检验——引入一个虚拟变量,两组均值之差恰好是 $\beta_1$。
- t² = F——t分布与F分布的数学桥梁,理解等价性的枢纽。
- 单因素ANOVA——从两组扩展到多组,虚拟变量的矩阵形式。
- 配对t检验——不等价于普通回归,但对应个体固定效应模型。
- Pearson相关——标准化之后的回归系数就是 $r$。
- 回归的扩展优势——加协变量、做交互、控制混杂,回归能做的事远超传统检验。
写这个系列的动机很朴素:我自己当年被绕晕过,现在回头看,觉得这些东西本可以用更统一的方式讲清楚。
如果你也学过统计但对这些检验之间的关系感到模糊,希望这个系列能帮你"打通任督二脉"。
说打通任督二脉可能有点中二,但那种"哦原来如此"的感觉,确实挺爽的。