y=ax+b这么能打？（Simple Linear Regression Universe）

学了这么多年统计，有一个问题我直到很晚才想明白。

为什么基础统计课要教那么多互不相关的检验方法？t检验、ANOVA、Pearson相关、线性回归——它们各自有各自的公式、各自的适用条件、各自的查表方式。考试的时候，你得先判断"这道题该用哪种检验"，然后再套对应的公式。

我当时就是这么学的。背了一堆检验，考完就忘，需要考试的时候又背一遍。

直到某天我突然意识到：

它们其实都是同一个公式的不同写法。

更准确地说，它们都是线性回归模型 $Y = X\beta + \varepsilon$ 在 $X$ 取不同形式时的特例。

这个发现让我整个人有点懵。倒不是因为数学有多难——恰恰相反，是因为数学太简单了。简单到你会怀疑：为什么当初没人告诉我？

当然，老师不这样教是有原因的（可能是怕我们一时接受不了？也可能教材就是从各种检验分别讲起的，历史惯性使然）。但站在"事后诸葛亮"的视角，用回归统一一切，确实能让统计的版图变得异常清晰。

回归是最通用的语言

考虑最简单的线性回归：

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

这里 $\beta_0$ 是截距，$\beta_1$ 是斜率，$\varepsilon$ 是误差项。你关心的问题是：$X$ 对 $Y$ 有没有影响？统计上就是检验 $H_0: \beta_1 = 0$。

现在，如果我告诉你 $X$ 可以是什么，你就知道为什么回归能统一一切了：

这就有意思了。五个看起来八竿子打不着的检验方法，在回归的框架下全是一个东西。

更精妙的是，在两组比较的情形下，t检验、ANOVA、含虚拟变量的回归三者不仅结论相同——连数字都完全一样。

具体来说：$t^2 = F$。

这不是近似，是严格相等。自由度为 $df$ 的 $t$ 分布，平方之后就是自由度为 $(1, df)$ 的 $F$ 分布。两组ANOVA输出的那个F统计量，恰好是成组t检验t统计量的平方。

所以你看，统计课把t检验和ANOVA分成两章来讲，但数学上它们共享同一个灵魂。

接下来的文章，我会逐一拆解这些等价关系。不是泛泛而谈"它们差不多"，而是把数学推导展开，让你看到t值、p值、自由度如何在回归框架下被精确复现。

具体路线：

写这个系列的动机很朴素：我自己当年被绕晕过，现在回头看，觉得这些东西本可以用更统一的方式讲清楚。

如果你也学过统计但对这些检验之间的关系感到模糊，希望这个系列能帮你"打通任督二脉"。

说打通任督二脉可能有点中二，但那种"哦原来如此"的感觉，确实挺爽的。