t² = F | TouchingFish.top

如果你在统计课上认真听了两组比较那两章，你可能隐约记得：t检验的t值和ANOVA的F值之间好像有点关系。

但大多数教材不会把这件事说透。t检验在第四章，ANOVA在第六章，它们被当作两个独立的工具来讲。你忙着记公式、背适用条件、算自由度，没时间去想"这两个东西本质上是不是同一个"。

答案是：在两组比较的情形下，$t^2 = F$。这不是近似，是严格的数学恒等式。

从两个分布说起

t 分布的定义是这样的：如果 $Z \sim \mathcal{N}(0, 1)$ 和 $V \sim \chi^2_{df}$ 独立，那么

$$ t = \frac{Z}{\sqrt{V / df}} \sim t_{df} $$

F 分布的定义是这样的：如果 $U \sim \chi^2_{d_1}$ 和 $V \sim \chi^2_{d_2}$ 独立，那么

$$ F = \frac{U / d_1}{V / d_2} \sim F_{d_1, d_2} $$

把 t 的定义平方一下：

$$ t^2 = \frac{Z^2}{V / df} $$

$Z^2$ 服从自由度为 $1$ 的 $\chi^2$ 分布。所以 $t^2$ 恰好是分子自由度为 $1$、分母自由度为 $df$ 的 F 分布：

$$ t^2_{df} = F_{1, df} $$

这就是分布层面的等价性。不是"差不多"，是"平方之后完全一样"。

在两组比较中的体现

成组 t 检验的 t 统计量构造如下：

$$ t = \frac{\bar{Y}_1 - \bar{Y}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $$

单因素 ANOVA（两组）的 F 统计量构造如下：

$$ F = \frac{SS_{\rm between} / 1}{SS_{\rm within} / (n_1 + n_2 - 2)} $$

其中 $SS_{\rm between}$ 是组间平方和，$SS_{\rm within}$ 是组内平方和。在两组的情形下：

$$ SS_{\rm between} = \frac{n_1 n_2}{n_1 + n_2} (\bar{Y}_1 - \bar{Y}_2)^2 $$

而 pooled 标准误的平方是：

$$ s_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right) = s_p^2 \frac{n_1 + n_2}{n_1 n_2} $$

把 t 平方：

$$ \begin{aligned} t^2 &= \frac{(\bar{Y}_1 - \bar{Y}_2)^2}{s_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)} \\ &= \frac{(\bar{Y}_1 - \bar{Y}_2)^2 \cdot \frac{n_1 n_2}{n_1 + n_2}}{s_p^2} \\ &= \frac{SS_{\rm between} / 1}{SS_{\rm within} / (n_1 + n_2 - 2)} = F \end{aligned} $$

行了。

这意味着什么？

在两组比较中，你不需要在"用 t 检验"和"用 ANOVA"之间二选一。它们给出完全相同的结论——不仅"显著还是不显著"相同，连 p 值都精确相等（对于双侧 t 检验而言）。

更关键的是：含虚拟变量的线性回归，其回归系数 $\beta_1$ 的显著性检验用的也是 t 统计量。而这个 t 统计量的平方，恰好等于整个回归模型的 F 统计量（在只有一个自变量的情况下）。

所以三者的等价关系是这样的：

成组t检验 ←→ 含虚拟变量的回归（t检验β₁=0） ←→ 单因素ANOVA（两组）
      t 值                    t 值                        F = t²

同一个 p 值，三种不同的输出格式。

为什么这件事值得专门写一篇？

因为 $t^2 = F$ 是理解整个等价性的数学枢纽。

没有这个关系，t检验和ANOVA就是两个独立章节的内容。有了它，你才能看到：t检验本质上是在做一个分子的自由度为1的F检验，ANOVA不过是把分子的自由度从1扩展到了 $k-1$（$k$组）。

从两组到多组，不是换了方法，而是把同一个框架推广了一步。

这个视角让很多事情变得清晰：为什么回归的输出既给你每个系数的t值，也给你整体的F值？因为它们在检验不同的假设——单个系数是否为零 vs 所有系数（除截距外）是否同时为零。而当只有一个自变量时，这两个假设重合，$t^2 = F$。

一个小发现

某天翻到回归的输出表，对着 coef 那行的 t 值和表头的 F-statistic 来回看了好几遍。心算了一下，t 的平方确实等于 F。

当时的感觉很奇怪——不是惊喜，更接近一种"被耍了"的郁闷。

这么简单的关系，为什么我在统计课上学了两遍（先 t 检验，后 ANOVA），都没人告诉我它们是同一个东西？

可能这就是"知识诅咒"的反面：老师们太熟悉了，觉得"当然是同一个东西，有什么好讲的"。但对初学者来说，这恰恰是最需要被点破的东西。你不知道它们相通，你就会以为统计是一个由互不相关的碎片拼成的学科——每遇到一个新问题，就要学一个新方法。

而一旦你知道了它们相通，统计就变成了一个统一的框架。新方法不过是旧公式换了个马甲。学习成本骤降。