在特定条件下,它们本质上是同一个统计检验,只是表达形式不同。
如果把"成组 t 检验"理解为"两组均值比较的独立样本 t 检验",那么它与"只有一个二元自变量的简单线性回归中的回归系数显著性检验"是完全等价的。
两种写法,同一个模型
t检验的设定:比较A组与B组均值是否不同。你有两组独立样本,想知道它们来自的总体均值是否相等。
回归的设定:设
$$ Y = \beta_0 + \beta_1 X + \varepsilon $$其中 $X$ 是一个虚拟变量(dummy variable):
$$ X = \begin{cases} 0, & \rm{A组} \\ 1, & \rm{B组} \end{cases} $$最小二乘估计的结果是:
- $\hat\beta_0 = \bar{Y}_{\rm A}$,A组的样本均值
- $\hat\beta_1 = \bar{Y}_{\rm B} - \bar{Y}_{\rm A}$,两组均值之差
然后检验 $H_0: \beta_1 = 0$。
这里得到的:
- t 值相同
- p 值相同
- 自由度相同(都是 $n_{\rm A} + n_{\rm B} - 2$)
- 结论相同
从数学上看,它们是同一个模型的两种写法。
一个数值验证
算一个具体例子比讲十遍理论更有说服力。假设A组有5个数据:$[3.2, 4.1, 3.8, 3.5, 4.0]$,B组有5个数据:$[5.1, 5.8, 5.3, 5.5, 5.0]$。
用 R 做 t 检验:
A <- c(3.2, 4.1, 3.8, 3.5, 4.0)
B <- c(5.1, 5.8, 5.3, 5.5, 5.0)
t.test(B, A, var.equal = TRUE)
Two Sample t-test
data: B and A
t = 7.3943, df = 8, p-value = 7.662e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.11478 2.12522
sample estimates:
mean of x mean of y
5.34 3.72
用 R 做回归:
Y <- c(A, B)
group <- factor(c(rep("A", 5), rep("B", 5)))
summary(lm(Y ~ group))
Call:
lm(formula = Y ~ group)
Residuals:
Min 1Q Median 3Q Max
-0.520 -0.235 0.020 0.250 0.460
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.7200 0.1549 24.012 9.64e-09 ***
groupB 1.6200 0.2191 7.394 7.66e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3464 on 8 degrees of freedom
Multiple R-squared: 0.8724, Adjusted R-squared: 0.8564
F-statistic: 54.68 on 1 and 8 DF, p-value: 7.662e-05
groupB(即 $\beta_1$)那一行的 t 值和 p 值,和上面 t 检验的输出完全一致。
为什么等价?
回归的 t 统计量是:
$$ t = \frac{\hat\beta_1}{\rm{SE}(\hat\beta_1)} $$而 $\hat\beta_1 = \bar{Y}_{\rm B} - \bar{Y}_{\rm A}$。在等方差假设下:
$$ \rm{SE}(\hat\beta_1) = s_p \sqrt{\frac{1}{n_{\rm A}} + \frac{1}{n_{\rm B}}} $$其中 $s_p$ 是 pooled 标准差。这正是成组 t 检验的分母。
所以分子相同(两组均值差),分母相同(pooled 标准误),t 值自然相同。
t² = F
可以写成:
$$ t^2 = F $$即两组时:
- t 检验
- 一元方差分析(ANOVA)
- 含二元虚拟变量的线性回归
三者完全等价。
这个关系不是巧合。自由度为 $df$ 的 t 分布,平方之后就是自由度为 $(1, df)$ 的 F 分布。在两组的情况下,ANOVA的F统计量检验的是"组间差异是否显著",而这恰好等价于检验"虚拟变量的回归系数是否为零"——也就是 $t^2 = F$ 的数学基础。
这个桥梁是整个系列理解等价性的数学枢纽,下篇文章专门展开。
核心原因:线性模型的框架
简单线性回归的本质:
$$ Y = \beta_0 + \beta_1 X + \varepsilon $$当 $X$ 只有 $0/1$ 两个取值时,它退化成"两组均值比较"。
不是"巧合地等价",而是"线性模型本来就是这么定义的"。
几点补充
1. 配对 t 检验不完全等价于普通简单线性回归
配对 t 检验利用"同一样本前后差值":
$$ D_i = X_i - Y_i $$然后检验 $\mu_D = 0$。它更接近对差值做单样本 t 检验,或带个体固定效应的回归,不是最基础的简单线性回归。这一点后面有专门一篇文章讨论。
2. 回归更容易扩展
t 检验只能比较均值。回归可以:
- 加协变量
- 做交互项
- 控制混杂因素
- 处理连续自变量
- 做预测
所以现代统计里,经常把 t 检验视为线性模型的特殊情况——不是贬低 t 检验,而是说回归是更通用的语言。学会了回归,t 检验自然就通了。
3. 假设条件本质一致
两者都通常依赖:
- 独立性
- 正态误差
- 方差齐性(经典版本)
因此它们的理论基础也高度一致。回归框架的好处是:当这些假设不满足时,你知道去哪里找解决方案(加权最小二乘、稳健标准误、广义线性模型……),而不只是"好吧那改用非参数检验"。
总结:两组 t 检验可以看成"只有一个 $0/1$ 自变量的线性回归"的特例;它们的显著性检验在数学上是等价的。