虚拟变量（Independent T-test）

在特定条件下，它们本质上是同一个统计检验，只是表达形式不同。

如果把"成组 t 检验"理解为"两组均值比较的独立样本 t 检验"，那么它与"只有一个二元自变量的简单线性回归中的回归系数显著性检验"是完全等价的。

两种写法，同一个模型

t检验的设定：比较A组与B组均值是否不同。你有两组独立样本，想知道它们来自的总体均值是否相等。

回归的设定：设

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

其中 $X$ 是一个虚拟变量（dummy variable）：

$$ X = \begin{cases} 0, & \rm{A组} \\ 1, & \rm{B组} \end{cases} $$

最小二乘估计的结果是：

$\hat\beta_0 = \bar{Y}_{\rm A}$，A组的样本均值
$\hat\beta_1 = \bar{Y}_{\rm B} - \bar{Y}_{\rm A}$，两组均值之差

然后检验 $H_0: \beta_1 = 0$。

这里得到的：

t 值相同
p 值相同
自由度相同（都是 $n_{\rm A} + n_{\rm B} - 2$）
结论相同

从数学上看，它们是同一个模型的两种写法。

一个数值验证

算一个具体例子比讲十遍理论更有说服力。假设A组有5个数据：$[3.2, 4.1, 3.8, 3.5, 4.0]$，B组有5个数据：$[5.1, 5.8, 5.3, 5.5, 5.0]$。

用 R 做 t 检验：

A <- c(3.2, 4.1, 3.8, 3.5, 4.0)
B <- c(5.1, 5.8, 5.3, 5.5, 5.0)
t.test(B, A, var.equal = TRUE)

        Two Sample t-test

data:  B and A
t = 7.3943, df = 8, p-value = 7.662e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 1.11478 2.12522
sample estimates:
mean of x mean of y
     5.34      3.72

用 R 做回归：

Y <- c(A, B)
group <- factor(c(rep("A", 5), rep("B", 5)))
summary(lm(Y ~ group))

Call:
lm(formula = Y ~ group)

Residuals:
   Min     1Q Median     3Q    Max
-0.520 -0.235  0.020  0.250  0.460

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   3.7200     0.1549  24.012 9.64e-09 ***
groupB        1.6200     0.2191   7.394 7.66e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3464 on 8 degrees of freedom
Multiple R-squared:  0.8724,    Adjusted R-squared:  0.8564
F-statistic: 54.68 on 1 and 8 DF,  p-value: 7.662e-05

groupB（即 $\beta_1$）那一行的 t 值和 p 值，和上面 t 检验的输出完全一致。

为什么等价？

回归的 t 统计量是：

$$ t = \frac{\hat\beta_1}{\rm{SE}(\hat\beta_1)} $$

而 $\hat\beta_1 = \bar{Y}_{\rm B} - \bar{Y}_{\rm A}$。在等方差假设下：

$$ \rm{SE}(\hat\beta_1) = s_p \sqrt{\frac{1}{n_{\rm A}} + \frac{1}{n_{\rm B}}} $$

其中 $s_p$ 是 pooled 标准差。这正是成组 t 检验的分母。

所以分子相同（两组均值差），分母相同（pooled 标准误），t 值自然相同。

t² = F

可以写成：

$$ t^2 = F $$

即两组时：

t 检验
一元方差分析（ANOVA）
含二元虚拟变量的线性回归

三者完全等价。

这个关系不是巧合。自由度为 $df$ 的 t 分布，平方之后就是自由度为 $(1, df)$ 的 F 分布。在两组的情况下，ANOVA的F统计量检验的是"组间差异是否显著"，而这恰好等价于检验"虚拟变量的回归系数是否为零"——也就是 $t^2 = F$ 的数学基础。

这个桥梁是整个系列理解等价性的数学枢纽，下篇文章专门展开。

核心原因：线性模型的框架

简单线性回归的本质：

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

当 $X$ 只有 $0/1$ 两个取值时，它退化成"两组均值比较"。

不是"巧合地等价"，而是"线性模型本来就是这么定义的"。

几点补充

1. 配对 t 检验不完全等价于普通简单线性回归

配对 t 检验利用"同一样本前后差值"：

$$ D_i = X_i - Y_i $$

然后检验 $\mu_D = 0$。它更接近对差值做单样本 t 检验，或带个体固定效应的回归，不是最基础的简单线性回归。这一点后面有专门一篇文章讨论。

2. 回归更容易扩展

t 检验只能比较均值。回归可以：

加协变量
做交互项
控制混杂因素
处理连续自变量
做预测

所以现代统计里，经常把 t 检验视为线性模型的特殊情况——不是贬低 t 检验，而是说回归是更通用的语言。学会了回归，t 检验自然就通了。

3. 假设条件本质一致

两者都通常依赖：

独立性
正态误差
方差齐性（经典版本）

因此它们的理论基础也高度一致。回归框架的好处是：当这些假设不满足时，你知道去哪里找解决方案（加权最小二乘、稳健标准误、广义线性模型……），而不只是"好吧那改用非参数检验"。

总结：两组 t 检验可以看成"只有一个 $0/1$ 自变量的线性回归"的特例；它们的显著性检验在数学上是等价的。