虚拟变量(Independent T-test)

Aug 1, 2023

在特定条件下,它们本质上是同一个统计检验,只是表达形式不同。

如果把"成组 t 检验"理解为"两组均值比较的独立样本 t 检验",那么它与"只有一个二元自变量的简单线性回归中的回归系数显著性检验"是完全等价的。

两种写法,同一个模型

t检验的设定:比较A组与B组均值是否不同。你有两组独立样本,想知道它们来自的总体均值是否相等。

回归的设定:设

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

其中 $X$ 是一个虚拟变量(dummy variable):

$$ X = \begin{cases} 0, & \rm{A组} \\ 1, & \rm{B组} \end{cases} $$

最小二乘估计的结果是:

然后检验 $H_0: \beta_1 = 0$。

这里得到的:

从数学上看,它们是同一个模型的两种写法。

一个数值验证

算一个具体例子比讲十遍理论更有说服力。假设A组有5个数据:$[3.2, 4.1, 3.8, 3.5, 4.0]$,B组有5个数据:$[5.1, 5.8, 5.3, 5.5, 5.0]$。

用 R 做 t 检验:

A <- c(3.2, 4.1, 3.8, 3.5, 4.0)
B <- c(5.1, 5.8, 5.3, 5.5, 5.0)
t.test(B, A, var.equal = TRUE)
        Two Sample t-test

data:  B and A
t = 7.3943, df = 8, p-value = 7.662e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 1.11478 2.12522
sample estimates:
mean of x mean of y
     5.34      3.72

用 R 做回归:

Y <- c(A, B)
group <- factor(c(rep("A", 5), rep("B", 5)))
summary(lm(Y ~ group))
Call:
lm(formula = Y ~ group)

Residuals:
   Min     1Q Median     3Q    Max
-0.520 -0.235  0.020  0.250  0.460

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   3.7200     0.1549  24.012 9.64e-09 ***
groupB        1.6200     0.2191   7.394 7.66e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3464 on 8 degrees of freedom
Multiple R-squared:  0.8724,    Adjusted R-squared:  0.8564
F-statistic: 54.68 on 1 and 8 DF,  p-value: 7.662e-05

groupB(即 $\beta_1$)那一行的 t 值和 p 值,和上面 t 检验的输出完全一致。

为什么等价?

回归的 t 统计量是:

$$ t = \frac{\hat\beta_1}{\rm{SE}(\hat\beta_1)} $$

而 $\hat\beta_1 = \bar{Y}_{\rm B} - \bar{Y}_{\rm A}$。在等方差假设下:

$$ \rm{SE}(\hat\beta_1) = s_p \sqrt{\frac{1}{n_{\rm A}} + \frac{1}{n_{\rm B}}} $$

其中 $s_p$ 是 pooled 标准差。这正是成组 t 检验的分母。

所以分子相同(两组均值差),分母相同(pooled 标准误),t 值自然相同。

t² = F

可以写成:

$$ t^2 = F $$

即两组时:

三者完全等价。

这个关系不是巧合。自由度为 $df$ 的 t 分布,平方之后就是自由度为 $(1, df)$ 的 F 分布。在两组的情况下,ANOVA的F统计量检验的是"组间差异是否显著",而这恰好等价于检验"虚拟变量的回归系数是否为零"——也就是 $t^2 = F$ 的数学基础。

这个桥梁是整个系列理解等价性的数学枢纽,下篇文章专门展开。

核心原因:线性模型的框架

简单线性回归的本质:

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

当 $X$ 只有 $0/1$ 两个取值时,它退化成"两组均值比较"。

不是"巧合地等价",而是"线性模型本来就是这么定义的"。

几点补充

1. 配对 t 检验不完全等价于普通简单线性回归

配对 t 检验利用"同一样本前后差值":

$$ D_i = X_i - Y_i $$

然后检验 $\mu_D = 0$。它更接近对差值做单样本 t 检验,或带个体固定效应的回归,不是最基础的简单线性回归。这一点后面有专门一篇文章讨论。

2. 回归更容易扩展

t 检验只能比较均值。回归可以:

所以现代统计里,经常把 t 检验视为线性模型的特殊情况——不是贬低 t 检验,而是说回归是更通用的语言。学会了回归,t 检验自然就通了。

3. 假设条件本质一致

两者都通常依赖:

因此它们的理论基础也高度一致。回归框架的好处是:当这些假设不满足时,你知道去哪里找解决方案(加权最小二乘、稳健标准误、广义线性模型……),而不只是"好吧那改用非参数检验"。


总结:两组 t 检验可以看成"只有一个 $0/1$ 自变量的线性回归"的特例;它们的显著性检验在数学上是等价的。