Regression on TouchingFish.top

回归能做的事 / Simple Linear Regression Universe

Wed, 20 Dec 2023 00:00:00 +0000

这个系列走到了最后一篇。

前面七篇文章论证了一件事：t检验、ANOVA、相关分析——你在基础统计课上学到的几乎所有参数检验，都是线性回归的特例。有些等价于简单回归，有些等价于加了固定效应的回归，有些等价于标准化后的回归。但归根结底，它们都住在 $Y = X\beta + \varepsilon$ 这栋楼里。

这栋楼本身还远不止如此。今天聊聊：回归的框架为什么比传统检验"能打"那么多。

t检验只能问一个"是或否"

t检验能回答的问题是：两组均值是否不同？

能给你的输出是：t值、p值、“显著还是不显著”。

就这样。

如果你想问"控制年龄之后，两组均值是否仍然不同？"——t检验答不了。如果你想问"剂量每增加一个单位，血压下降多少？"——t检验答不了。如果你想问"男性和女性对治疗的反应是否有差异？"——t检验可以分组做，但不能在一个模型里同时估计主效应和交互效应。

回归框架下，这些问题全都是在一个模型里多加一行 $X$ 的事。

加协变量：从"有没有差异"到"为什么有差异"

成组t检验告诉你：治疗组和对照组的血压有显著差异。

回归可以告诉你：在控制了年龄、性别和基线血压之后，治疗组和对照组的血压仍然有显著差异。

只需要把模型从

$$ Y = \beta_0 + \beta_1 \cdot \rm{treatment} + \varepsilon $$

扩展为

$$ Y = \beta_0 + \beta_1 \cdot \rm{treatment} + \beta_2 \cdot \rm{age} + \beta_3 \cdot \rm{sex} + \beta_4 \cdot \rm{baseline} + \varepsilon $$

$\beta_1$ 的含义从"两组均值之差"变成了"其他条件不变时，治疗组与对照组的血压差异"。从 association 到 conditional association，这是一大步。

在医学研究中，不加协变量的分析几乎是不可发表的。因为随机对照试验（RCT）虽然理论上保证了组间可比性，但实际中总有运气不好的时候——万一治疗组平均年龄偏高呢？加协变量就是在统计上抹平这些偶然的不均衡。

而t检验没有"加协变量"这个选项。你得另找方法——通常是回归。

交互项：效应不是一成不变的

t检验默认治疗效应在所有子群体中相同。回归可以加交互项：

$$ Y = \beta_0 + \beta_1 \cdot \rm{treatment} + \beta_2 \cdot \rm{sex} + \beta_3 \cdot (\rm{treatment} \times \rm{sex}) + \varepsilon $$

$\beta_3$ 告诉你：男性和女性的治疗效应是否有显著差异？

r = β*

Fri, 08 Dec 2023 00:00:00 +0000

Pearson相关系数 $r$ 是统计101的必修内容。定义是：

$$ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} $$

就是"协方差除以两个标准差的乘积"。取值范围 $[-1, 1]$，绝对值越大说明线性相关越强。

而回归系数 $\beta_1$ 是：

$$ \beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} $$

长得有点像，但不是同一个东西。$\beta_1$ 可以大于 $1$，单位取决于 $Y$ 和 $X$ 的单位。

这两个公式之间有什么精确的关系？如果你把 $X$ 和 $Y$ 都标准化（减去均值再除以标准差），回归系数就变成了 $r$。

标准化回归

定义标准化变量：

$$ X_i^* = \frac{X_i - \bar{X}}{s_X}, \quad Y_i^* = \frac{Y_i - \bar{Y}}{s_Y} $$

其中 $s_X$ 和 $s_Y$ 分别是 $X$ 和 $Y$ 的样本标准差。标准化后，两个变量的均值都是 $0$，标准差都是 $1$。

固定效应回归的视角 / Paired T-test

Mon, 20 Nov 2023 00:00:00 +0000

前面的文章一直在讲"某某检验等价于回归"。这一篇要讲一个不完全等价的情况。

配对t检验（paired t-test）不等价于普通的简单线性回归。但它等价于另一种回归——带个体固定效应的回归（fixed effects regression）。这种"不完全等价"反而能帮你理解回归框架的灵活性。

配对t检验在做什么？

配对设计：每个受试者接受两种处理（或前后测量两次），你关心的是两种处理下结果是否有差异。比如：10个人吃药前和吃药后的血压变化。

配对t检验的做法是：对每个人算差值 $D_i = Y_{i,\rm after} - Y_{i,\rm before}$，然后对差值做单样本t检验，$H_0: \mu_D = 0$。

before <- c(130, 142, 128, 135, 140, 132, 138, 129, 136, 133)
after <- c(125, 138, 126, 130, 135, 128, 134, 125, 131, 130)
t.test(after, before, paired = TRUE)

 Paired t-test

data: after and before
t = -13.038, df = 9, p-value = 3.787e-07
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 -4.811372 -3.388628
sample estimates:
mean difference
 -4.1

为什么普通回归不行？

如果你不管配对结构，直接把前后数据当独立样本做成组t检验：

t.test(after, before, var.equal = TRUE)

 Two Sample t-test

data: after and before
t = -2.0014, df = 18, p-value = 0.06066
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -8.4039 0.2039
sample estimates:
mean of x mean of y
 130.2 134.3

你会发现t值和p值都跟配对检验不一样——通常配对检验的p值更小（因为它消除了个体间差异的干扰）。

同样的，如果你跑一个"处理前后"的虚拟变量回归：

$$ Y = \beta_0 + \beta_1 \cdot \rm{after} + \varepsilon $$

$\beta_1$ 的t检验等价于上面的独立样本t检验，不是配对t检验。因为这个回归把同一个人的前后两次测量当成两个独立的观测，忽略了个体间的相关性。

配对设计的核心是：同一个人的两次测量不是独立的。张三的血压无论吃药前后都可能比李四高——如果不控制这个"张三效应"，个体差异就会淹没处理效应。

个体固定效应回归

解决方案：给每个人加一个单独的截距。这就是个体固定效应模型（individual fixed effects model）：

$$ Y_{it} = \alpha_i + \beta \cdot \rm{after}_{it} + \varepsilon_{it} $$

其中 $\alpha_i$ 是第 $i$ 个人的固定效应（一个只属于他/她的截距项），$\rm{after}_{it}$ 是"是否为处理后测量"的虚拟变量，$\beta$ 是我们关心的处理效应。

多个虚拟变量的回归 / One-way ANOVA

Wed, 08 Nov 2023 00:00:00 +0000

前一篇文章证明了在两组比较中 $t^2 = F$，t检验、ANOVA、回归三者等价。

现在从两组推广到多组。单因素ANOVA有 $k$ 个处理组（$k \ge 2$），想知道各组均值是否有差异。传统做法：算组间平方和、组内平方和、F统计量，查表做结论。

回归视角：把 $k$ 个组编码为 $k-1$ 个虚拟变量，做多元线性回归，然后做整体F检验。

从两组到多组：问题在哪？

两组时，一个虚拟变量就够了——$X=0$ 表示A组，$X=1$ 表示B组。多组时，你不能用一个变量编码"A、B、C"三种取值（因为 C 和 A 的差距不一定刚好是 B 和 A 的两倍，假设线性的数值关系毫无道理）。

解决方案：用 $k-1$ 个虚拟变量。

以三组为例。设对照组为A组，构造两个虚拟变量：

$$ X_{B} = \begin{cases} 1, & \rm{B组} \\ 0, & \rm{其他} \end{cases} \quad X_{C} = \begin{cases} 1, & \rm{C组} \\ 0, & \rm{其他} \end{cases} $$

A组对应 $(X_B, X_C) = (0, 0)$，作为参照组（reference group）。回归模型：

$$ Y = \beta_0 + \beta_B X_B + \beta_C X_C + \varepsilon $$

OLS估计结果：

t² = F

Sun, 10 Sep 2023 00:00:00 +0000

如果你在统计课上认真听了两组比较那两章，你可能隐约记得：t检验的t值和ANOVA的F值之间好像有点关系。

但大多数教材不会把这件事说透。t检验在第四章，ANOVA在第六章，它们被当作两个独立的工具来讲。你忙着记公式、背适用条件、算自由度，没时间去想"这两个东西本质上是不是同一个"。

答案是：在两组比较的情形下，$t^2 = F$。这不是近似，是严格的数学恒等式。

从两个分布说起

t 分布的定义是这样的：如果 $Z \sim \mathcal{N}(0, 1)$ 和 $V \sim \chi^2_{df}$ 独立，那么

$$ t = \frac{Z}{\sqrt{V / df}} \sim t_{df} $$

F 分布的定义是这样的：如果 $U \sim \chi^2_{d_1}$ 和 $V \sim \chi^2_{d_2}$ 独立，那么

$$ F = \frac{U / d_1}{V / d_2} \sim F_{d_1, d_2} $$

把 t 的定义平方一下：

$$ t^2 = \frac{Z^2}{V / df} $$

$Z^2$ 服从自由度为 $1$ 的 $\chi^2$ 分布。所以 $t^2$ 恰好是分子自由度为 $1$、分母自由度为 $df$ 的 F 分布：

$$ t^2_{df} = F_{1, df} $$

这就是分布层面的等价性。不是"差不多"，是"平方之后完全一样"。

虚拟变量 / Independent T-test

Tue, 01 Aug 2023 00:00:00 +0000

在特定条件下，它们本质上是同一个统计检验，只是表达形式不同。

如果把"成组 t 检验"理解为"两组均值比较的独立样本 t 检验"，那么它与"只有一个二元自变量的简单线性回归中的回归系数显著性检验"是完全等价的。

两种写法，同一个模型

t检验的设定：比较A组与B组均值是否不同。你有两组独立样本，想知道它们来自的总体均值是否相等。

回归的设定：设

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

其中 $X$ 是一个虚拟变量（dummy variable）：

$$ X = \begin{cases} 0, & \rm{A组} \\ 1, & \rm{B组} \end{cases} $$

最小二乘估计的结果是：

$\hat\beta_0 = \bar{Y}_{\rm A}$，A组的样本均值
$\hat\beta_1 = \bar{Y}_{\rm B} - \bar{Y}_{\rm A}$，两组均值之差

然后检验 $H_0: \beta_1 = 0$。

这里得到的：

t 值相同
p 值相同
自由度相同（都是 $n_{\rm A} + n_{\rm B} - 2$）
结论相同

从数学上看，它们是同一个模型的两种写法。

一个数值验证

算一个具体例子比讲十遍理论更有说服力。假设A组有5个数据：$[3.2, 4.1, 3.8, 3.5, 4.0]$，B组有5个数据：$[5.1, 5.8, 5.3, 5.5, 5.0]$。

截距项 / One Sample t-test

Thu, 20 Jul 2023 00:00:00 +0000

我们从最简情形开始。

单样本t检验是你在统计课上学到的第一个检验：有一组数据，想知道它的均值是否等于某个特定值 $\mu_0$。比如：这批药片的平均重量是不是 $500\rm{mg}$？这个班级的平均成绩是不是 $70$ 分？

标准做法：算t统计量，查t分布表，看p值，做结论。

而"回归视角"的做法更简单：跑一个只有截距项的回归。

只有截距的回归

考虑模型：

$$ Y_i = \beta_0 + \varepsilon_i, \quad \varepsilon_i \sim \mathcal{N}(0, \sigma^2) $$

没有自变量，只有截距 $\beta_0$。对这个模型做最小二乘估计（OLS），$\hat\beta_0$ 恰好是样本均值 $\bar{Y}$。这应该不意外——当你只能用一条水平线去拟合数据时，最好的选择就是取平均值。

检验 $H_0: \beta_0 = \mu_0$ 的 t 统计量为：

$$ t = \frac{\hat\beta_0 - \mu_0}{\rm{SE}(\hat\beta_0)} $$

其中 $\rm{SE}(\hat\beta_0) = s / \sqrt{n}$，$s$ 是样本标准差。

而单样本t检验的公式是：

$$ t = \frac{\bar{Y} - \mu_0}{s / \sqrt{n}} $$

一样。

因为 $\hat\beta_0 = \bar{Y}$，所以两个公式完全等价。t值相同，自由度相同（都是 $n-1$），p值相同，结论相同。

拟合一个"空"模型

在 R 里，你可以这样拟合：

y <- c(5.2, 4.8, 5.1, 5.0, 4.9)
summary(lm(y ~ 1))

Call:
lm(formula = y ~ 1)

Residuals:
 1 2 3 4 5
 2.000e-01 -2.000e-01 1.000e-01 1.041e-16 -1.000e-01

Coefficients:
 Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.00000 0.07071 70.71 2.4e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1581 on 4 degrees of freedom

Estimate 那一栏就是样本均值，t值和p值和单样本t检验的输出一模一样。

y=ax+b这么能打？ / Simple Linear Regression Universe

Sat, 10 Jun 2023 00:00:00 +0000

学了这么多年统计，有一个问题我直到很晚才想明白。

为什么基础统计课要教那么多互不相关的检验方法？t检验、ANOVA、Pearson相关、线性回归——它们各自有各自的公式、各自的适用条件、各自的查表方式。考试的时候，你得先判断"这道题该用哪种检验"，然后再套对应的公式。

我当时就是这么学的。背了一堆检验，考完就忘，需要考试的时候又背一遍。

直到某天我突然意识到：

它们其实都是同一个公式的不同写法。

更准确地说，它们都是线性回归模型 $Y = X\beta + \varepsilon$ 在 $X$ 取不同形式时的特例。

这个发现让我整个人有点懵。倒不是因为数学有多难——恰恰相反，是因为数学太简单了。简单到你会怀疑：为什么当初没人告诉我？

当然，老师不这样教是有原因的（可能是怕我们一时接受不了？也可能教材就是从各种检验分别讲起的，历史惯性使然）。但站在"事后诸葛亮"的视角，用回归统一一切，确实能让统计的版图变得异常清晰。

回归是最通用的语言

考虑最简单的线性回归：

$$ Y = \beta_0 + \beta_1 X + \varepsilon $$

这里 $\beta_0$ 是截距，$\beta_1$ 是斜率，$\varepsilon$ 是误差项。你关心的问题是：$X$ 对 $Y$ 有没有影响？统计上就是检验 $H_0: \beta_1 = 0$。

现在，如果我告诉你 $X$ 可以是什么，你就知道为什么回归能统一一切了：

如果 $X$ 只有 $0$ 和 $1$ 两个取值（比如：$0$ = 对照组，$1$ = 实验组），这个回归就是成组t检验。
如果根本没有 $X$，只保留截距 $\beta_0$，这个回归就是单样本t检验。
如果把 $X$ 扩展为多个 $0/1$ 虚拟变量（表示多组分类），就变成了单因素ANOVA。
如果 $X$ 是连续的，并且先把 $X$ 和 $Y$ 都标准化，回归系数 $\beta_1$ 恰好等于Pearson相关系数 $r$。
如果加入个体固定效应（每个受试者一个截距），就变成了配对t检验的等价形式。

这就有意思了。五个看起来八竿子打不着的检验方法，在回归的框架下全是一个东西。