r = β*

Dec 8, 2023

Pearson相关系数 $r$ 是统计101的必修内容。定义是:

$$ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} $$

就是"协方差除以两个标准差的乘积"。取值范围 $[-1, 1]$,绝对值越大说明线性相关越强。

而回归系数 $\beta_1$ 是:

$$ \beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} $$

长得有点像,但不是同一个东西。$\beta_1$ 可以大于 $1$,单位取决于 $Y$ 和 $X$ 的单位。

这两个公式之间有什么精确的关系?如果你把 $X$ 和 $Y$ 都标准化(减去均值再除以标准差),回归系数就变成了 $r$。

标准化回归

定义标准化变量:

$$ X_i^* = \frac{X_i - \bar{X}}{s_X}, \quad Y_i^* = \frac{Y_i - \bar{Y}}{s_Y} $$

其中 $s_X$ 和 $s_Y$ 分别是 $X$ 和 $Y$ 的样本标准差。标准化后,两个变量的均值都是 $0$,标准差都是 $1$。

对标准化变量跑回归(不带截距,因为均值已经是 $0$):

$$ Y_i^* = \beta_1^* X_i^* + \varepsilon_i $$

最小二乘估计:

$$ \begin{aligned} \hat\beta_1^* &= \frac{\sum X_i^* Y_i^*}{\sum (X_i^*)^2} \\ &= \frac{\sum \frac{X_i - \bar{X}}{s_X} \cdot \frac{Y_i - \bar{Y}}{s_Y}}{\sum \left(\frac{X_i - \bar{X}}{s_X}\right)^2} \\ &= \frac{\frac{1}{s_X s_Y} \sum (X_i - \bar{X})(Y_i - \bar{Y})}{\frac{1}{s_X^2} \sum (X_i - \bar{X})^2} \\ &= \frac{s_X}{s_Y} \cdot \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} \\ &= \frac{s_X}{s_Y} \cdot \hat\beta_1 \end{aligned} $$

另一方面:

$$ \begin{aligned} r &= \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1) s_X s_Y} \\ &= \frac{1}{n-1} \sum \left(\frac{X_i - \bar{X}}{s_X}\right) \left(\frac{Y_i - \bar{Y}}{s_Y}\right) \\ &= \frac{1}{n-1} \sum X_i^* Y_i^* \end{aligned} $$

而 $\sum (X_i^*)^2 = n-1$(因为 $X_i^*$ 的样本方差是 $1$),所以:

$$ \hat\beta_1^* = \frac{\sum X_i^* Y_i^*}{\sum (X_i^*)^2} = \frac{(n-1)r}{n-1} = r $$

成了。标准化回归系数恰好等于 Pearson 相关系数。

关系总结

把 $X$ 和 $Y$ 都标准化后做回归,默认是带截距的:

$$ Y^* = \beta_0^* + \beta_1^* X^* + \varepsilon $$

因为 $\bar{X}^* = \bar{Y}^* = 0$,$\hat\beta_0^* = 0$。所以带不带截距结果一样。而 $\hat\beta_1^* = r$。

反过来:如果把 $X$ 和 $Y$ 都标准化,那么 $r = \hat\beta_1^*$;如果不标准化,那么 $r = \hat\beta_1 \cdot (s_X / s_Y)$。

这个关系也解释了为什么 $r$ 的范围是 $[-1, 1]$——因为标准化后 $X^*$ 和 $Y^*$ 的方差都是 $1$,最优线性预测的斜率不可能超出这个范围。

相关的显著性检验

Pearson相关的显著性检验是 $H_0: \rho = 0$,检验统计量:

$$ t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} $$

而标准化回归中 $\beta_1^*$ 的 t 检验用的是:

$$ t = \frac{\hat\beta_1^*}{\rm{SE}(\hat\beta_1^*)} $$

可以证明这两个 t 值相同。所以相关系数的显著性检验 = 标准化回归系数的显著性检验

给你 $n$ 对观测,你跑一个标准化回归,summary() 输出的 X 那一行的 t 值和 p 值,和 scipy.stats.pearsonr(X, Y) 的输出完全一致。

为什么标准化回归用得少?

既然标准化回归系数等于相关系数,为什么大家不直接用回归而要另外学相关系数?

一个原因是历史惯性。Pearson在19世纪末就提出了相关系数,回归的最小二乘法也差不多同时代,但两者的统一视角到20世纪中叶才逐渐成为主流。教材的写法沿袭了历史顺序。

另一个原因是使用场景不同。相关系数是一个描述性统计量——你不需要"拟合模型"这个概念,直接套公式就能算出来。而回归自带一个"建模"的叙事:你有 $Y$ 作为因变量,$X$ 作为自变量,你在"用 $X$ 解释 $Y$"。

但在数学上,这两个操作是同一个操作的两种缩放方式。标准化让 $X$ 和 $Y$ 站在同一起跑线上,消去了量纲的影响,回归系数就退化成了相关系数。

多元情形

当有多个自变量时,标准化回归系数称为 beta 系数(beta coefficients 或 standardized coefficients),它们衡量的是"每增加一个标准差单位的 $X_j$,$Y$ 增加多少个标准差单位"。

这时候 beta 系数和偏相关系数(partial correlation)也有紧密联系,但不像简单回归里跟Pearson $r$ 那样直接相等。这是回归框架比相关分析更强大的地方:它可以同时考虑多个变量的影响,而两两相关只能孤零零地看一对变量。

本质上,Pearson相关不过是"两个变量都标准化后的简单回归斜率"。你学会了回归,就等于学会了相关——而且是更一般的形式。