r = β*

Pearson相关系数 $r$ 是统计101的必修内容。定义是：

$$ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} $$

就是"协方差除以两个标准差的乘积"。取值范围 $[-1, 1]$，绝对值越大说明线性相关越强。

而回归系数 $\beta_1$ 是：

$$ \beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} $$

长得有点像，但不是同一个东西。$\beta_1$ 可以大于 $1$，单位取决于 $Y$ 和 $X$ 的单位。

这两个公式之间有什么精确的关系？如果你把 $X$ 和 $Y$ 都标准化（减去均值再除以标准差），回归系数就变成了 $r$。

标准化回归

定义标准化变量：

$$ X_i^* = \frac{X_i - \bar{X}}{s_X}, \quad Y_i^* = \frac{Y_i - \bar{Y}}{s_Y} $$

其中 $s_X$ 和 $s_Y$ 分别是 $X$ 和 $Y$ 的样本标准差。标准化后，两个变量的均值都是 $0$，标准差都是 $1$。

对标准化变量跑回归（不带截距，因为均值已经是 $0$）：

$$ Y_i^* = \beta_1^* X_i^* + \varepsilon_i $$

最小二乘估计：

$$ \begin{aligned} \hat\beta_1^* &= \frac{\sum X_i^* Y_i^*}{\sum (X_i^*)^2} \\ &= \frac{\sum \frac{X_i - \bar{X}}{s_X} \cdot \frac{Y_i - \bar{Y}}{s_Y}}{\sum \left(\frac{X_i - \bar{X}}{s_X}\right)^2} \\ &= \frac{\frac{1}{s_X s_Y} \sum (X_i - \bar{X})(Y_i - \bar{Y})}{\frac{1}{s_X^2} \sum (X_i - \bar{X})^2} \\ &= \frac{s_X}{s_Y} \cdot \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} \\ &= \frac{s_X}{s_Y} \cdot \hat\beta_1 \end{aligned} $$

另一方面：

$$ \begin{aligned} r &= \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1) s_X s_Y} \\ &= \frac{1}{n-1} \sum \left(\frac{X_i - \bar{X}}{s_X}\right) \left(\frac{Y_i - \bar{Y}}{s_Y}\right) \\ &= \frac{1}{n-1} \sum X_i^* Y_i^* \end{aligned} $$

而 $\sum (X_i^*)^2 = n-1$（因为 $X_i^*$ 的样本方差是 $1$），所以：

$$ \hat\beta_1^* = \frac{\sum X_i^* Y_i^*}{\sum (X_i^*)^2} = \frac{(n-1)r}{n-1} = r $$

成了。标准化回归系数恰好等于 Pearson 相关系数。

关系总结

把 $X$ 和 $Y$ 都标准化后做回归，默认是带截距的：

$$ Y^* = \beta_0^* + \beta_1^* X^* + \varepsilon $$

因为 $\bar{X}^* = \bar{Y}^* = 0$，$\hat\beta_0^* = 0$。所以带不带截距结果一样。而 $\hat\beta_1^* = r$。

反过来：如果把 $X$ 和 $Y$ 都标准化，那么 $r = \hat\beta_1^*$；如果不标准化，那么 $r = \hat\beta_1 \cdot (s_X / s_Y)$。

这个关系也解释了为什么 $r$ 的范围是 $[-1, 1]$——因为标准化后 $X^*$ 和 $Y^*$ 的方差都是 $1$，最优线性预测的斜率不可能超出这个范围。

为什么标准化回归用得少？

既然标准化回归系数等于相关系数，为什么大家不直接用回归而要另外学相关系数？

一个原因是历史惯性。Pearson在19世纪末就提出了相关系数，回归的最小二乘法也差不多同时代，但两者的统一视角到20世纪中叶才逐渐成为主流。教材的写法沿袭了历史顺序。

另一个原因是使用场景不同。相关系数是一个描述性统计量——你不需要"拟合模型"这个概念，直接套公式就能算出来。而回归自带一个"建模"的叙事：你有 $Y$ 作为因变量，$X$ 作为自变量，你在"用 $X$ 解释 $Y$"。

但在数学上，这两个操作是同一个操作的两种缩放方式。标准化让 $X$ 和 $Y$ 站在同一起跑线上，消去了量纲的影响，回归系数就退化成了相关系数。

多元情形

当有多个自变量时，标准化回归系数称为 beta 系数（beta coefficients 或 standardized coefficients），它们衡量的是"每增加一个标准差单位的 $X_j$，$Y$ 增加多少个标准差单位"。

这时候 beta 系数和偏相关系数（partial correlation）也有紧密联系，但不像简单回归里跟Pearson $r$ 那样直接相等。这是回归框架比相关分析更强大的地方：它可以同时考虑多个变量的影响，而两两相关只能孤零零地看一对变量。

本质上，Pearson相关不过是"两个变量都标准化后的简单回归斜率"。你学会了回归，就等于学会了相关——而且是更一般的形式。

标准化回归

关系总结

相关的显著性检验

为什么标准化回归用得少？

多元情形