孟德尔随机化的原理

Sun, 24 Apr 2022 00:00:00 +0000

手冲咖啡的香气弥漫在狭小的房间里。

窗外下着雨，和往常一样。我端着第二杯아아（冰美式简称，아이스 아메리카노，ice americano —— 一个无聊的冷知识），坐在电脑前，屏幕上是那篇用孟德尔随机化（Mendelian Randomization, MR）研究喝咖啡和抑郁症关系的论文¹。结论是：没关系。

喝咖啡续命这件事，看来只是续命。

这个结果令人有点失落。毕竟每天两杯美式，总想骗自己说这是在预防抑郁。

去年的经济学奖把因果推论的地位又提升了一档，前几天刚啃完IV（Instrumental Variable, 工具变量法），再看这篇文章，清楚了许多，心境也已经不一样了。

从一个问题开始

咖啡和抑郁没有关系。这句话本身没问题。

问题在于：怎么证明？

最直接的方法是比较喝咖啡的人和不喝咖啡的人，看谁的抑郁风险更高。

但喝咖啡的人和不喝咖啡的人，能直接比较吗？恐怕不能。喝咖啡的人可能本来就生活规律、社交广泛、压力较小——这些因素本身就降低抑郁风险。你怎么知道是咖啡有用，还是这些混淆因素在作祟？

随机对照试验（RCT）可以解决。但你不能把人随机分组，一组命令喝咖啡，一组禁止喝，然后跟踪十年看谁先抑郁。伦理上说不通，时间上也等不起。

所以观察性研究只能告诉你"喝咖啡的人抑郁风险更低"，永远不能告诉你"喝咖啡能降低抑郁风险"。

因果推论在这里碰壁了。

这时候，计量经济学的老朋友出现了：工具变量。

一个变量 $Z$ 要成为好的工具变量，需要满足三个条件：

用人话说：$Z$ 要能影响 $T$，但只能通过 $T$ 来影响 $Y$，不能自己偷偷影响 $Y$，也不能和影响 $Y$ 的其他因素有关联。

举例：烟草税 $Z$ 作为工具变量，研究吸烟 $T$ 对肺癌 $Y$ 的影响。

烟草税影响吸烟行为（相关性）。烟草税和个人生活习惯可能无关（无混淆）。烟草税只能通过改变吸烟行为来影响肺癌，不能自己直接导致肺癌（排他性）。

满足这三个条件，工具变量就帮你绕开了混淆问题。

怎么用？二阶最小二乘法（2SLS）：

第一阶，用 $Z$ 预测 $T$：

$$T = \pi_0 + \pi_1 Z + u$$

第二阶，用预测值 $\hat{T}$ 回归 $Y$：