孟德尔随机化:解开因果关系的遗传密码

在因果推论之研究中,科学家们常面临一关键挑战:如何确定某一因素(如特定药物或生活习惯)是否真正引发了所观察之结果(如疾病发生或健康改善)。传统观察性研究虽能揭示两变量间之关联,但难以区分因果关系与混淆因素之影响,故难以得出明确之因果结论。

孟德尔随机化(Mendelian randomization, MR)乃一新兴之流行病学研究方法,利用遗传信息以推断暴露因素与疾病结局间之因果关系。

工具变量:因果推论之利器

工具变量(instrumental variables, IV)是计量经济学的三板斧之一,用于解决普通最小二乘法(OLS)中的内生性问题。简言之,自变量与误差项间存在相关性,致使无法准确估计因果效应。

若想研究吸烟($T$)是否会导致肺癌($Y$),一个直接的方法是比较吸烟者和不吸烟者的肺癌发生率。但此法的问题在于,吸烟者和不吸烟者在很多方面都存在差异,比如社会地位、教育水平和健康状况等。致使混淆吸烟与肺癌间之因果关系。工具变量为解决混淆因素不可观测时之良策。

一个好的工具变量应该满足以下条件:

我们可以使用一个工具变量,如吸烟税收($Z$),来帮助我们识别吸烟对肺癌的因果效应。

吸烟税收满足工具变量的三个条件:

  1. 与吸烟行为有关(相关性)。
  2. 与其他健康因素无关(无混淆因素)。
  3. 通过改变吸烟行为影响肺癌,而不是直接影响肺癌(排除限制)。

工具变量的估计方法

工具变量之基本思路,凭借**二阶最小平方估计(Two-Stage Least Squares Estimator, 2SLS)**实现:

  1. 第一阶:用工具变量($Z$)对自变量($T$)进行回归,得到预测值($\hat{T}$)。
  2. 第二阶:用预测值($\hat{T}$)对因变量($Y$)进行回归,得到因果效应之估计值。

数学上,可以表示为:

$$T=\pi_0+\pi_1 Z + u \tag{1}$$$$Y=\beta_0+\beta_1\hat{T}+v \tag{2}$$

通过这种方法,可以有效地控制内生性问题,得到更可靠的因果推论。

孟德尔随机化:工具变量的遗传学应用

孟德尔随机化以遗传变异为工具变量,以期绕过传统观察性研究中混淆因素之干扰,从而更为精确地估计因果效应。

孟德尔随机化之步骤,可简述如下:

  1. 选择工具变量: 首先,需选取一组与暴露因素高度相关的遗传变异,且此等变异不得与结局存在直接因果联系,亦不得受其他混淆因素之影响。通常由全基因组关联研究(GWAS)等方法来寻找。
  2. 假设检验:其次,还需检验找到的遗传变异是否满足三个条件。
  3. 估计因果效应: 以所选遗传变异为工具变量,运用统计学方法,估计暴露因素对结局之因果效应。
  4. 敏感性分析: 最后,为验证结果之稳健性,需进行一系列敏感性分析,如排除弱工具变量、考虑潜在的水平多效性等。

优势

局限性

总结

孟德尔随机化乃近来流行病学研究中之利器,用以探究暴露因素与结局之间之因果关系。其原理甚为精妙,以遗传变异充当工具变量,通过利用遗传变异的随机性,在观察性数据中模拟出近似于随机对照试验之条件,从而更准确地推断因果关系。然而,研究者在应用此方法时,应充分认识其优势与局限性,谨慎选择工具变量,并进行充分的敏感性分析,以确保结果之可靠性。