メンデルランダム化の原理

Sun, 24 Apr 2022 00:00:00 +0000

ハンドドリップコーヒーの香りが狭い部屋に漂っている。

窓の外はいつも通りの雨。二杯目のアイスアメリカーノ——韓国では아아と略す、どうでもいい豆知識である——を片手に、パソコンの前に座る。画面には、メンデルランダム化（Mendelian Randomization, MR）を用いてコーヒーと鬱病の関係を調べた論文¹が映っている。その結論は「関係なし」。

コーヒーで命を繋ぐ。どうやらそれは、ただ命を繋いでいるだけのことだった。

この結果には少し落胆した。なにせ毎日二杯のアメリカーノを飲みながら、「これは鬱の予防になっている」と自分に言い聞かせてきたのだから。

昨年のノーベル経済学賞で因果推論の地位がまた一段引き上げられた。つい先日、操作変数法（IV, Instrumental Variable）をようやく咀嚼し終えたばかりの今、この論文を読み返すと、ずいぶんクリアに見える。心境も変わった。

一つの問いから

コーヒーと鬱病には関係がない。この主張そのものに問題はない。問題は、どう証明するかだ。

最も直接的な方法は、コーヒーを飲む人と飲まない人を比較し、どちらの鬱病リスクが高いかを見ることである。

しかし、コーヒーを飲む人と飲まない人を単純に比較できるだろうか。おそらくできない。コーヒーを飲む人は、そもそも生活習慣が規則正しく、社交的で、ストレスが少ないかもしれない——これらの要因それ自体が鬱病リスクを下げる。コーヒーに効果があるのか、それともこれらの交絡因子が結果を歪めているのか、どうやって見分ければいいのか。

ランダム化比較試験（RCT）なら解決できる。だが、被験者を無作為に二群に分け、一方にはコーヒーを飲むよう指示し、もう一方には禁止し、十年かけてどちらが先に鬱になるか追跡する——そんなことはできない。倫理的に許されないし、時間的にも待っていられない。

だから観察研究が教えてくれるのは「コーヒーを飲む人は鬱病リスクが低い」ということであって、「コーヒーを飲めば鬱病リスクが下がる」ということでは決してない。因果推論はここで壁にぶつかる。

操作変数の登場

ここで、計量経済学の古なじみが登場する。操作変数だ。

ある変数 $Z$ が優れた操作変数であるためには、三つの条件を満たす必要がある。

関連性：$Z$ は説明変数 $T$ と相関していなければならない
排他性：$Z$ は $T$ を通じてのみ結果変数 $Y$ に影響し、他の経路を持ってはならない
非交絡：$Z$ は交絡因子と無相関でなければならない

噛み砕いて言えば、$Z$ は $T$ に影響を与えられなければならないが、$Y$ への影響は $T$ を通じてのみ許され、こっそり自分で $Y$ に影響を与えてはいけないし、$Y$ に影響する他の要因とも無関係でなければならない、ということだ。

例を挙げよう。たばこ税 $Z$ を操作変数として、喫煙 $T$ が肺がん $Y$ に与える影響を調べる。

たばこ税は喫煙行動に影響する（関連性）。たばこ税は個人の生活習慣とはおそらく無関係である（非交絡）。たばこ税は喫煙行動の変化を通じてのみ肺がんに影響し、それ自体が直接肺がんを引き起こすことはない（排他性）。

この三条件を満たせば、操作変数は交絡問題を迂回してくれる。

どう使うのか。二段階最小二乗法（2SLS）だ。

第一段階：$Z$ で $T$ を予測する。

$$T = \pi_0 + \pi_1 Z + u$$

第二段階：予測値 $\hat{T}$ で $Y$ を回帰する。

$$Y = \beta_0 + \beta_1 \hat{T} + v$$

$\beta_1$ が因果効果だ。$T$ のうち交絡と関連する部分を取り除き、操作変数による「クリーンな」影響だけを残したもの、ということになる。

Genetic-Epidemiology on TouchingFish.top

メンデルランダム化の原理

一つの問いから

操作変数の登場