メンデルランダム化の原理

ハンドドリップコーヒーの香りが狭い部屋に漂っている。

窓の外はいつも通りの雨。二杯目のアイスアメリカーノ——韓国では아아と略す、どうでもいい豆知識である——を片手に、パソコンの前に座る。画面には、メンデルランダム化（Mendelian Randomization, MR）を用いてコーヒーと鬱病の関係を調べた論文¹が映っている。その結論は「関係なし」。

コーヒーで命を繋ぐ。どうやらそれは、ただ命を繋いでいるだけのことだった。

この結果には少し落胆した。なにせ毎日二杯のアメリカーノを飲みながら、「これは鬱の予防になっている」と自分に言い聞かせてきたのだから。

昨年のノーベル経済学賞で因果推論の地位がまた一段引き上げられた。つい先日、操作変数法（IV, Instrumental Variable）をようやく咀嚼し終えたばかりの今、この論文を読み返すと、ずいぶんクリアに見える。心境も変わった。

一つの問いから

コーヒーと鬱病には関係がない。この主張そのものに問題はない。問題は、どう証明するかだ。

最も直接的な方法は、コーヒーを飲む人と飲まない人を比較し、どちらの鬱病リスクが高いかを見ることである。

しかし、コーヒーを飲む人と飲まない人を単純に比較できるだろうか。おそらくできない。コーヒーを飲む人は、そもそも生活習慣が規則正しく、社交的で、ストレスが少ないかもしれない——これらの要因それ自体が鬱病リスクを下げる。コーヒーに効果があるのか、それともこれらの交絡因子が結果を歪めているのか、どうやって見分ければいいのか。

ランダム化比較試験（RCT）なら解決できる。だが、被験者を無作為に二群に分け、一方にはコーヒーを飲むよう指示し、もう一方には禁止し、十年かけてどちらが先に鬱になるか追跡する——そんなことはできない。倫理的に許されないし、時間的にも待っていられない。

だから観察研究が教えてくれるのは「コーヒーを飲む人は鬱病リスクが低い」ということであって、「コーヒーを飲めば鬱病リスクが下がる」ということでは決してない。因果推論はここで壁にぶつかる。

操作変数の登場

ここで、計量経済学の古なじみが登場する。操作変数だ。

ある変数 $Z$ が優れた操作変数であるためには、三つの条件を満たす必要がある。

関連性：$Z$ は説明変数 $T$ と相関していなければならない
排他性：$Z$ は $T$ を通じてのみ結果変数 $Y$ に影響し、他の経路を持ってはならない
非交絡：$Z$ は交絡因子と無相関でなければならない

噛み砕いて言えば、$Z$ は $T$ に影響を与えられなければならないが、$Y$ への影響は $T$ を通じてのみ許され、こっそり自分で $Y$ に影響を与えてはいけないし、$Y$ に影響する他の要因とも無関係でなければならない、ということだ。

例を挙げよう。たばこ税 $Z$ を操作変数として、喫煙 $T$ が肺がん $Y$ に与える影響を調べる。

たばこ税は喫煙行動に影響する（関連性）。たばこ税は個人の生活習慣とはおそらく無関係である（非交絡）。たばこ税は喫煙行動の変化を通じてのみ肺がんに影響し、それ自体が直接肺がんを引き起こすことはない（排他性）。

この三条件を満たせば、操作変数は交絡問題を迂回してくれる。

どう使うのか。二段階最小二乗法（2SLS）だ。

第一段階：$Z$ で $T$ を予測する。

$$T = \pi_0 + \pi_1 Z + u$$

第二段階：予測値 $\hat{T}$ で $Y$ を回帰する。

$$Y = \beta_0 + \beta_1 \hat{T} + v$$

$\beta_1$ が因果効果だ。$T$ のうち交絡と関連する部分を取り除き、操作変数による「クリーンな」影響だけを残したもの、ということになる。

話だけ聞くと素晴らしい。問題は、良い操作変数を見つけるのが極めて難しいことだ。

たばこ税は特別な例である。たいていの場合、「喫煙」と関連しつつ、他の経路では肺がんに影響しない変数を見つけるのは、そう簡単ではない。

遺伝子：自然界のランダム割り当て

メンデルランダム化（Mendelian Randomization, MR）の中核的発想は、遺伝子変異を操作変数として使うことだ。

なぜ遺伝子が使えるのか。

第一に、遺伝子は曝露因子と関連している。たとえば、ある種の遺伝子変異はカフェイン代謝速度に影響し、ひいてはコーヒー摂取量に影響を与える。

第二に、遺伝子は受精の時点で確定しており、後天的な環境の影響を受けない。カフェイン代謝に関わる遺伝子は、ジムに通い始めようが、禁煙しようが、引っ越そうが変わらない。つまり、遺伝子は通常曝露とアウトカムの関係を攪乱する交絡因子の影響を受けないのだ。

第三に、遺伝子型は通常、直接的にアウトカムを引き起こさない——直接関連する遺伝性疾患を除いては。遺伝子は曝露因子への影響を通じて間接的に作用するのみである。

これは、自然界が我々の代わりにランダム化比較試験を行ってくれているようなものだ。遺伝子は受精の時点で、コイントスのようにランダムに割り当てられる。

したがってMRの論理の連鎖はこうだ。遺伝子変異 $G$ → 曝露因子 $T$ → アウトカム $Y$。$G$ は操作変数として $T$ を通じて $Y$ に影響し、$G$ 自体は $Y$ の交絡因子とは無関係である。

これをコーヒーと鬱病の問題に当てはめると、コーヒー摂取量に影響する遺伝子変異を特定し、それらを操作変数として、コーヒーが鬱病に与える因果効果を推定する、という手順になる。先の論文が使ったのはまさにこの方法だ。コーヒー摂取に関連する遺伝子変異を見つけ出し、MRを行った結論は「因果関係なし」。

なるほど。

限界と省察

しかしMRは万能ではない。

まず、操作変数を見つけるのが難しい。すべての曝露因子に適切な遺伝子変異があるわけではない。カフェイン代謝の遺伝子は見つかるが、「生活満足度」のようなものはどうか。関連する遺伝子を見つけるのは困難だ。

次に、水平的多面発現（horizontal pleiotropy）の問題。一つの遺伝子が複数の経路でアウトカムに影響を与える可能性がある——コーヒー摂取を通じてだけでなく、他の代謝経路を通じて鬱病に直接影響するかもしれない。これは排他性の仮定に違反する。

第三に、弱い操作変数の問題。遺伝子変異と曝露因子の相関が弱すぎると、推定精度が著しく低下し、結果の信頼性が損なわれる。

第四に、サンプルサイズの要件。大規模GWASの遺伝子データがMRの基盤であり、十分なデータなしにはMRは成立しない。

科学的方法論とはいつもこういうものだ——理屈の上では美しいが、使ってみると落とし穴だらけである。

しかし考え直せば、それが研究の常ではないか。あらゆる手法に限界はあり、完璧な方法など存在しない。あるのは、真実に絶えず近づこうとする試みだけだ。MRは観察データから因果関係を推定するための一つの発想を提供している。不完全であっても、何もしないよりは遥かにましである。

結び

雨はまだ降り続いている。

窓ガラスは水滴で覆われている。コーヒーカップの表面もまた。

研究者はMRを用いて、コーヒーと鬱病に因果関係がないことを示した——これは悪い知らせではなく、むしろ良いことだ。コーヒーで鬱を予防できると思い込んでいたのは、自分の考えすぎだったと教えてくれたのだから。

人生には、因果の証拠を必要としないことがたくさんある。好きであること、それだけで十分だ。

Kwok MK, Leung GM, Schooling CM. Habitual coffee consumption and risk of type 2 diabetes, ischemic heart disease, depression and Alzheimer's disease: a Mendelian randomization study. Scientific Reports. 2016;6:36500. doi:10.1038/srep36500 ↩︎