🐳⁠ ドロー / Hypergeometric Distribution

ドロー / Hypergeometric Distribution

あるゲームから

二十年前、俺はまだ小学生だった。毎日学校が終わると急いで家に帰り、遊戯王(Yu-Gi-Oh!)を一話見るのが日課だった。

このカードゲームには伝説のカードがある——封印されしエクゾディア(Exodia the Forbidden One)。このカードは五つのパーツをすべて揃えなければ効果を発揮しない。右足、左足、右手、左手、頭部。この五枚を揃えさえすれば、即座に勝利が決まる。

一組のデッキは四十枚。ルール上、同じカードは最大三枚まで(一部の特殊カードは一枚まで)しか入れられないため、この五つのパーツはデッキに多くとも各一枚しか入らない。

では問題だ。初手五枚で、五つのパーツすべてが揃う確率はどのくらいか?

これは古典的な「非復元抽出」の問題だ。有限の山札から何枚かを引き、一枚引くたびに山札は一枚減り、同じカードを二度引くことはない。(特殊効果で山札に戻すような裏技はひとまず考えない

超幾何分布(Hypergeometric Distribution)は、まさにこうした状況のためにある。

超幾何分布の定義

有限の母集団に $N$ 個の単位があり、そのうち成功状態(注目したいタイプ)が $K$ 個、失敗状態が $N-K$ 個あるとする。この母集団から非復元で $n$ 個の単位を抽出し、抽出された成功状態の数を $X$ とすると、$X$ は超幾何分布に従う。

$$ X \sim \text{Hypergeometric}(N, K, n) $$

その確率質量関数は:

$$ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}, \quad k = \max(0, n - (N-K)), \ldots, \min(n, K) $$

この公式の論理は明快だ。分子は「$K$ 個の成功から $k$ 個を引く」組み合わせと「$N-K$ 個の失敗から $n-k$ 個を引く」組み合わせの積。分母は「全部で $N$ 個の中から $n$ 個を引く」総組み合わせ数である。

三つの核心パラメータ:

  • $N$:母集団の大きさ
  • $K$:母集団内の成功単位の数
  • $n$:サンプル数

復元はなく、重複もない。一枚引くたびに、次の一枚を引く確率が変わる。

遊戯王に戻る

では、初手でエクゾディアが揃う確率を計算しよう。

デッキ $N = 40$、五つのパーツ $K = 5$、初手のドロー $n = 5$、すべてのパーツを引く確率、すなわち $k = 5$ である。

$$ P(X = 5) = \frac{\binom{5}{5} \binom{35}{0}}{\binom{40}{5}} = \frac{1}{658{,}008} \approx 0.00015\% $$

この確率は小さすぎて、まあ無視していいレベルだ(チート乙)。

より興味深いのは、初手に少なくとも $1$ 枚パーツが来る確率だ。

$$ P(X \geq 1) = 1 - P(X = 0) = 1 - \frac{\binom{5}{0}\binom{35}{5}}{\binom{40}{5}} \approx 52.3\% $$

半分以上の確率で初手に少なくとも一枚はパーツを引ける——このデッキは初手が極端に悪いと思い込んでいたが、どうやら単に俺の引きが弱かっただけらしい。

子供の頃は確かにヘタクソだった。それくらいの自覚はある。

オミクスもデッキも、詰まるところは組み合わせだ

訳注:原文は「组学也可以是卡组的'组'」で、「组学(オミクス)」と「卡组(デッキ)」の両方に「组」の字が使われることを踏まえた言葉遊び。日本語では漢字の対応がないため、意訳した。

統計学者はサンプリングを研究するが、生命科学もまたサンプリングに満ちている。

RNAシーケンシング(RNA-seq)は分子生物学の中核技術の一つだ。簡単に言えば、細胞内のmRNA分子を抽出し、断片化してシーケンスし、得られた断片をゲノムにマッピングすることで、各遺伝子の発現量を推定する技術である。

この過程には、基本的なサンプリングの問題が潜んでいる。

ある細胞内の特定遺伝子のmRNAコピー数を $K$、細胞内の全mRNA量を $N$(分子数ベース)とする。すべてのmRNAを抽出してライブラリを構築し、シーケンサーにかける——$n$ 本のリードをシーケンスしたとしよう。

この $n$ 本のリードは、mRNAプール全体からの一回のサンプリングに相当する。各mRNAがシーケンスされる確率は、プール内での相対的存在量に比例する。

ある遺伝子が何回検出されたか——つまり何本のリードがその遺伝子にマッピングされたか——これはまさに超幾何分布で記述できる。

母集団 $N$ 個のmRNA分子のうち、特定の遺伝子に $K$ 個の転写産物があるとする。そこからランダムに $n$ 本のリードを抽出したとき、その遺伝子のリードが $k$ 本得られる確率は:

$$ P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}} $$

もちろんこのモデルには単純化が含まれている。実際のRNA-seqには、キャプチャー効率の偏り、シーケンシング深度の差異、マッピングの不確実性といった問題がつきまとう。しかし最も基礎的な理論レベルでは、ここに超幾何分布の出番がある。

結び

サンプリングは至るところにある。遊戯王とトランスクリプトームは、ある意味では異なる言葉で同じ物語を語っているにすぎない。

この文章を書くにあたって、引き出しの中の埃をかぶった遊戯王カードを引っ張り出した。

かつての仲間たちはとうに各地に散り、カードも意味を失った。だが確率は、俺たちがカードを遊ばなくなっても動き続ける——すべての山札、すべてのドロー、すべての生物学実験におけるサンプリングが、同じ数学的法則に従っている。

超幾何分布を理解しても、必ずしもエクゾディアを引けるわけではない。しかし少なくとも、その一戦で自分にどれだけの勝算があったのかを知ることはできる。

最後に、もし計算が間違っていたら、ぜひ教えてほしい。