ドロー / Hypergeometric Distribution

Sun, 07 Jul 2024 00:00:00 +0000

あるゲームから

二十年前、俺はまだ小学生だった。毎日学校が終わると急いで家に帰り、遊戯王（Yu-Gi-Oh!）を一話見るのが日課だった。

このカードゲームには伝説のカードがある——封印されしエクゾディア（Exodia the Forbidden One）。このカードは五つのパーツをすべて揃えなければ効果を発揮しない。右足、左足、右手、左手、頭部。この五枚を揃えさえすれば、即座に勝利が決まる。

一組のデッキは四十枚。ルール上、同じカードは最大三枚まで（一部の特殊カードは一枚まで）しか入れられないため、この五つのパーツはデッキに多くとも各一枚しか入らない。

では問題だ。初手五枚で、五つのパーツすべてが揃う確率はどのくらいか？

これは古典的な「非復元抽出」の問題だ。有限の山札から何枚かを引き、一枚引くたびに山札は一枚減り、同じカードを二度引くことはない。（特殊効果で山札に戻すような裏技はひとまず考えない）

超幾何分布（Hypergeometric Distribution）は、まさにこうした状況のためにある。

超幾何分布の定義

有限の母集団に $N$ 個の単位があり、そのうち成功状態（注目したいタイプ）が $K$ 個、失敗状態が $N-K$ 個あるとする。この母集団から非復元で $n$ 個の単位を抽出し、抽出された成功状態の数を $X$ とすると、$X$ は超幾何分布に従う。

$$ X \sim \text{Hypergeometric}(N, K, n) $$

その確率質量関数は：

$$ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}, \quad k = \max(0, n - (N-K)), \ldots, \min(n, K) $$

この公式の論理は明快だ。分子は「$K$ 個の成功から $k$ 個を引く」組み合わせと「$N-K$ 個の失敗から $n-k$ 個を引く」組み合わせの積。分母は「全部で $N$ 個の中から $n$ 個を引く」総組み合わせ数である。

三つの核心パラメータ：

$N$：母集団の大きさ
$K$：母集団内の成功単位の数
$n$：サンプル数

復元はなく、重複もない。一枚引くたびに、次の一枚を引く確率が変わる。

遊戯王に戻る

では、初手でエクゾディアが揃う確率を計算しよう。

デッキ $N = 40$、五つのパーツ $K = 5$、初手のドロー $n = 5$、すべてのパーツを引く確率、すなわち $k = 5$ である。

負の二項分布とその仲間たち（RNA発現量）

Mon, 01 Feb 2021 00:00:00 +0000

一見奇妙な事実

RNA-seq解析を行う際、ふつう我々は「発現量のカウント（read counts）は負の二項分布（Negative Binomial distribution, NB）に従う」と言う。この結論は、DESeq2、edgeR、limma-voom といった主要な差次的発現解析ツールのほぼすべてのドキュメントに登場し、さながら自明の前提のように扱われている。

しかし、なぜか。

私は多くの資料を調べたが、大半の説明は浅すぎる（「データが過分散だから」）か、いきなり数式に飛ぶ（「NBの確率質量関数は……」）か、あるいは「待ち時間」の話にすり替わる（「NBは $r$ 回目の成功までに必要な試行回数を記述する」）——最後の説明はとりわけ混乱を招く。RNA-seqのカウントと「待ち時間」は何の関係もないからだ。

そこで、この話を徹底的に整理したい。最も単純な例から出発し、なぜNBが自然な選択なのかを一歩ずつ導き、かの古典的な待ち時間による定義が実は我々の導出とは無関係であることも示す。

直感的な例から始めよう

ある遺伝子の細胞Aと細胞Bにおける発現量を調べたいとする。

細胞の内部では何が起きているのか。 遺伝子が転写されるには、まずRNAポリメラーゼがプロモーターに結合し、そこから合成が始まる。ポリメラーゼはランダムにプロモーター領域へ到達し離脱するため、転写そのものが確率的な過程である——任意の時間窓の中で合成されるmRNA分子の数はランダムである。

観察時間を固定すれば（たとえば1秒間）、転写によって産生されるmRNAの数はおおむねPoisson分布に従う。理由はこうだ：mRNAの産生は一連の独立な「成功」事象（1回の転写開始）とみなせ、固定された時間窓において、Poisson分布はこの種のカウント過程を記述する自然なモデルだからである。

しかしここで問題が生じる——Poisson分布には強い仮定がある：平均と分散が等しい。

単一細胞であれば、平均と分散の関係はたしかにその通りになりやすい。しかし一群の細胞（たとえば組織サンプル中の数万個の細胞）を比較する場合、状況はまったく異なる。同じ遺伝子であっても、細胞ごとの発現量は大きくばらつく——まったく発現していない細胞もあれば、高発現の細胞もある。この細胞間の異質性（biological variability）は、集団全体の分散を平均よりもはるかに大きくする。

これがいわゆる「過分散」（overdispersion）である。Poisson分布ではこの問題に対処できない。

Gamma-Poisson階層モデル

解決策は階層的な発想から生まれる。

まず認めよう：細胞ごとの真の発現率（$\lambda$）はそもそも異なる。この違いをひとつの分布で記述できる。どの分布を選ぶか。統計学において、Gamma分布は自然な選択である——数学的に扱いやすく、かつ多様な形状の確率変数を記述できるだけの柔軟性を備えているからだ。

こうして我々は二層モデルを構築する：

第一層（細胞間変動）： $\lambda \sim \text{Gamma}(\alpha, \beta)$

ここで $\lambda$ は各細胞の真の発現率（単位時間あたりの平均mRNA産生量）を表す。$\alpha$ と $\beta$ はGamma分布のパラメータである。平均 $\mu = \alpha/\beta$、分散 $= \alpha/\beta^2$。

第二層（細胞内のランダム性）： $\lambda$ を与えられたもとで、カウント $X$ はPoisson分布に従う：$X | \lambda \sim \text{Poisson}(\lambda)$

この層が記述するのは：たとえ二つの細胞がまったく同じ $\lambda$ を持っていたとしても、転写過程そのもののランダム性により、実際に観測されるカウントにはゆらぎが生じる、ということである。

ここで $\lambda$ を積分消去（marginalize out）し、$X$ の周辺分布を求めよう：

$$P(X = k) = \int_0^\infty P(X=k|\lambda) \cdot P(\lambda) \, d\lambda$$

この積分の結果は：

$$P(X = k) = \frac{\Gamma(k+\alpha)}{k! \cdot \Gamma(\alpha)} \left(\frac{\beta}{1+\beta}\right)^\alpha \left(\frac{1}{1+\beta}\right)^k$$

そしてこれこそが——まさに負の二項分布のパラメトライズ形式である。

Statistics on TouchingFish.top