<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Count-Data on TouchingFish.top</title><link>https://touchingfish.top/ja/tags/count-data/</link><description>Recent content in Count-Data on TouchingFish.top</description><generator>Hugo</generator><language>ja</language><lastBuildDate>Mon, 01 Feb 2021 00:00:00 +0000</lastBuildDate><atom:link href="https://touchingfish.top/ja/tags/count-data/index.xml" rel="self" type="application/rss+xml"/><item><title>負の二項分布とその仲間たち（RNA発現量）</title><link>https://touchingfish.top/ja/2021/gamma-poisson-mixture/</link><pubDate>Mon, 01 Feb 2021 00:00:00 +0000</pubDate><guid>https://touchingfish.top/ja/2021/gamma-poisson-mixture/</guid><description>&lt;h2 id="一見奇妙な事実"&gt;一見奇妙な事実&lt;/h2&gt;
&lt;p&gt;RNA-seq解析を行う際、ふつう我々は「発現量のカウント（read counts）は負の二項分布（Negative Binomial distribution, NB）に従う」と言う。この結論は、DESeq2、edgeR、limma-voom といった主要な差次的発現解析ツールのほぼすべてのドキュメントに登場し、さながら自明の前提のように扱われている。&lt;/p&gt;
&lt;p&gt;しかし、なぜか。&lt;/p&gt;
&lt;p&gt;私は多くの資料を調べたが、大半の説明は浅すぎる（「データが過分散だから」）か、いきなり数式に飛ぶ（「NBの確率質量関数は……」）か、あるいは「待ち時間」の話にすり替わる（「NBは $r$ 回目の成功までに必要な試行回数を記述する」）——最後の説明はとりわけ混乱を招く。RNA-seqのカウントと「待ち時間」は何の関係もないからだ。&lt;/p&gt;
&lt;p&gt;そこで、この話を徹底的に整理したい。最も単純な例から出発し、なぜNBが自然な選択なのかを一歩ずつ導き、かの古典的な待ち時間による定義が実は我々の導出とは無関係であることも示す。&lt;/p&gt;
&lt;h2 id="直感的な例から始めよう"&gt;直感的な例から始めよう&lt;/h2&gt;
&lt;p&gt;ある遺伝子の細胞Aと細胞Bにおける発現量を調べたいとする。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;細胞の内部では何が起きているのか。&lt;/strong&gt; 遺伝子が転写されるには、まずRNAポリメラーゼがプロモーターに結合し、そこから合成が始まる。ポリメラーゼはランダムにプロモーター領域へ到達し離脱するため、転写そのものが確率的な過程である——任意の時間窓の中で合成されるmRNA分子の数はランダムである。&lt;/p&gt;
&lt;p&gt;観察時間を固定すれば（たとえば1秒間）、転写によって産生されるmRNAの数はおおむねPoisson分布に従う。理由はこうだ：mRNAの産生は一連の独立な「成功」事象（1回の転写開始）とみなせ、固定された時間窓において、Poisson分布はこの種のカウント過程を記述する自然なモデルだからである。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;しかしここで問題が生じる——Poisson分布には強い仮定がある：平均と分散が等しい。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;単一細胞であれば、平均と分散の関係はたしかにその通りになりやすい。しかし&lt;strong&gt;一群の細胞&lt;/strong&gt;（たとえば組織サンプル中の数万個の細胞）を比較する場合、状況はまったく異なる。同じ遺伝子であっても、細胞ごとの発現量は大きくばらつく——まったく発現していない細胞もあれば、高発現の細胞もある。&lt;strong&gt;この細胞間の異質性（biological variability）は、集団全体の分散を平均よりもはるかに大きくする。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;これがいわゆる「過分散」（overdispersion）である。Poisson分布ではこの問題に対処できない。&lt;/p&gt;
&lt;h2 id="gamma-poisson階層モデル"&gt;Gamma-Poisson階層モデル&lt;/h2&gt;
&lt;p&gt;解決策は階層的な発想から生まれる。&lt;/p&gt;
&lt;p&gt;まず認めよう：細胞ごとの真の発現率（$\lambda$）はそもそも異なる。この違いをひとつの分布で記述できる。どの分布を選ぶか。統計学において、Gamma分布は自然な選択である——数学的に扱いやすく、かつ多様な形状の確率変数を記述できるだけの柔軟性を備えているからだ。&lt;/p&gt;
&lt;p&gt;こうして我々は二層モデルを構築する：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一層（細胞間変動）：&lt;/strong&gt; $\lambda \sim \text{Gamma}(\alpha, \beta)$&lt;/p&gt;
&lt;p&gt;ここで $\lambda$ は各細胞の真の発現率（単位時間あたりの平均mRNA産生量）を表す。$\alpha$ と $\beta$ はGamma分布のパラメータである。平均 $\mu = \alpha/\beta$、分散 $= \alpha/\beta^2$。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二層（細胞内のランダム性）：&lt;/strong&gt; $\lambda$ を与えられたもとで、カウント $X$ はPoisson分布に従う：$X | \lambda \sim \text{Poisson}(\lambda)$&lt;/p&gt;
&lt;p&gt;この層が記述するのは：たとえ二つの細胞がまったく同じ $\lambda$ を持っていたとしても、転写過程そのもののランダム性により、実際に観測されるカウントにはゆらぎが生じる、ということである。&lt;/p&gt;
&lt;p&gt;ここで &lt;strong&gt;$\lambda$ を積分消去&lt;/strong&gt;（marginalize out）し、$X$ の周辺分布を求めよう：&lt;/p&gt;
$$P(X = k) = \int_0^\infty P(X=k|\lambda) \cdot P(\lambda) \, d\lambda$$&lt;p&gt;この積分の結果は：&lt;/p&gt;
$$P(X = k) = \frac{\Gamma(k+\alpha)}{k! \cdot \Gamma(\alpha)} \left(\frac{\beta}{1+\beta}\right)^\alpha \left(\frac{1}{1+\beta}\right)^k$$&lt;p&gt;そしてこれこそが——まさに&lt;strong&gt;負の二項分布&lt;/strong&gt;のパラメトライズ形式である。&lt;/p&gt;</description></item></channel></rss>