你用 N 赌一个 p 值 / Sample Size Estimation

Mon, 16 Dec 2024 00:00:00 +0000

一个临床医生和一个统计师在走廊里相遇。

"这个试验需要多少人？" 医生问。

"那要看你想证明什么。" 统计师说。

"证明药有效啊。"

"多少算有效？"

医生想了三秒，给了一个数字。统计师在脑子里跑了一遍公式，又给了一个数字。

这场对话每天都在发生。但它底下藏着的逻辑，远比一句"样本量不够"要复杂。样本量估计（sample size estimation）不是在报表里填一个数字，而是把整个试验设计写成一个等式——然后把你的预算、你的野心、你愿意承担的犯错概率，全部扔进这个等式的一边，看另一边跳出多少 N。

你手里的钱（N），去赌一个可以承受的错误概率（α 和 β）。问题是，这场交易里有太多人想偷你的 N：脱落率（dropout rate）、多重比较（multiplicity）——你每防住一个，就得加点钱。

四种关系，四种方程

在开始之前，先搞清楚我们到底想证明什么。

临床上常见的比较设计有四种，英文标准名称写在这里，因为中文翻译常常混用：

四种关系的数学表达各不相同，公式也因此不一样。

先讲最常见的 superiority trial。另外三种的逻辑差异主要在界值（margin）的设定上，原理相通，本文不展开。

这是整个样本量估计的理论地基。如果这块没理解，后面的公式就是一堆符号。

也叫 significance level（显著性水平）。

定义：$H_0$ 为真时，你错误地拒绝了 $H_0$。

翻译成人话：药其实没用，但你的数据"看起来"像是有用。你被数据骗了。

典型值是 0.05（双侧，two-sided）。也就是说，你愿意接受在 20 次试验里被数据骗 1 次的概率。

（我自己学到这里的时候，总觉得 0.05 是个任意的数字——为什么不是 0.04 或 0.06？后来才明白，它确实是任意的。Fisher 当年说"it is convenient to take this point as a limit"，翻译过来就是"我觉得这个数字挺方便"。方便而已。）