<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Sample-Size-Estimation on TouchingFish.top</title><link>https://touchingfish.top/tags/sample-size-estimation/</link><description>Recent content in Sample-Size-Estimation on TouchingFish.top</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 16 Dec 2024 00:00:00 +0000</lastBuildDate><atom:link href="https://touchingfish.top/tags/sample-size-estimation/index.xml" rel="self" type="application/rss+xml"/><item><title>你用 N 赌一个 p 值 / Sample Size Estimation</title><link>https://touchingfish.top/2024/sample-size-estimation/</link><pubDate>Mon, 16 Dec 2024 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2024/sample-size-estimation/</guid><description>&lt;p&gt;一个临床医生和一个统计师在走廊里相遇。&lt;/p&gt;
&lt;p&gt;&amp;quot;这个试验需要多少人？&amp;quot; 医生问。&lt;/p&gt;
&lt;p&gt;&amp;quot;那要看你想证明什么。&amp;quot; 统计师说。&lt;/p&gt;
&lt;p&gt;&amp;quot;证明药有效啊。&amp;quot;&lt;/p&gt;
&lt;p&gt;&amp;quot;多少算有效？&amp;quot;&lt;/p&gt;
&lt;p&gt;医生想了三秒，给了一个数字。统计师在脑子里跑了一遍公式，又给了一个数字。&lt;/p&gt;
&lt;p&gt;这场对话每天都在发生。但它底下藏着的逻辑，远比一句&amp;quot;样本量不够&amp;quot;要复杂。样本量估计（sample size estimation）不是在报表里填一个数字，而是把整个试验设计写成一个等式——然后把你的预算、你的野心、你愿意承担的犯错概率，全部扔进这个等式的一边，看另一边跳出多少 N。&lt;/p&gt;
&lt;p&gt;你手里的钱（N），去赌一个可以承受的错误概率（α 和 β）。问题是，这场交易里有太多人想偷你的 N：脱落率（dropout rate）、多重比较（multiplicity）——你每防住一个，就得加点钱。&lt;/p&gt;
&lt;h2 id="四种关系四种方程"&gt;四种关系，四种方程&lt;/h2&gt;
&lt;p&gt;在开始之前，先搞清楚我们到底想证明什么。&lt;/p&gt;
&lt;p&gt;临床上常见的比较设计有四种，英文标准名称写在这里，因为中文翻译常常混用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Superiority trial&lt;/strong&gt;（优效性试验）：证明 A 比 B 好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Non-inferiority trial&lt;/strong&gt;（非劣效性试验）：证明 A 不比 B 差太多，差在可接受范围内。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Equivalence trial&lt;/strong&gt;（等效性试验）：证明 A 和 B 在某个范围内等效。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Bioequivalence study&lt;/strong&gt;（生物等效性研究）：证明仿制药和原研药在药代动力学参数上等价。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;四种关系的数学表达各不相同，公式也因此不一样。&lt;/p&gt;
&lt;p&gt;先讲最常见的 superiority trial。另外三种的逻辑差异主要在界值（margin）的设定上，原理相通，本文不展开。&lt;/p&gt;
&lt;h2 id="两类错误你可以犯错但不能白犯错"&gt;两类错误：你可以犯错，但不能白犯错&lt;/h2&gt;
&lt;p&gt;这是整个样本量估计的理论地基。如果这块没理解，后面的公式就是一堆符号。&lt;/p&gt;
&lt;h3 id="type-i-error-α"&gt;Type I error (α)&lt;/h3&gt;
&lt;p&gt;也叫 significance level（显著性水平）。&lt;/p&gt;
&lt;p&gt;定义：$H_0$ 为真时，你错误地拒绝了 $H_0$。&lt;/p&gt;
&lt;p&gt;翻译成人话：药其实没用，但你的数据&amp;quot;看起来&amp;quot;像是有用。你被数据骗了。&lt;/p&gt;
&lt;p&gt;典型值是 0.05（双侧，two-sided）。也就是说，你愿意接受在 20 次试验里被数据骗 1 次的概率。&lt;/p&gt;
&lt;p&gt;（我自己学到这里的时候，总觉得 0.05 是个任意的数字——为什么不是 0.04 或 0.06？后来才明白，它确实是任意的。Fisher 当年说&amp;quot;it is convenient to take this point as a limit&amp;quot;，翻译过来就是&amp;quot;我觉得这个数字挺方便&amp;quot;。方便而已。）&lt;/p&gt;</description></item></channel></rss>