Effect-Measures on TouchingFish.top

多中心的那些麻烦事

Mon, 10 Mar 2025 00:00:00 +0000

多中心试验（multi-center trial）的名字取得真好听。

多个中心一起招募，样本量涨得快，结论推广起来底气也足。理想状态是：各家中心像精密咬合的齿轮，在同一套 SOP 下匀速运转。

现实是每家中心都是一个小宇宙。操作流程不一样，研究者经验不一样，患者人群不一样。这些差异搅在一起，就能让你吃不了兜着走。

中心效应

中心效应（Center Effect）——不同中心的研究结果之间存在系统性差异。

原因可以是很多层的。人口学特征：A 中心的患者平均比 B 中心大十岁。操作差异：不同的设备、不同的手法、不同的熟练程度。依从性差异：有的中心随访跟得很紧，有的中心患者来一次算一次。

一个经典例子：某抗高血压药物的试验，亚洲中心的降压效果显著，欧洲中心平平。拆开一看——亚洲中心患者 BMI 普遍偏低。不是药在亚洲人身上反应不一样，是基线特征分布不同。

处理中心效应得分两步走。设计阶段用分层随机化——每个中心当一层，层内随机。再搞一套统一 SOP，把操作差异压到最小。分析阶段上混合效应模型（Mixed-Effects Model），“中心"作为随机效应塞进去，中心间差异扒开之后再估治疗效应。顺带查交互效应——有没有"在 A 中心有效、在 B 中心无效"这种诡异场面。最后跑一遍敏感性分析，排除个别中心或调权重，看结论够不够硬。

面试官问过：“捡到显著的中心效应，你怎么办？”

标准套路：先拆原因。是基线差异还是操作差异，还是真的存在治疗×中心的交互。基线差异可以通过调整协变量来补救，操作差异可能要重新培训研究者。

（我嘴上这么说，心里清楚：统计方法能兜住的底是有限的。预防永远比事后修修补补值钱。）

人跑了

脱落（Drop-out）是我准备面试时反复翻的一个话题——它直接咬在统计效能和结论可信度上。

定义：受试者没走完试验全程——要么没接受完预定干预，要么没完成全部随访。

后果三层：效能降低——样本缩了，检测真实效应的力气就小了。偏倚风险——如果脱落不是随机发生的（副反应太让人遭不住的更倾向于退出），整个估计就会歪掉。结果解读——脱落一多，ITT 人群和 PP 人群之间的裂口越来越大。

设计的防线：样本量计算时把脱落的预估塞进去，纳入排除标准把不靠谱的人挡在外面，交通补助、免费检查之类的激励跟上。

执行的防线：随访管理加强，定期提醒别断，脱落原因记录清楚，为后续分析铺路。电话随访、线上访谈做起来——灵活，总比丢失好。

分析的防线：ITT——所有随机化受试者全纳入，不管有没有走完。金标准。缺失数据用 LOCF（末次观察值结转）或多重插补（Multiple Imputation, MI）顶上。

面试官问过我 LOCF 的假设是什么。

“假设受试者最后一次观察的状态会原封不动保持到后续时间点。”

他追问：这个假设靠谱吗？

“通常不靠谱。如果受试者是因为病情恶化才退出的，最后一次观察值可能比真实状态好看。LOCF 会把治疗效果高估。”

（后来我翻了文献。LOCF 在某些场景下确实是保守的，但总体容易引入偏倚。多重插补或者当敏感性分析做更稳妥。）

最后一扇门

数据库锁定（Database Lock, DB Lock）是数据管理的一个关键节点。

锁之前：数据可以改。锁之后：冻住了。任何修改都要走变更流程——不是技术上改不了，是程序上要经过层层审批。

DB Lock 通常发生在所有受试者完成随访、数据清理收尾、锁库前评审通过之后。锁库之后，统计师拉闸开始最终分析，生成临床研究报告（CSR）。

“锁库之后还能改数据吗？”

能。但不叫"改”，叫"走变更流程"。物理上数据还是可以动的，只是每次动都要一群人在审批链上签字。

“什么情况下锁库后必须改？”

SAE 数据录入有误。关键数据录入有误，影响主要终点。还有——面试官给我补了一个场景——监管机构在现场核查时要求更正数据。

这件事我只在书本上瞟到过，面试的时候完全没想起来。坐在对面的面试官不紧不慢地补上了这一刀，我连防御姿势都摆不出来。

写在最后

多中心试验的核心矛盾就一条：控制变异。

中心间差异不会消失——只能通过设计去预防、通过分析去调整、通过监查去发现。脱落是另一个维度的损耗——受试者走了，信息就永远丢了。能做的只是把它写进样本量计算、写进分析计划、写进最后的报告，而不是假装它不存在。承认不确定性，比假装确定诚实得多。

把AE和SAE背下来

Sat, 15 Feb 2025 00:00:00 +0000

不良事件（Adverse Event, AE）大概是临床试验面试里出场率最高的话题。

不是因为它复杂。是因为它直接连着受试者安全——GCP 的心脏。面试官需要确认你对这一块有基本的本能反应，不是临时翻书背的。

你以为是边界，其实不是

Adverse Event (AE)：受试者在试验期间出现的任何不利医疗情况，与研究药物或干预措施未必有因果关系。

四个字咬在最前面：“未必相关”。

什么意思？受试者试验期间出现的任何身体不适——头疼、发烧、血压飙了、平地摔了一跤——不管原因是什么，全部要记录。感冒要记。车祸要记。自己吃坏肚子也要记。

第一次看到方案里 AE 记录范围的时候，我整个人是懵的。

我以为 AE 只记跟药物搭边的反应。结果发现，连受试者周末爬山崴了脚，都要老老实实填进系统。

逻辑是这样的：临床试验的核心任务是评估药物安全性。如果你只记录"看起来可能相关"的事件，那你怎么知道自己有没有漏掉"看起来无关但实际上有关"的事件？事后判断因果关系是统计师和分析师的事情，研究者只管如实记录。

把判断交给数据，把诚实留给现场。

五条标准，一条红线

严重不良事件（Serious Adverse Event, SAE）的定义是固定的。五条：

导致死亡
威胁生命
导致住院或延长住院时间
导致永久性或显著的残疾/功能障碍
导致先天异常/出生缺陷

面试的时候，面试官喜欢出场景题。

“受试者随访期间因为心脏病发作进了 ICU，算不算 SAE？”

算。一条"威胁生命"，一条"导致住院"，双命中。

再来一题更刁的。

“受试者血压控制不好，医生建议住院观察，但受试者拒绝了。算不算 SAE？”

不算 SAE——但需要记成 AE。“导致住院"这个标准的前提是实际发生了住院行为，不是医生动了个念头。

SAE 报告的时限是二十四小时。

从研究者获知 SAE 那一刻开始计时。二十四小时内必须报给申办方。申办方收到之后，还有额外的时限向监管机构汇报——但这第一步，二十四小时，雷打不动。

这个数字是要考试的。

我做了卡片，每天早上对着念一遍：死亡、威胁生命、住院、残疾、先天异常。念到后来做梦都在复读。

（有点病态。备考嘛，谁还没点神经质。）

记录不是一次性的

AE 不是记完就可以翻页的。

研究者要持续随访，直到三件事之一发生：事件解决了（恢复或稳定），受试者失访了，或者事件的根因确认了——比如确定是受试者自己停药导致的停药后事件。

结局（outcome）有几种标准记法：

解决（Resolved）
解决但有后遗症（Resolved with sequelae）
未解决/持续中（Not resolved / ongoing）
解决中（Resolving）
致命（Fatal）

有个容易搞混的地方。“致命"和"导致死亡"是两回事。一个 AE 可以状态是"未解决/持续中”，但随访期间受试者因为别的原因去世了——它被标注为"致命"结局。死亡本身不是 AE，是一个终点。

随机化，被问到不会为止

Sat, 08 Feb 2025 00:00:00 +0000

随机化（Randomization）是临床试验的基石。

这句话我在面试里说了不下十遍。每次说的时候底气都很足——直到面试官开始往下挖。

上统计课的时候，老师讲得轻描淡写：随机化就是让混杂变量在组间均匀分布。掷硬币，分两组，完事。我当时觉得，这有什么难的？

rand = rand("uniform");
group = if rand < 0.5 then "Treatment" else "Control";

一行代码。大样本下组间基线特征自然均衡。简单随机化（Simple Randomization）操作起来也确实这么痛快——每个受试者扔一次骰子，去哪组全凭运气。

问题出在小样本上。

四十个人的试验，随机下来可能是 24 比 16。理论上不偏，但统计效能（power）被削了一块——你本来算好需要二十个对照，实际只拿到十六个，power 就缩水了。

面试官问我小样本用什么方法。

我说分层随机化。

（现在回头想，这个回答不对。应该先想到区组随机化。）

每个区块都是一个小平衡

区组随机化（Block Randomization）是我准备面试的时候啃得最细的一个点。

道理不复杂。把受试者切分成若干"区块"，每个区块内部按固定比例分。比如区块大小是 4，比例 1:1——每四个人里一定有两个试验、两个对照。区块内部严格对称。

这个设计在多中心试验（multi-center trial）里特别好用。A 中心招了三十个人，B 中心只有十个——简单随机化可能让 A 中心变成 20:10，B 中心变成 8:2，摆在一起虽然整体是 1:1，但每个中心内部歪得离谱。区组随机化让每个中心各自维持内部平衡。

前提是区块大小不被猜到。

如果区块固定为 4，研究者看到前三个人的分组就能反推第四个。盲法（blinding）原地作废。

解法：把区块大小也随机化。可以是 4，也可以是 6，随机抽。

面试官追着这个点问。

“区组大小固定的话，会有什么后果？”

我顿了三秒。说，可能造成选择偏倚——研究者会看前面几个人的分组，决定要不要让下一个人入组。

他没接话。

（后来我琢磨，我的方向大概对了一半。猜到分组确实会打穿盲法。但"决定是否入组"这个说法不准确——入组标准是写死的，研究者不应该有裁量空间。真正怕的是他通过控制入组节奏来影响分组：预测下一个会进试验组，就稍微拖一拖。这更接近实施偏倚而不是选择偏倚。）

按特征分堆

分层随机化（Stratified Randomization）解决另一件事。

有些变量对结局影响很大——年龄、性别、疾病分期。小样本里，纯随机可能让这些变量在组间歪掉。分层做法的思路是：先按重要特征切层（60 岁以下/60 岁以上、男/女），然后在每一层内部再做随机。保证每个分层因素在两组之间是平衡的。

面试题经常问：“分层和区组有什么区别？”

分层按受试者特征来，区组按入组先后来。分层管协变量的平衡，区组管各时间点样本量的平衡。两者不互斥——可以先分层，再在层内跑区组随机化。面试的时候如果能说出这个组合用法，大概能加点分。

一时语塞

那场面试没有后续。

我猜是因为答得太虚。概念头头是道，落地一问就露馅。

面试官最后抛了一个开放式结尾：“如果一个中心招募速度特别慢，怎么处理？”

我说，跟中心研究者沟通，了解原因。如果是患者来源问题，调整招募策略或者增加中心。

他说了一句让我记到现在的话。

“CRO 行业现在收缩得很厉害。很多中心不是招不到患者，是申办方没钱了，主动暂停试验。”

我当场石化。

背了那么多术语、方法、最佳实践，到头来被一个行业事实干翻了。统计方法能解决的问题是有边界的——资金、政策、市场周期，这些东西不在任何一本 GCP 教材里。

后来我查了一下，CRO 确实在过冬。不是哪个公司的原因，是整个赛道都在缩。

Odds Ratio, Risk Ratio, and Risk Difference

Wed, 18 Dec 2024 00:00:00 +0000

一切从一张 2×2 表开始。

	Event	No Event	Total
Treated	a	b	a+b
Control	c	d	c+d

你做了一个 RCT，收了三百个人。一百五在治疗组，一百五在对照组。治疗组发生事件的人数是 a，对照组是 c。

你对着这张表算出了三个数。它们趴在同一个数据的背上，长得像三胞胎，但其实是三种完全不同的语言。

RD: Risk Difference = $p_1 - p_0 = \frac{a}{a+b} - \frac{c}{c+d}$
RR: Risk Ratio (或 Relative Risk) = $\frac{p_1}{p_0} = \frac{a/(a+b)}{c/(c+d)}$
OR: Odds Ratio = $\frac{p_1/(1-p_1)}{p_0/(1-p_0)} = \frac{ad}{bc}$

三个数都从四个格子里长出来。但它们讲的故事不一样。选错了，你的结论就可能从"有效"变成"无效"——或者反过来，把一个小效应吹成一个中药丸子的神话。

RD：最直观，也最不老实

RD 是治疗组和对照组在事件发生率上的绝对差距。加性尺度（additive scale）。很直白：每治疗 100 人，多救（或多伤）几个。

RD = 0.05 意味着治疗组比对照组多 5 个百分点的人发生了（或避免了）事件。

它和 NNT（Number Needed to Treat，需治疗人数）有一条简洁的通道：

$$NNT = \frac{1}{|RD|}$$

RD = 0.10 → NNT = 10。每治疗 10 个人，多避免 1 次事件。临床医生爱 NNT，因为它是唯一一个可以像钱一样直接"花"的数字——给多少人用药，换多少获益。

人会犯错，分组不会

Tue, 17 Dec 2024 00:00:00 +0000

设想一个场景。

你是一个统计师，面前摆着一份 RCT 的 CRF（Case Report Form，病例报告表）。受试者编号 017，按随机表被分到了治疗组。方案说每天一片药，吃六个月。你在随访记录里看到：第二个月开始，017 的依从性（compliance）断崖式下降。药片计数显示他大概只吃了一半。第六个月的时候，他人还在，药已经不怎么碰了。

然后你翻到他的主要终点数据。他的血压降了 15 mmHg。对照组的平均降幅是 8 mmHg。

你怎么办？把他扔进分析里，还是不扔？

这个问题看起来像一道统计题，但它不是。它是一个关于"你到底想说什么"的问题——而你在这一刻的选择，决定了你的结论是一个政策建议，还是一个生物学论断。

ITT：一旦随机，永远分析

ITT 的全称是 Intention-to-Treat。它的定义硬到没有商量余地：

Once randomized, always analyzed.

所有被随机化的受试者，都按他们被分配到的组别进行分析——不管他们有没有接受分配的治疗、有没有违反方案（protocol deviation）、有没有中途退出（withdrawal）。哪怕 017 一颗药都没吃，他在分析中仍然是"治疗组"的一员。

这个原则的完整英文表述值得全文引用：All randomized subjects are analyzed according to the group to which they were randomly assigned, regardless of whether they received the allocated treatment, deviated from the protocol, or withdrew from the study.

翻译成人话：你当初把他随机分到哪一组，数据分析的时候就把他放在哪一组。后面发生的一切——吃不吃药、跑不跑路——都不能改变这个归属。

听起来有点不讲道理。

但它背后有一条统计学的脊梁：随机化（randomization）是推断的根基。ITT 保护的正是随机化所创造的组间可比性（comparability）。把那些不依从的人扔掉，你就打破了随机化——因为不依从（non-adherence）不是随机发生的。扔掉的人不是随机样本，而是有共同特征的一群人。

这个逻辑并不复杂，但它的后果很深。

为什么 ITT 对 superiority trial 是金标准

ITT 对于优效性试验（superiority trial）有一个被广泛接受的定性判断：它是保守的（conservative）。

你用 N 赌一个 p 值 / Sample Size Estimation

Mon, 16 Dec 2024 00:00:00 +0000

一个临床医生和一个统计师在走廊里相遇。

“这个试验需要多少人？” 医生问。

“那要看你想证明什么。” 统计师说。

“证明药有效啊。”

“多少算有效？”

医生想了三秒，给了一个数字。统计师在脑子里跑了一遍公式，又给了一个数字。

这场对话每天都在发生。但它底下藏着的逻辑，远比一句"样本量不够"要复杂。样本量估计（sample size estimation）不是在报表里填一个数字，而是把整个试验设计写成一个等式——然后把你的预算、你的野心、你愿意承担的犯错概率，全部扔进这个等式的一边，看另一边跳出多少 N。

你手里的钱（N），去赌一个可以承受的错误概率（α 和 β）。问题是，这场交易里有太多人想偷你的 N：脱落率（dropout rate）、多重比较（multiplicity）——你每防住一个，就得加点钱。

四种关系，四种方程

在开始之前，先搞清楚我们到底想证明什么。

临床上常见的比较设计有四种，英文标准名称写在这里，因为中文翻译常常混用：

Superiority trial（优效性试验）：证明 A 比 B 好。
Non-inferiority trial（非劣效性试验）：证明 A 不比 B 差太多，差在可接受范围内。
Equivalence trial（等效性试验）：证明 A 和 B 在某个范围内等效。
Bioequivalence study（生物等效性研究）：证明仿制药和原研药在药代动力学参数上等价。

四种关系的数学表达各不相同，公式也因此不一样。

先讲最常见的 superiority trial。另外三种的逻辑差异主要在界值（margin）的设定上，原理相通，本文不展开。

两类错误：你可以犯错，但不能白犯错

这是整个样本量估计的理论地基。如果这块没理解，后面的公式就是一堆符号。

Type I error (α)

也叫 significance level（显著性水平）。

定义：$H_0$ 为真时，你错误地拒绝了 $H_0$。

翻译成人话：药其实没用，但你的数据"看起来"像是有用。你被数据骗了。

典型值是 0.05（双侧，two-sided）。也就是说，你愿意接受在 20 次试验里被数据骗 1 次的概率。

（我自己学到这里的时候，总觉得 0.05 是个任意的数字——为什么不是 0.04 或 0.06？后来才明白，它确实是任意的。Fisher 当年说"it is convenient to take this point as a limit"，翻译过来就是"我觉得这个数字挺方便"。方便而已。）