多中心试验(multi-center trial)的名字取得真好听。
多个中心一起招募,样本量涨得快,结论推广起来底气也足。理想状态是:各家中心像精密咬合的齿轮,在同一套 SOP 下匀速运转。
现实是每家中心都是一个小宇宙。操作流程不一样,研究者经验不一样,患者人群不一样。这些差异搅在一起,就能让你吃不了兜着走。
中心效应
中心效应(Center Effect)——不同中心的研究结果之间存在系统性差异。
原因可以是很多层的。人口学特征:A 中心的患者平均比 B 中心大十岁。操作差异:不同的设备、不同的手法、不同的熟练程度。依从性差异:有的中心随访跟得很紧,有的中心患者来一次算一次。
一个经典例子:某抗高血压药物的试验,亚洲中心的降压效果显著,欧洲中心平平。拆开一看——亚洲中心患者 BMI 普遍偏低。不是药在亚洲人身上反应不一样,是基线特征分布不同。
处理中心效应得分两步走。设计阶段用分层随机化——每个中心当一层,层内随机。再搞一套统一 SOP,把操作差异压到最小。分析阶段上混合效应模型(Mixed-Effects Model),“中心"作为随机效应塞进去,中心间差异扒开之后再估治疗效应。顺带查交互效应——有没有"在 A 中心有效、在 B 中心无效"这种诡异场面。最后跑一遍敏感性分析,排除个别中心或调权重,看结论够不够硬。
面试官问过:“捡到显著的中心效应,你怎么办?”
标准套路:先拆原因。是基线差异还是操作差异,还是真的存在治疗×中心的交互。基线差异可以通过调整协变量来补救,操作差异可能要重新培训研究者。
(我嘴上这么说,心里清楚:统计方法能兜住的底是有限的。预防永远比事后修修补补值钱。)
人跑了
脱落(Drop-out)是我准备面试时反复翻的一个话题——它直接咬在统计效能和结论可信度上。
定义:受试者没走完试验全程——要么没接受完预定干预,要么没完成全部随访。
后果三层:效能降低——样本缩了,检测真实效应的力气就小了。偏倚风险——如果脱落不是随机发生的(副反应太让人遭不住的更倾向于退出),整个估计就会歪掉。结果解读——脱落一多,ITT 人群和 PP 人群之间的裂口越来越大。
设计的防线:样本量计算时把脱落的预估塞进去,纳入排除标准把不靠谱的人挡在外面,交通补助、免费检查之类的激励跟上。
执行的防线:随访管理加强,定期提醒别断,脱落原因记录清楚,为后续分析铺路。电话随访、线上访谈做起来——灵活,总比丢失好。
分析的防线:ITT——所有随机化受试者全纳入,不管有没有走完。金标准。缺失数据用 LOCF(末次观察值结转)或多重插补(Multiple Imputation, MI)顶上。
面试官问过我 LOCF 的假设是什么。
“假设受试者最后一次观察的状态会原封不动保持到后续时间点。”
他追问:这个假设靠谱吗?
“通常不靠谱。如果受试者是因为病情恶化才退出的,最后一次观察值可能比真实状态好看。LOCF 会把治疗效果高估。”
(后来我翻了文献。LOCF 在某些场景下确实是保守的,但总体容易引入偏倚。多重插补或者当敏感性分析做更稳妥。)
最后一扇门
数据库锁定(Database Lock, DB Lock)是数据管理的一个关键节点。
锁之前:数据可以改。锁之后:冻住了。任何修改都要走变更流程——不是技术上改不了,是程序上要经过层层审批。
DB Lock 通常发生在所有受试者完成随访、数据清理收尾、锁库前评审通过之后。锁库之后,统计师拉闸开始最终分析,生成临床研究报告(CSR)。
“锁库之后还能改数据吗?”
能。但不叫"改”,叫"走变更流程"。物理上数据还是可以动的,只是每次动都要一群人在审批链上签字。
“什么情况下锁库后必须改?”
SAE 数据录入有误。关键数据录入有误,影响主要终点。还有——面试官给我补了一个场景——监管机构在现场核查时要求更正数据。
这件事我只在书本上瞟到过,面试的时候完全没想起来。坐在对面的面试官不紧不慢地补上了这一刀,我连防御姿势都摆不出来。
写在最后
多中心试验的核心矛盾就一条:控制变异。
中心间差异不会消失——只能通过设计去预防、通过分析去调整、通过监查去发现。脱落是另一个维度的损耗——受试者走了,信息就永远丢了。能做的只是把它写进样本量计算、写进分析计划、写进最后的报告,而不是假装它不存在。承认不确定性,比假装确定诚实得多。