多中心的那些麻烦事 | TouchingFish.top

多中心试验（multi-center trial）的名字取得真好听。

多个中心一起招募，样本量涨得快，结论推广起来底气也足。理想状态是：各家中心像精密咬合的齿轮，在同一套 SOP 下匀速运转。

现实是每家中心都是一个小宇宙。操作流程不一样，研究者经验不一样，患者人群不一样。这些差异搅在一起，就能让你吃不了兜着走。

中心效应

中心效应（Center Effect）——不同中心的研究结果之间存在系统性差异。

原因可以是很多层的。人口学特征：A 中心的患者平均比 B 中心大十岁。操作差异：不同的设备、不同的手法、不同的熟练程度。依从性差异：有的中心随访跟得很紧，有的中心患者来一次算一次。

一个经典例子：某抗高血压药物的试验，亚洲中心的降压效果显著，欧洲中心平平。拆开一看——亚洲中心患者 BMI 普遍偏低。不是药在亚洲人身上反应不一样，是基线特征分布不同。

处理中心效应得分两步走。设计阶段用分层随机化——每个中心当一层，层内随机。再搞一套统一 SOP，把操作差异压到最小。分析阶段上混合效应模型（Mixed-Effects Model），“中心"作为随机效应塞进去，中心间差异扒开之后再估治疗效应。顺带查交互效应——有没有"在 A 中心有效、在 B 中心无效"这种诡异场面。最后跑一遍敏感性分析，排除个别中心或调权重，看结论够不够硬。

面试官问过：“捡到显著的中心效应，你怎么办？”

标准套路：先拆原因。是基线差异还是操作差异，还是真的存在治疗×中心的交互。基线差异可以通过调整协变量来补救，操作差异可能要重新培训研究者。

（我嘴上这么说，心里清楚：统计方法能兜住的底是有限的。预防永远比事后修修补补值钱。）

人跑了

脱落（Drop-out）是我准备面试时反复翻的一个话题——它直接咬在统计效能和结论可信度上。

定义：受试者没走完试验全程——要么没接受完预定干预，要么没完成全部随访。

后果三层：效能降低——样本缩了，检测真实效应的力气就小了。偏倚风险——如果脱落不是随机发生的（副反应太让人遭不住的更倾向于退出），整个估计就会歪掉。结果解读——脱落一多，ITT 人群和 PP 人群之间的裂口越来越大。

设计的防线：样本量计算时把脱落的预估塞进去，纳入排除标准把不靠谱的人挡在外面，交通补助、免费检查之类的激励跟上。

执行的防线：随访管理加强，定期提醒别断，脱落原因记录清楚，为后续分析铺路。电话随访、线上访谈做起来——灵活，总比丢失好。

分析的防线：ITT——所有随机化受试者全纳入，不管有没有走完。金标准。缺失数据用 LOCF（末次观察值结转）或多重插补（Multiple Imputation, MI）顶上。

面试官问过我 LOCF 的假设是什么。

“假设受试者最后一次观察的状态会原封不动保持到后续时间点。”

他追问：这个假设靠谱吗？

“通常不靠谱。如果受试者是因为病情恶化才退出的，最后一次观察值可能比真实状态好看。LOCF 会把治疗效果高估。”

（后来我翻了文献。LOCF 在某些场景下确实是保守的，但总体容易引入偏倚。多重插补或者当敏感性分析做更稳妥。）

最后一扇门

数据库锁定（Database Lock, DB Lock）是数据管理的一个关键节点。

锁之前：数据可以改。锁之后：冻住了。任何修改都要走变更流程——不是技术上改不了，是程序上要经过层层审批。

DB Lock 通常发生在所有受试者完成随访、数据清理收尾、锁库前评审通过之后。锁库之后，统计师拉闸开始最终分析，生成临床研究报告（CSR）。

“锁库之后还能改数据吗？”

能。但不叫"改”，叫"走变更流程"。物理上数据还是可以动的，只是每次动都要一群人在审批链上签字。

“什么情况下锁库后必须改？”

SAE 数据录入有误。关键数据录入有误，影响主要终点。还有——面试官给我补了一个场景——监管机构在现场核查时要求更正数据。

这件事我只在书本上瞟到过，面试的时候完全没想起来。坐在对面的面试官不紧不慢地补上了这一刀，我连防御姿势都摆不出来。

写在最后

多中心试验的核心矛盾就一条：控制变异。

中心间差异不会消失——只能通过设计去预防、通过分析去调整、通过监查去发现。脱落是另一个维度的损耗——受试者走了，信息就永远丢了。能做的只是把它写进样本量计算、写进分析计划、写进最后的报告，而不是假装它不存在。承认不确定性，比假装确定诚实得多。