设想一个场景。
你是一个统计师,面前摆着一份 RCT 的 CRF(Case Report Form,病例报告表)。受试者编号 017,按随机表被分到了治疗组。方案说每天一片药,吃六个月。你在随访记录里看到:第二个月开始,017 的依从性(compliance)断崖式下降。药片计数显示他大概只吃了一半。第六个月的时候,他人还在,药已经不怎么碰了。
然后你翻到他的主要终点数据。他的血压降了 15 mmHg。对照组的平均降幅是 8 mmHg。
你怎么办?把他扔进分析里,还是不扔?
这个问题看起来像一道统计题,但它不是。它是一个关于"你到底想说什么"的问题——而你在这一刻的选择,决定了你的结论是一个政策建议,还是一个生物学论断。
ITT:一旦随机,永远分析
ITT 的全称是 Intention-to-Treat。它的定义硬到没有商量余地:
Once randomized, always analyzed.
所有被随机化的受试者,都按他们被分配到的组别进行分析——不管他们有没有接受分配的治疗、有没有违反方案(protocol deviation)、有没有中途退出(withdrawal)。哪怕 017 一颗药都没吃,他在分析中仍然是"治疗组"的一员。
这个原则的完整英文表述值得全文引用:All randomized subjects are analyzed according to the group to which they were randomly assigned, regardless of whether they received the allocated treatment, deviated from the protocol, or withdrew from the study.
翻译成人话:你当初把他随机分到哪一组,数据分析的时候就把他放在哪一组。后面发生的一切——吃不吃药、跑不跑路——都不能改变这个归属。
听起来有点不讲道理。
但它背后有一条统计学的脊梁:随机化(randomization)是推断的根基。ITT 保护的正是随机化所创造的组间可比性(comparability)。把那些不依从的人扔掉,你就打破了随机化——因为不依从(non-adherence)不是随机发生的。扔掉的人不是随机样本,而是有共同特征的一群人。
这个逻辑并不复杂,但它的后果很深。
为什么 ITT 对 superiority trial 是金标准
ITT 对于优效性试验(superiority trial)有一个被广泛接受的定性判断:它是保守的(conservative)。
保守在这里不是贬义词。ITT 的保守意味着:它通常让治疗效果看起来比真实效果更弱。在"证明有效"这场游戏里,让拒绝 $H_0$ 更难,就等于让你的结论更可靠。
直觉解释:017 被分到治疗组,但他没怎么吃药。他的结局——假如治疗真的有效——会更接近对照组而非治疗组。在 ITT 分析里,他拉着治疗组的均值往对照组方向跑。治疗效应被稀释了。p 值变大了。
换个角度看,ITT 做了一个反事实的"劫持":它把所有不依从、不配合、中途退出的噪音全部算在了治疗组头上。如果连这种情况下治疗组仍然显著优于对照组,那这颗药就是真的有东西。
一个治疗连 ITT 都杀不死,你可以信它。
这种保守有三个根源:
-
Preserves randomization(保护随机化结构):ITT 让随机化创造的组间平衡(balance)在分析阶段不被破坏。把不依从者剔除——而他们已经不是随机样本了——就像在建好的房子上拆承重墙。
-
Dilution of treatment effect(稀释治疗效应):ITT 把真实治疗效应往零方向拉,降低了显著性——因此保守。
-
Protects the “policy” interpretation(保护政策解读):ITT 回答的不是"如果人人都乖乖吃药,效果会怎样",而是"如果我们决定把一群患者分配到这个治疗方案上,结果会怎样"。这是真实世界的问题——任何临床实践中都有不依从。
PP:理想条件下的生物学效果
Per-Protocol (PP) 分析的逻辑与 ITT 对立。PP 只纳入那些"完成了研究方案规定的治疗流程,且没有重大方案违背(protocol deviation)“的受试者。
它的完整英文定义:Per-Protocol analysis includes only those participants who completed the study according to the protocol, without major protocol violations.
PP 试图回答一个完全不同的问题:efficacy——在理想条件下,这个治疗的生物学效果是什么?
十七号不吃药,PP 就把他剔除,因为他没有"完成方案规定的治疗”。它想看到的,是那些真正暴露在治疗下的人的反应。
这听起来也很有道理。但 PP 的陷阱,比 ITT 的粗暴更深。
陷阱一:selection bias(选择偏倚)
不依从的人,不是人群中随机撒的一把盐。他们往往更老、更重、合并症更多、社会经济地位更低——换句话说,他们的预后(prognosis)本来就比依从者差。
你把这些人从治疗组里扔掉,留下的是什么人?更年轻、更健康、更能坚持治疗的"优质依从者"。这些人就算不吃你的药,预后也可能更好。
结果:PP 分析里的治疗组不再是原来的治疗组了。它从"被随机分配接受治疗的群体"退化成了"被随机分配 + 愿意且能够完成治疗的那部分群体"。这两个集合的交集,不等于原集合。
陷阱二:confounding(混杂)
依从性(adherence)和预后(prognosis)相关。年龄、疾病严重程度、社会经济地位——这些东西同时影响一个人能不能坚持治疗,也影响他的结局。
因为 PP 把依从性变成了一个选择条件,它重新引入了混杂——而随机化本来就是为了消灭混杂而存在的。PP 解除了随机化的魔法。
陷阱三:reduced sample size and loss of power
扔掉了不依从者,样本量缩小。统计效能(statistical power)降低。你不仅可能引入了偏倚,还让自己更不容易检测到真实的效应。
陷阱四:unknown prognostic factors
你记录了的预后因素还可以调整(adjust)。你没记录的预后因素呢?依从者和不依从者可能在一些你根本没测过、甚至不知道存在的维度上不同。PP 把这些未知维度上的不平衡全部吞进了估计值里。
我这几个陷阱写下来,看起来像是要把 PP 批判一顿。但事情不是非黑即白的——PP 在非劣效性试验(non-inferiority trial)里有完全不同的角色。稍后讲。
mITT:一个危险的妥协
mITT 的全称是 Modified Intention-to-Treat(修正的意向性分析)。它比 ITT 宽容一点:可以排除某些人,但要满足严格的前提。
最常见的一种合法排除:被随机化后,发现不符合入排标准(eligibility criteria)。比如随机化前的妊娠检测假阳性——受试者被随机化了,但后来发现她根本没怀孕。这种情况下把她排除,理由是与随机化后的行为无关——你排除她不是因为她的数据不好看,而是因为她本就不该进来。
mITT 的铁律:排除的理由必须独立于随机化后的行为,且不能与治疗分配相关(即排除决策必须是"随机的"——不是统计意义上的随机,而是说这个排除不应该系统地偏向某一组)。
实际执行中,mITT 经常被滥用。做法很简单:把不符合自己预期的受试者找个理由踢出去,然后说"这是 mITT"。理由不需要多好——“我觉得这个人数据不可靠"“他基线值太高了"“site 质量有问题”——都是可以往会议桌上推的说法。
我这么说可能有点阴谋论。但如果你读过足够多的试验方案和 statistical analysis plan(统计分析计划,SAP),你会发现 mITT 人群的定义在方案里常常写得很模糊。而模糊的定义就像一把软尺——量出来的尺寸是你想要的。
建议:如果在方案里看到 mITT,先翻到人群定义那段。如果排除标准写得不够具体——不是"排除在随机化前确定不符合入排标准的”,而是"排除研究者认为不适合纳入分析的”——那这个 mITT 的可信度就要打个折扣。
Non-inferiority trial 里的惊天反转
到这里为止,我们一直在说 ITT 是保守的。但有一个场景会让这个逻辑完全倒过来。
非劣效性试验(non-inferiority trial)。
非劣效的目的是证明新药不比标准治疗差太多(差在一个预设的界值 margin 以内)。这时候,ITT 的"稀释效应"变成了敌人:依从性差、数据噪音大 → 两组看起来差不多 → 更容易得出"非劣效"的结论。
这是反直觉的。ITT 在 superiority trial 中保守(更难证明有效),在 non-inferiority trial 中却变成了反保守(更容易证明非劣效)。
PP 在这里反转了角色:它成了保守的分析。PP 把噪音和不依从的人扔掉 → 两组"干净"了 → 真正的差异暴露出来 → 如果新药真的差一点,PP 比 ITT 更容易抓住这个信号。
因此,监管部门(以 FDA 和 EMA 为代表)对非劣效性试验通常有一个要求:ITT 和 PP 的结论必须一致(consistent),才认可非劣效结论。
英文表述:Both ITT and PP analyses should support the non-inferiority conclusion.
这不是学术讨论——这句话写在了 ICH E9(Statistical Principles for Clinical Trials)指导原则中。E9 第 5.2.3 节明确指出,非劣效性试验中,ITT 分析和 PP 分析具有同等重要性,因为两者各有局限且在非劣效场景下可能向相反方向偏倚。
我第一次看到这个反转的时候,愣了几秒。同一个统计方法,因为换了试验目的,保守和不保守的角色就互换了。统计不像数学——它不是绝对的,它是跟问题一起移动的坐标系。
“As-Treated"分析:最危险的一条路
As-Treated analysis(按实际治疗分析)是按受试者实际接受的治疗来分组。017 分到了治疗组但没吃药——在 As-Treated 分析里,他可能被算进对照组(因为他实际暴露量接近零)。
这是三种分析方法里最不应该走的一条路。
原因在因果推论(causal inference)的框架下可以被精确表达:实际接受的治疗是一个 post-randomization variable(随机化后变量)。它本身受治疗分配影响——被分到治疗组的人更有可能实际接受治疗。同时,它还受许多与结局相关的因素影响——觉得药物副作用太大的人可能会停药,而这些人本身可能对药物的反应就不一样。
以 post-randomization variable 为条件来做分析,在因果推论中叫 conditioning on a post-treatment variable(条件化在治疗后变量上)。它会引入 collider bias(碰撞偏倚),使得估计出的效应既非因果也非相关,是两者之间的某种扭曲。
说通俗点:你按实际吃了多少药来分组,这件事本身就不是"干净的”。一个人吃了多少药,跟他觉得药有没有用、副作用大不大、医生的态度好不好、自己能不能坚持——都有关。这些东西又跟结局有关。你等于在分析中打开了所有被随机化封住的混淆路径。
As-Treated 分析不应该出现在 primary analysis 中。如果一定想用,只能作为 sensitivity analysis(敏感性分析)——而且是配角中的配角。
报告标准与监管期望
CONSORT 2010(Consolidated Standards of Reporting Trials)流程图是临床试验报告的通用语言。流程图的四个节点——随机化(randomization)→ 分配(allocation)→ 随访(follow-up)→ 分析(analysis)——规定了你必须汇报每一步的受试者流向。
ICH E9 的核心原则之一:分析人群的定义必须在方案和 SAP 中预先指定(pre-specified),不能在看到数据之后才决定用 ITT 还是 PP。这是为了防止 data-driven choice——看到 ITT 不显著了,就临时换 PP 去挖显著。
我自己审方案的时候,如果看到分析人群的定义写得含糊,会画个圈。不是因为我不信任作者——而是因为人看到数据之后的行为,连自己都预测不了。
写在最后
ITT 和 PP 的分歧,说到底是两种"真实"的定义在打架。
ITT 问的是:如果我决定让一群患者接受这个治疗方案,会发生什么?它回答的是政策效果(policy effect)。PP 问的是:如果患者真的接受了这个治疗,会发生什么?它回答的是生物学效果(biological effect)。
这两个问题都是好问题。但 RCT 的随机化结构天然偏向 ITT——因为随机化的对象是"分配治疗方案的意图",而不是"实际接受到的治疗"。后者你随机不了。
所以在随机化的框架内,ITT 是唯一"免费获得"的无偏估计。PP 需要额外的假设才能成立——这些假设(依从者是随机子集、没有未观测混杂)在大多数情况下不会成立。
这不是谁对谁错的问题。这是你站在哪边、以及你愿不愿意为站那边付出的代价买单的问题。
监督当局要求两者都做。不是说它们等价。是说它们各自回答了不同的问题——把两张答卷都交上来,审评员会自己判断。