作为四大临床医学期刊之首,《新英格兰医学杂志》鲜有发表与统计相关的文章。2016年,杂志却破天荒的连续发表了两篇与统计相关的综述性文献——临床试验结束后,“阴性结果”和“阳性结果”该如何解读。虽然文章已经发表了5年,但是不得不说,顶级期刊所发表的文章极具启发性,文章中的很多观点,对后续临床研究结果的解读非常具有帮助。在上期的推送中,笔者将“阴性”临床试验结果的解读全文编译并与读者分享。本期推送“姊妹篇”——“阳性”结果的解读。由于与前文来自同一作者,因此,本文中的例子仍然来自心血管领域。以下为编译全文:
学术界有这样一个倾向,即把临床试验的结论简单的“二选一”化:这是一个阳性的研究吗?为了避免回答这一问题带来的主观性,人们通常会聚焦在预设的研究终点是否达到——也就是通常情况下看P值是否小于0.05。事实上,对一项临床试验细致入微的解释,需要完整的评估研究证据,包括次要研究终点、安全性问题、试验规模及质控等。本文将聚焦于“阳性”临床试验的评估,以促进对临床研究全面深入的解读。同样,相关的研究实例来自于我们擅长的心血管领域,但隐含的道理一体适用。
通常,主要研究终点得到阳性结论是治疗策略得以批准的重要前提,但仅有这一前提还并不足够。研究结果的完整性会接受股票持有者、规则制定者、保险支付者、杂志编辑、审稿人、临床专家、指南学术委员会、床位医生、患者等多方人士的仔细审查。研究结果是否能够改变临床实践,需要对研究结果进行深度解读,并需要得到早期相关临床试验结果的支持。充分考虑以下几个问题有助于判断哪些临床研究结果有可能改变临床实践(表1)。我们也承认,当一项研究发现某种干预手段有害的时候,同样是可能改变临床实践的,当然,此时,对结果的进一步充分验证是必要的。
P=0.05意味着研究有5%的可能得到的是假阳性结果。如果一项临床研究旨在为合理的争议提供非常确凿的证据,P值应当更小,通常P<0.001。PARADIGM-HF研究中,就心血管死亡及心衰所导致的住院组成的复合终点中,沙库比曲缬沙坦片相较于依那普利在左心衰竭的患者中显示了明显获益(P<0.00001),基于此,该药获得批准并在临床应用。与此相反,SAINT I研究则比较了游离自由基捕获药物vs. 安慰剂在缺血性卒中患者中的疗效及安全性,该研究的主要研究终点的P值为0.038,并不是非常强的证据。而更大规模的SAINTII研究则是阴性结果(P=0.33),这导致作者将早期的SAINT I研究定性为阴性结果。除了统计学意义,临床意义同样重要。临床获益需要在相对水平(例如HR值)及绝对水平(例如经过一段时间随访后的事件率等)进行衡量,此外,还需要基于95%可信区间来表征获益的不确定程度。例如,当P值接近0.05的时候,其95%可信区间上限接近1,大于点估计水平。一个经典的例子是来自IMPROVE-IT试验,该研究分析了依泽替米贝vs安慰剂在经过辛伐他汀治疗的急性冠脉综合征患者中的疗效及安全性。在由心血管死亡、心肌梗塞、不稳定性心绞痛、血管重塑及卒中组成的复合终点上,HR=0.94(95% CI,0.89-0.98,P=0.016)。两组7年无事件发生率分别为32.7%和34.7%,仅仅相差2个百分点。尽管这一研究被描述为“阳性”结果,但是,该研究带来的获益可以抵消带来的风险吗?最终,来自FDA的专家顾问会拒绝将“降低心血管”事件写入依泽替米贝的说明书中。在某些情况下,替代终点是可以被接受的(如以糖化血红蛋白的降低来表征糖尿病患者接受降糖治疗的获益)。但是,多项大规模临床研究的结果,对这些替代终点的可行性提出了质疑。例如,在ACCORD研究中,强化治疗较标准治疗降低了患者糖化血红蛋白的水平,但是,患者的死亡率并未下降。相似的,在LIDO研究中,左西孟旦相较于多巴酚丁胺降低了急性心衰患者的糖化血红蛋白水平(主要研究终点),使得某些国家批准了左西孟旦的上市,但是,更大规模的后续临床试验——SURVIVE试验发现,在180天死亡率这一主要研究终点上并无差异(P=0.40),这使得FDA并未批准左西孟旦的上市申请。当基于复合终点得到阳性结果时,必须仔细考虑哪一终点事件驱动了阳性结果的获得。例如,RITA-3研究评估了在急性冠脉综合征的患者中,介入治疗与保守治疗的疗效及安全性,在由4个月时的死亡、心梗、难治性心绞痛组成的复合终点中,介入治疗获得阳性结果(9.6%vs. 14.5%, P = 0.001)。当研究的首次分析数据在欧洲心脏病学会公布的时候,新闻标题是这样拟的:“RITA-3研究:介入拯救生命”——这并不是对结果的正确解读,因为这项研究主要是由于难治性心绞痛驱动得到的阳性结果,至于死亡及心绞痛,短期随访数据看,两种治疗方式之间并无差异。此时,对于这部分患者是否常规给予侵入性治疗策略是有争议的,尤其考虑到他所带来的风险及巨大花费。幸运的是,经过额外5年的随访,介入治疗组的死亡及心梗风险与保守治疗相比,降低22%(P=0.04),而后续的Meta分析也支持在急性冠脉综合征的患者中早期进行介入治疗以改善患者预后。更为典型的例子来自EXPEDITION研究,该研究中,Cariporide与安慰剂相比,在死亡和心梗组成的复合终点方面获得积极的阳性结果,但是研究的阳性结果主要是由心肌梗死的患者驱动的(P =0.000005),死亡风险在Cariporide组甚至更高(P=0.02),这一发现导致Cariporide在这部分患者中的研发被放弃。当预设的次要研究终点同样显示获益的时候,宣称研究为“阳性”的底气会更足;相反,如果次要研究终点未显示有获益,则争议就会随之产生。例如,在SAINT I研究中,其两个次要研究终点均为阴性,这就加剧了对其主要终点宣称为“阳性”的怀疑,而这一质疑也在后续的SAINTII研究中得以证实。相反,EMPA-REG OUTCOME研究比较了恩格列净在糖尿病患者中的疗效及安全性,在由心血管导致的死亡、心梗、卒中组成的复合终点事件中,恩格列净带来的获益处于边界值,HR=0.86(95% CI,0.74-0.99,P=0.04),然而,这一发现主要是由于心血管事件导致的死亡驱动的(HR=0.62,95% CI,0.49-0.77,P<0.001)并进一步在全因死亡分析中得以证实(P<0.001)。因此,恩格列净的治疗效应主要在次要研究终点上观察到,主要研究终点的发现强化了其可信性。不同临床病理特点的患者获益可能并不一致。有时候,不同亚组的患者均观察到获益或者获益的趋势,且在某些高危的亚组中获益更为显著,例如他汀类药物在携带多重心血管风险的患者中,带来的获益更为显著,因此,长期口服他汀类药物进行一级预防仅仅在基线有高危因素的患者中推荐。更有挑战性的问题是“阳性”临床试验在亚组分析中发现,某些患者不能获益。这种结果的解读需要慎重,因为这可能是因为多次亚组分析导致的结果。但是,是否需要采取措施,以保护这些患者免受无效的(有害的)治疗需要更多的研究证实,这取决于证据的统计学级别及是否有合理的生物学依据。例如,PLATO研究探索了替格瑞洛与氯吡格雷相比,在降低急性冠脉综合征患者中,由心血管事件导致的死亡、心梗、卒中组成的主要研究终点的风险,在总体人群中,该风险可减低16%(P<0.001)。然而,在接受高剂量阿司匹林治疗的患者中,接受替格瑞洛治疗的患者,风险提高45%,而接受低剂量阿司匹林治疗的患者中,这一风险降低21%,交互性检验的P值为0.0006。尽管这一结果有待于进一步证实,但是,FDA仍然发出警告,每日超过100mg的高剂量阿司匹林可能降低替格瑞洛的治疗效果,应当予以避免。当一项小型的临床研究主要研究终点得到统计学阳性结果的时候,需要谨慎解读结果。通常,小型临床试验缺乏足够的把握度并夸大治疗效果,因此,假阳性结果也就不可避免。例如,既往一项研究比较了N-乙酰半胱氨酸vs.安慰剂在预防造影剂诱导的肾损伤的有效性,两组分别入组41例和42例患者,并分别有1例和9例患者出现终点事件,HR=0.10(95% CI,0.02-0.90,P =0.01),基于这项临床研究结果,作者宣称N-乙酰半胱氨酸是“预防肾脏损伤的有效手段”,这一结论过于绝对化,更合适的描述应当是N-乙酰半胱氨酸“可能有效”。基于这一发现可能会发起更大规模的临床研究。遗憾的是,后续纳入10项随机对照研究、1916例患者的Meta分析发现,相关研究证据级别较弱且异质性很强,难以支持N-乙酰半胱氨酸的应用。若一项临床试验显示了压倒性优势,通常会被提前终止,不幸的是,这一操作通常可能扩大疗效。随着试验的进行,两组实际的治疗效应可能会有相应的改变。如果中期分析是基于高度可能的获益迹象做出的,则可能达到提前终止的标准并说服独立数据监察委员会新的治疗策略存在巨大获益。此外,早期终止临床试验可能会降低重要次要研究终点(如安全性)的质量。典型例子来自于SPRINT研究,该研究旨在评估强化血压控制相较于标准血压控制能否给患者带来额外获益。研究以心肌梗塞、急性冠脉综合征、卒中、心衰、心血管死亡作为复合终点。研究预期随访5年,但是,经过中位3.26年的随访后,研究被提前终止,主要研究终点的HR值为0.75 (95%CI,0.64-0.89,P<0.001)。该研究以难以置信的速度发表——从首次数据公布到最终接受仅用时4周。任何中期分析的数据,在完整性和质量方面都不可避免的存在一些缺陷——主要研究终点的发现未被最终确认。研究被提前终止的时候就是疗效被提前夸大的时候。提前报道不完整的数据通常并不是明智的做法。当一种治疗手段可以带来显著获益的时候,需要考虑的一个问题就是研究带来的获益会被安全性问题抵消吗?研究需要提供充分的数据以证明风险与获益是匹配的。临床获益人群与暴露于风险中的人群比较,可提供净获益人群的信息。例如,在DAPT试验中,与单药阿司匹林相比,给予额外18个月的双抗治疗,可将接受药物洗脱支架植入治疗患者的心脑血管事件及支架内血栓发生的风险分别降低1.6%和1.0%,但是,这一获益的代价是大出血风险增加。根据GUSTO标准,双抗组患者中-重度出血的比例较阿司匹林组提高0.9%,而根据BARC标准,需要医学干预的出血风险增加2.7%,全因死亡风险增加0.5%(P=0.05),这主要是因为非心血管死亡增加。随之而来的争议就是:延长这部分患者双抗的治疗时间到底是有益的还是有害的?SPRINT研究同样有这样的问题,在该研究中,经过3.26年的随访后,接受强化降压的患者,其心血管事件及死亡分别降低1.6个和1.2个百分点,但是,需要同时考虑的是,患者低血压、晕厥及急性肾损伤的发生率分别提高1.4、1.1和1.8个百分点。尽管这些差异均具有统计学意义,但绝对差值都不大。因此,指南专家委员会、主治医生及患者均面临选择哪种治疗方案的挑战。(这一部分内容原作者到底想表达何意思,笔者也没有完全搞明白,只是针对字面意思进行翻译,感兴趣的读者可自行阅读原文)。治疗方案多带来的净获益应当是患者特异性的——也就是说,针对那些有多重危险因素的患者,治疗是值得的,但是,就出现不良反应的患者而言,治疗是有害的。目前,并没有简单直接的办法对患者的风险及获益进行衡量,建立统计模型可能有帮助。在DAPT试验中,研究者建立了多因素模型来预测患者出现心梗、支架内血栓或大出血的风险,除了用来解释抗血小板治疗的持续时长,这一模型还被用来预测患者出现缺血及出血事件的风险。但是,这一模型的缺点是某些公认的与出血或者缺血有关的变量缺失、缺乏外部验证等。但是,这一方法仍然代表了探索个体化治疗的方式。主要研究结果高度显著与研究结果被充分证实并排除是偶然因素导致的阳性发现,两者之间还有很长的一段路要走。在承认研究带来的临床获益之前,设计及执行阶段的偏倚需要被充分考虑。例如,第一个研究肾脏去神经疗效在难治性高血压患者中的疗效的研究——SYMPLICITYHTN-2研究发现,6个月时,实验组收缩压较对照组显著降低,但是,研究的非盲法设计是一个大问题。在后续盲法设计的SYMPLICITYHTN-3研究中,肾脏去神经治疗似乎是无效的,这也强调了非盲法设计的临床试验在一定程度上的不可靠性。研究的完整性及治疗遭到破坏,同样可能导致试验的可信度下降。并非所有的患者都严格按照研究方案接受治疗,部分患者在后续随访的过程中可能会撤销知情同意。我们需要考虑的是方案违背及撤销知情在多大程度上影响研究的可靠性。例如,在ATLASACS 2–TIMI 51研究中,利伐沙班相较于安慰剂在急性冠脉综合征的患者中,在心血管死亡、心梗及卒中组成的主要研究终点上显示了获益,但是,研究中,27.6%的患者永久性终止治疗,7.2%的患者生命体征数据缺失——这就引入了额外的不确定性。数据缺失问题在该研究中尤其明显,这也导致了FDA拒绝批准利伐沙班在该适应症上的应用。严格来说,任何一项临床试验的结果仅仅适用于与纳入临床试验特点一致的患者。研究结论是否可以外推到其他患者中需要进一步考虑。例如,在SPRINT研究中,研究者排除了年龄小于50周岁、有糖尿病病史或者有卒中病史的患者,因此,在真实的临床实践中,该研究结果仅仅适用于约20%左右的高血压患者。而ACCORD研究中,研究者仅仅排除了II型糖尿病的患者,并认为强化降压与标准治疗相比,主要结局无差异。到底是患者临床病理特点的差异,还是由于治疗方案、研究方法的差异导致了两研究结果的差异,目前尚不清楚。地理区域的代表性同样影响到研究结论的普适性。很多大型临床研究都是国际多中心的,这有助于将治疗方案推向全球,但是不同地域的健康照护可能存在差异,如果患者招募主要集中在某个局部地区,那么治疗策略向全球推广可能就不适合。此外,遗传背景、解剖、环境及饮食因素的差异都可能使结论的外推受到一定的影响。相似的,来自单中心的结果需要被审慎的解读,中心特异效应——如特有的照护方式及治疗手段,可能使得结论的外推受到一定的影响,此外,单中心临床研究通常缺乏充分的质控。即使经过合理样本含量计算的单中心临床研究,也很难成为改变指南的基础,除非这一发现被后续多中心临床研究证实。例如,纳入1071例患者的单中心的TAPAS研究显示,PCI后给予阿司匹林相较于传统PCI可大幅降低患者死亡风险(HR=0.60;95% CI,0.36-0.98,P=0.04),现在回过头来看,这一结果可能并不是那么可信,但是,这一研究结果导致了阿司匹林广泛应用了很多年。两项纳入17000例患者的多中心临床研究已经证实,阿司匹林的应用并未给患者带来获益。最后,当一项临床试验获得长期结果时,基于此得到的治疗方案的进步可能与当前治疗手段的相关性并不是那么高。例如,在SYNTAX和FREEDOM研究中,左主干及多支病变的患者被随机分为搭桥或者接受一代药物洗脱支架治疗,但是,当前的药物洗脱支架与一代相比已经有了很大的提高,这就使得该研究结果的实用性大打折扣。P小于0.05只是一项“阳性”临床试验最基本的要求,需要对其研究结果及研究过程进行全面、细致的审查。研究数据到底是为医学实践提供了充分的证据还是要被审慎解读并需要被进一步证实,需要结合所有可获得的证据进行仔细考虑。如果一项临床试验的疗效及安全性数据均令人信服,那么下一步要做的就是评估研究质量并进行内部验证,并且还要考虑在真实世界中是否同样有效。我们基于登记数据等非随机数据进行验证时,数据的解读需要谨慎,因为这部分数据可能存在选择偏倚及潜在的混杂变量。此外,在不同的支付体系下,这一治疗策略是否符合卫生经济学原则也会决定该治疗会在多大程度上在临床应用。对于一款新药而言,能否使监管部门满意并获得药物批准上市取决于证据的完整性,通常,监管部门会要求充分说明药物的安全性问题,而药物是否上市则取决于申办方是否愿意承担额外的安全性研究。制定指南的学术委员会在整合这些研究结果并作出不同级别的推荐方面发挥了重要作用,他们的推荐与否会直接影响临床实践。但是,对于研究结果、指南推荐的最终决定权却掌握在临床医生手中,在综合考虑后为患者作出最终的治疗决策。