查看原文
其他

阿尔茨海默新药批准的误解:听听参与审评的王亚宁博士怎么说

识林 2022-09-21

The following article is from 研发客 Author 储旻华 研发客

过去一年中,识林对在美国获批的首个阿尔茨海默新药 Aduhelm(aducanumab)进行了跟踪报道,从专家会意见,FDA 的批准决定及说明,到专家成员反对批准而辞职、众议院对批准的质询以及联邦监察机构的审查行动,这个药聚焦了各界对其的希望、失望、赞扬与批评。FDA 也先后公布了详细的审评资料和决策备忘录,以期通过透明度让公众得以了解批准背后的考量。

但纸上的文字终让人有距离感,下面我们通过前 FDA 药品审评与研究中心(CDER)临床药理审评部定量药理学审评室主任王亚宁博士的讲述,看看他作为该药审评的亲历者,对 Aduhelm 审批的观察和对公众质疑的说明。

感谢研发客和原文作者储旻华老师的精彩撰文和分享。


- 在王亚宁博士看来,渤健所做出的停止研究的决策是错误的。究其原因,是决策所依据的两个假设并不成立。


- 综合所有数据,即使只依赖于临床终点,也有足够的证据证明药物的有效性。
- FDA临床药理部定量药理审评室与临床审评部门合作收集了同样靶向于β淀粉样蛋白的其他单抗药物的数据进行了分析,清楚地揭示了此前针对β淀粉样蛋白药物失败的原因:β淀粉样蛋白的降低程度不够。

“希望能够通过对数据的更客观的评价,消除对aducanumab批准的一些误解”,“在我看来,他们(FDA  aducanumab审评小组的专家们)是一群英雄,他们顶住了各方面的压力,把一个有效的药物及时推向市场,让千百万病人获益。”
在上海国际生物医药产业周众多论坛之一的“长三角峰会:生物医药研发的创新策源”上,武汉朗来科技公司的CEO王亚宁博士在演讲伊始就亮出了他的观点。
王亚宁博士一个多月前刚刚从美国FDA药品审评研究中心(CDER)临床药理审评部定量药理学审评室主任的位置上离职。对于能够有幸参与到aducanumab的审评工作,他感到非常自豪,“可以毫不夸张地说,这个案例是我在(FDA)18年的职业生涯中影响力最大,而且让我感到最自豪和骄傲的案例之一。”
几乎很少有哪个药物的批准会引起如此大的争议。今年6月,在之前外部咨询委员会(AdCom)专家一边倒地投票反对批准的情况下,FDA仍然决定给予aducanumab有条件批准,使其成为自2003年以来首个被批准用于阿尔兹海默症的新型疗法。
自此,关于aducanumab审批的争议就没有停止过。药物批准后不久,三位FDA周围和中枢神经系统咨询委员会的专家就以宣布退出咨询委员会的激烈方式表示了他们对批准决定的不满。非营利组织Public Citizen随后致信美国HHS部长,认为该药的审评过程“破坏了FDA审评新药的标准”,并要求FDA的高级官员立即离职
6月22日,处在舆论漩涡中心的FDA公开了长达83页的备忘录,详细说明了支持aducanumab批准的证据和审批过程。一周后,又发布了包括临床药理学(147 页)、医学(392 页)和统计(113 页),共计超过 650 页的审评文件。
然而,文件公开后,情况并未改观。7月初,药物开发商渤健公司宣布缩小aducanumab使用范围,限定为轻度症状的患者,这也是药物临床试验的研究人群。但是,出于对药物疗效的担忧,多家美国知名的大型医疗中心选择不使用该药。争议之下,药物的销售额也非常低迷。6月初获批后至当月底,aducanumab的销售额仅为160万美元,远低于之前预测的320万美元。
为何一款药物的获批会引起如此大的争议?FDA果真在审评中降低了一贯的新药审评标准吗?王亚宁博士通过对FDA审评报告数据的分析,就公众对审评的疑问进行了详细的说明。

审评为何基于已经停止研究的数据?


完成了II期研究后,在与FDA沟通的基础上,渤健于2015年下半年几乎同时启动了两项大型III期研究301和302。2019年3月,中期无效性分析结果显示,研究不大可能达到预定的研究终点,因此渤健选择停止研究。


但随后,在对数据的进一步分析中,渤健发现,已获得的数据有很强的信号显示,药物可能有效。因此,当年6月,企业与FDA召开了沟通会议,FDA建议渤健对数据进行更进一步的详细分析。
四个月后,FDA在看到了初步结果后表示,渤健应当提交所有资料启动正式新生物药上市申请(Biologics License Application,BLA)。据王亚宁博士介绍,2020年7月,渤健完成了所有的审评资料的提交。但是,原定八个月内完成的加速审评,因为2020年11月的专家委员会负面的投票结果以及渤健在专家委员会后提交的更多资料而被推迟。在此期间,FDA在充分听取专家委员会反馈意见后,补做了大量额外的数据收集和分析。之后经过多次内部会议,直到2021年6月FDA才做出有条件批准的决定,渤健在药品上市后还需要开展验证性临床研究。
据王亚宁博士介绍,渤健的中期无效性分析是基于两个假设进行的:一是301和302两项研究的结果相似,二是中期分析的试验结果与将来的结果相似。
结果发现,以临床痴呆评定量表(CDR-SB)为终点,除了301研究的高剂量组外,其余三组分析均显示了临床改善(变化为负值)。而301研究高剂量组数据的“意外”直接导致了基于假设所计算得出的成功概率值非常低,渤健因此做出了停止研发的决定。


在王亚宁博士看来,渤健所做出的停止研究的决策是错误的。究其原因,是决策所依据的两个假设并不成立。不仅301和302两项研究的结果并不相似,而且随着研究的继续进行,后续301研究的高剂量组的结果也越来越与其他组靠拢,显示出改善的趋势。

互相矛盾的两个研究结果?


aducanumab的批准备受质疑的另一个关键点在于,渤健之后对更大数据集的重新分析结果显示,虽然302研究显示出基于量表的病情改善,但301研究的结果显示,与安慰剂相比,接受高剂量aducanumab治疗的患者病情平均指标没有改善反而有轻微的恶化。
渤健公司对此的解释是,研究结果的不同主要是由于301研究的高剂量组一开始的ApoE ε4阳性患者只用到6mg/kg而不是10mg/kg的剂量以及高剂量组中有更多的“病情快速进展人群”。
但这样的解释显然不能让公众信服。王亚宁博士在演讲中给出了更多的证据。
首先,对2019年3月停止研究前的完整数据分析可以看出,虽然301研究高剂量组在CDR-SB和简易精神状态检查量表(MMSE)这两个评价指标上未能显示出疾病的改善,但是在认知量表(ADAS-Cog13)和日常生活活动量表(ADCS-ADL-MCI)这两个过去曾被用作主要临床终点批准其他阿尔兹海默症药物的评价指标上显示出积极的改善。而且,哪怕是结果不佳的CDR-SB评分,与之前的中期分析结果相比,完整数据集也呈现出变好的趋势。同时,低剂量组在301和302多个临床终点的数据显示高度一致性。虽然没有达到统计学意义,但试验结果整体上支持药物减缓了疾病的进程。所以301和302结果只是有部分不一致性。


另一方面,王亚宁博士介绍,渤健在设计301和302研究时(两个研究设计相同),将阿尔兹海默症患者基于载脂蛋白E(ApoE)ε4基因变异情况给予不同的剂量。在高剂量组中,刚开始ApoE ε4阴性的患者剂量可达到10mg/kg,ApoE ε4阳性的患者为6mg/kg。但在之后的研究中,渤健发现,ApoE ε4阳性的患者只要控制剂量爬坡速度,可以在给与更高剂量的同时,很好地控制不良事件(AE)。
因此,在研究进行到差不多一半的时候,渤健进行了一次重要的研究方案修订,将高剂量组ApoE ε4阳性的患者给药剂量调整到更高水平(10mg/kg),即第四版方案(PV4)。整个研究基于此分为第四版方案修订前(Pre-PV4)和修订后(Post-PV4)两个重要的时间节段。
FDA临床药理审评部对渤健在研究中所收集的患者血药浓度和临床疗效相关性的分析显示,不论是301还是302研究,均呈现出明显的量效关系,用药组均相对于安慰剂组有显著的疾病改善,且高剂量组的改善优于低剂量组。不过,从改善的程度而言,301研究的结果明显不如302研究。
进一步按照Pre-PV4和Post-PV4两个时间节段进行分析后发现,以CDR-SB终点指标为例,301研究中的高剂量组在Pre-PV4时未达到疾病改善,但Post-PV4时则结果与302研究相似。王亚宁博士还分别展示了在其他的疾病终点指标上定量药理的分析结果,也都呈现出同样的趋势。


除了基于定量药理的分析方法,王亚宁博士还从基于统计分析方法的角度进行了同样的论证。301研究中的高剂量组的失败完全是受Pre-PV4数据的驱使,而301研究中高剂量组的Post-PV4数据与302研究完全一致。如果将所有研究中所有剂量以及所有时间点的数据放在一起综合分析,对于CDR-SB终点,13组数据中唯一不支持药物疗效的就是301研究中高剂量组的Pre-PV4数据(下图红框),而其他所有数据都支持药物的有效性。王亚宁博士还分别展示了在其他的疾病终点指标上的分析结果,也都呈现出同样的规律。


为什么301研究高剂量组的Pre-PV4的数据会出现如此大的差异?
王亚宁博士表示,一方面可能是因为研究的前半部分因剂量过低而导致结果不佳,而随机分组时又恰好将病情进展快,较为严重的患者分到了301研究的高剂量组。另一方面,从统计学的二类错误(即对一个有效药物进行多次验证比如多剂量、多试验、多人群、多时间点时,允许一定比例的失败出现)的角度来看,王亚宁博士认为,这个偏差值的出现可以解释为典型的二类错误。
因此,王亚宁博士称,不论从定量药理学,还是从统计学的角度,都能解释301和302研究部分不同的结果。事实上,如果综合考虑所有证据(四个临床终点,两个剂量,三个时间点),301和302研究结果的一致性远大于不一致性,而且基于临床终点就能很好地证明药物的疗效。

β淀粉蛋白能否作为替代终点?


根据FDA的说法,批准aducanumab是基于减少大脑中β淀粉样斑块这一替代终点,并称“有理由相信药物会带来临床获益"。FDA还指出,渤健的研究首次证明,减少这些斑块会减缓临床症状。
然而,之前众多旨在降低β淀粉样蛋白的药物无一例外都在临床开发中折戟。而且,虽然有些药物的确显示出有统计学意义的β淀粉样蛋白降低,但却并没有达到临床症状的改善。因此,能否基于β淀粉样蛋白这一替代终点进行批准受到了广泛的挑战。
在专家审评会上,渤健展示了下图右侧的结果。当把几项研究(301、302,以及II期103研究)的所有给药组的结果(相对于安慰剂组的变化)放在一起看,可以看到,整体上说,aducanumab的症状改善(通过CDR-SB评估)和SUVr(β淀粉样蛋白的标准摄取值比值)呈现线性关系。


王亚宁博士进一步说明,由于并非全部受试者都有影像数据(SUVr),可用于分析的每个亚组人群只有100多人(301和302研究),而且其中80%左右是Pre-PV4的患者。这也就解释了在这个分析中,301研究高剂量组数据特别差,甚至不如安慰剂。
因此,王亚宁博士表示,上图清晰地反映出301研究的高剂量组是一组偏离了正常的异常结果。
那么,为什么之前同样针对β淀粉样蛋白的药物都失败了呢?
据王亚宁博士介绍,FDA临床药理部定量药理审评室与临床审评部门合作收集了同样靶向于β淀粉样蛋白的其他单抗药物的数据进行了分析。这些在研或者被终止的药物必须是开展了大型随机双盲研究,持续一年以上,且同时具有临床症状和β淀粉样蛋白的影像学数据。


其中,三款药物(见上图绿框)基于临床终点有比较大的改善。除了已经获批的aducanumab,BAN2401也是渤健和卫材合作开发的药物,另一款礼来的donanemab近期也有意基于β淀粉样蛋白这一替代终点向FDA提交上市申请。
此外,罗氏的gantenerumab(见上图蓝框)之前宣布两项大型III期研究均告失败。不过,这款药物的研发并未停止。王亚宁博士介绍,该公司进一步的分析显示,之前临床结果不佳是因为药物的剂量过低,以至于对β淀粉样蛋白的影响不够,所以接下来,罗氏将药物剂量增加了10倍继续研究。
剩下的三款药物(见上图红框)在III期研究失败后,彻底终止了研发。
将这些药物的临床(CDR-SB)和β淀粉样蛋白(SUVr)数据整合起来可以看到,尽管这些化合物完全不同,但它们所呈现的β淀粉样蛋白和临床症状的改善之间的关系与aducanumab非常相似,这是定量药理学领域常见的不依赖于具体药物的生物标记物和临床终点的广谱定量关系。
而且,因临床疗效不佳而停止研究的三款药物以及罗氏的gantenerumab在减少β淀粉样蛋白上明显不如aducanumab和BAN2401,与安慰剂相比,用药组的SUVr值的降低均小于0.1个单位。王亚宁博士认为,这个分析很清楚地揭示了这些药物失败的原因:β淀粉样蛋白的降低程度不够。


302研究假阳性的概率是多少


据王亚宁博士回顾,2020年11月的专家委员会由于新冠疫情改为网上会议,FDA临床和统计部门事先录制好的报告在会前就上传到FDA官网供专家和公众会前观看和研究,会议当天由于时间紧张没有安排播放这两个报告,而代表FDA的临床部长Billy Dunn的口头报告被外界解读为只强调了有利于药物的信息。
众所周知,录制好的FDA临床部门的报告(支持批准)和统计部门的报告(不支持批准)是完全相反的意见。虽然所有专家委员会公开的背景资料以及录制的报告都包括了FDA统计部门的不同意见,参会专家依然认为FDA只呈现了对药物有利的信息,或者相信302研究结果代表了真相(药物有效)而一味地解释301为什么不应该出现阴性的结果。所以一位专家在会上向FDA提出要求,如果假设301研究结果(药物无效)代表真相,出现302阳性结果的概率有多大。为了回答这个问题,FDA临床药理部定量药理审评室设计了一项虚拟临床试验。
虚拟研究从aducanumab相关研究的安慰剂组中提取数据,随机分配到安慰剂、低剂量和高剂量组,观察出现302研究的阳性结果的概率。为了保持数据之间的关联性,数据包括有四个随访点(0、26、50和78周)时所有临床终点的数据。
王亚宁博士告诉大家,将所有数据综合起来,结合考虑4个临床终点,即CDR-SB、MMSE、ADAS-Cog13和ADCS-ADL-MCI,最终发现,302研究出现假阳性结果的概率小于千万分之一。哪怕是因为各种原因导致结果不佳的301研究,假阳性概率也只有万分之一,这是因为其中还是包括了75%左右的阳性数据。连样本量很小的103研究出现假阳性的概率也只有万分之一。如果真相是药物无效,完全由于随机原因能同时得到三个临床试验中观测到的阳性数据的概率几乎是零,进一步间接证明了药物的有效性。

评价量表数值的降低有临床意义吗?


有一些专家认为,CDR-SB的范围在0~18之间,因此相对于安慰剂至少需要改善1~2个单位才能证明药物的确导致了临床意义的改善。
对于这种说法,王亚宁博士认为,这些专家并没有理解301和302研究的设计,以及轻度症状的阿尔兹海默症患者的情况。从研究数据来看,安慰剂组的轻度患者,经过78周后,CDR-SB平均值只恶化了1.5~1.7个单位。以此作为基准数值,302研究高剂量组相对于安慰剂组减少CDR-SB恶化的值为0.39,这一数值相对于安慰剂(以1.6计算)达到了25%的改善,与试验预定的改善比例完全一致。而这25%的改善是FDA和渤健在三期试验设计阶段就达成的共识,并通过了FDA最高级别的特殊试验方案评价(Special Protocol Assessment, SPA)。

来自FDA统计部门的反对意见


尽管FDA的临床和临床药理部门支持aducanumab的批准,但统计部门却始终持反对意见,这一观点,尤其是FDA统计团队在外部咨询委员会资料里呈现的数据和报告也客观上影响到了最后外部专家的决定。那么,统计部门反对的的原因是什么呢?
王亚宁博士告诉大家,统计团队反对的理由主要有三个:一是302研究是假阳性结果,是因为安慰剂组患者病情的恶化造成;二是SUVr和CDR-SB之间没有关系;三是主要终点CDR-SB的改善在低剂量组中未达到p值<0.05的统计学意义阈值,因此高剂量另外3个次要终点的具有统计学意义的结果不应视为有意义。
“这里面犯了很多错误。”王亚宁博士表示,并逐项予以澄清。
首先,统计团队为了证明302研究是假阳性结果而展示给外部专家团队的图表数据是错误的。


上图是ApoE ε4阳性患者的结果,而最下面标有“overall”的数字是包括有ApoE ε4阳性和阴性所有患者的数据,并不对应,而且数据的摆放出现了错误。
以上图中,302研究中,比较Pre-PV4和Post-PV4时段的亚组,安慰剂组的CDR-SB值从1.51变为1.75,增加了0.24;而高剂量组从1.17变为1.25,只增加了0.08,高剂量组和安慰剂组之间的差距变大。因此统计团队认为,安慰剂组的恶化是造成结果阳性的原因,因此302研究是假阳性结果。
但事实上,王亚宁博士解释说,统计团队放错了数据,302研究中低剂量组和高剂量组的Post-PV4的数据(1.37和1.25)放反了。正确的数据应该是低剂量组为1.25而高剂量组为1.37。把数据改正后可以发现,高剂量组与安慰剂组从Pre-PV4到Post-PV4的CDR-SB数值改变情况符合随机分组,所以不论是Pre-PV4(1.17-1.51=-0.34)还是Post-PV4阶段(1.37-1.75=-0.38),高剂量组与安慰剂组之间的差值是一致的。
为了能放大“安慰剂组恶化”的信号,统计团队只选用了ApoE ε4阳性患者亚组的结果作图。在上图中,302研究中从Pre-PV4到Post-PV4,安慰剂组的CDR-SB值在78周时增加了0.6(图中黑色箭头所指之处),而高剂量组完全没变,比“overall”的结果提供了更强的证据来支持“安慰剂组的恶化造成结果阳性”的结论。
但是定量药理团队在分析数据过程中发现上图根本无法重现,正确的图(下图右下角小图)显示高剂量组从Pre-PV4到Post-PV4的CDR-SB值也增加了相当的幅度,所以高剂量组与安慰剂组之间的差值不论是Pre-PV4还是Post-PV4阶段都是一致的,符合随机分组的预期。在跟统计团队交流结果的过程才发现,上图是基于早期还没有完全核查的数据而不是最终的应该用于审评的可靠数据。而“overall”的结果(尽管把302研究中高剂量组和低剂量组的Post-PV4的数据放反了)却是基于正确的数据集。也就是说,上图中的图示结果和“overall”的结果使用的数据集都不一致。

注:APOE=N代表ApoE ε4阴性患者,APOE=Y代表ApoE ε4阳性患者,dose=0代表安慰剂组,dose=1代表低剂量组,dose=2代表高剂量组。


第二,在证明SUVr和CDR-SB的降低之间不存在关系这一论点时,统计团队并没有选取基于随机分组后的组间群体平均值进行分析,而是只使用了301和302研究中的高剂量组的个体数据做了单变量回归分析。由于每个个体患者本身的病情不同存在多个混杂因素的影响,在王亚宁博士看来,这一错误的分析方法导致明显的正相关的线性关系完全消失甚至出现负相关。这类错误是定量药理领域高度警惕要避免的常见错误。
对于统计团队提出的最后一个理由,王亚宁博士认为,这是FDA统计团队对渤健公司统计分析方法的误解。在专家委员会后,渤健公司针对FDA统计团队对统计分析方法的误解提交了额外的材料,对统计分析方法的正确理解进行了详细解释并辅以图解。而且同样的统计分析方法在以往的新药审批过程中已经被FDA统计团队接受使用过并没有产生误解。
上述对FDA统计团队方法学的质疑详细信息见FDA临床药理审评报告(134-143页):https://www.accessdata.fda.gov/drugsatfda_docs/nda/2021/761178Orig1s000ClinPharm_Redacted.pdf
本文经王亚宁博士亲自校对审阅,特此感谢!

撰文 | 储旻华
编辑 版式 | 姚嘉


总第1430期
访问研发客网站可浏览更多文章
www.PharmaDJ.com

【关于识林 - 常见问题与解答】


长按下方二维码下载识林®App

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存