峰瑞报告23:穿越“死亡之谷”:小分子新药研发的系统性新机会
从2020年开始,生物医药领域的we too现状引发了全行业的反思和讨论。不久前,一篇《中国创新药往事》的报道娓娓道出了过去18年的跌宕起伏。一边是2018年傅新元教授摆擂台百万美金悬赏(寻找满足五条标准的创新药)至今仍回想耳畔,一边是梁贵柏博士《到底该不该Me-Too?》的灵魂拷问。
要知道,任何领域知识成果的商业转化,都面临穿越“死亡之谷(valley of death)”的挑战,对新药研发来说更是如此。当仿制创新红利不再,中国生物医药产业将不得不共同面对“死亡之谷”。
在本篇报告,我们将从不同的视角分析梳理临床前小分子新药研发的历史机遇,以及具体到中国语境,为什么当下是新药研发创新的好时机,什么样的企业能抓住机会。
进入正文前,先分享几个主要观点:
穿越“死亡之谷”是原创新药研发需要面对的巨大挑战。 穿越“死亡之谷”的核心是低成本快速试错。 新工具、新算法、新技术,正在赋能研发流程中所有的DMTA(Design-Make-Test-Analyse)循环。 当下中国新药研发行业迎来了系统性新机会。 无论做产品还是做服务,好企业要在核心技术上有不断迭代的能力。
穿越“死亡之谷”:小分子新药研发的系统性新机会
文 / 王一恺
邮箱 / wang_yikai@keenthera.com
/ 01 /
“死亡之谷”隐喻的历史渊源
“我虽然行过死荫的幽谷(the valley of the shadow of death),也不怕遭害,因为你与我同在,你的杖、你的竿都安慰我。”
这句话出自《诗篇》第23篇,是对世界的一种隐喻。意味着作为人类体验的一部分,尽管黑暗和死亡是必经之谷,却因神的慈爱和保守而平安。因其丰富的内涵和寓意,“valley of death”这个短语出现在诸多文学艺术作品之中。
1991年,在Mohawk Research Corporation给美国能源部下属阿贡国家实验室的一份报告中,第一次将这个概念应用于创新过程中,借以描述从产品原型到市场化之间的资金缺口。1998年,一份名为《解锁我们的未来:迈向新的国家科学政策》的众议院科学委员会报告,用“死亡之谷”来比喻基础研究和产品开发之间的资金短缺,并指出由于政府支出的有限性和产业投入的短期逐利性,这个缺口在逐渐扩大。
虽然一开始“死亡之谷”被认为是企业自己的事儿,但在生物医药领域,由于其投入大、周期长、失败率高等行业属性,一直就有关于公共部门如何参与填补资金缺口的讨论。2008年《自然》杂志资深记者Declan Butler以《穿越“死亡之谷”》为题发表署名文章,指出生物医学研究人员和患者之间出现了鸿沟,呼吁美国国立卫生研究院(NIH)从理念、政策导向、资金支持等方面进行调整甚至变革,来支持从实验室到临床并能最终惠及患者的转化研究。
具体而言,从靶标确立到人体概念验证(IIa期临床)通常被定义为转化研究,也就是新药研发中的“死亡之谷”。
政府主导穿越“死亡之谷”的一次重要尝试,则发生在2003年,虽然当时并没有提到这个隐喻。在Elias A. Zerhouni博士担任NIH主任后不久,就召集来自美国学术机构、政府部门和私人团体的300多名生物医学权威人士,针对医学转化研究进行了一年多的讨论,于2003年10月1日公布了一个通向生命科学未来的“中长期发展规划”——国立卫生研究院路线图(NIH Roadmap),计划用5年时间,投入数十亿美金,在原始创新的新路径、未来的研究团队和临床医学研究体系的重建等方面着力,加速基础医学研究成果向临床应用的转化。
在公共部门加大对转化研究的支持以穿越“死亡之谷”的同时,制药公司也在进行广泛而深入的探索努力。1998年GlaxoWellcome(GSK前身)启动了一个加速项目,计划用7年时间完成从药物化学到新药上市全流程。这个项目将先导化合物优化过程压缩到12个月时间。之所以能如此乐观,是因为当时正处在组合化学和固相化学的风口上,大家认为只要能应用这些新技术,临床前药物研发的效率就可以进入新时代。
GlaxoWellcome的研发人员在2001年底把探索过程中遇到的挑战公开发表,以期引起全行业的关注、共情和讨论。作为一次大胆尝试,无论是否找到可推广的新模式,当时的思考都非常具有代表性。即使是在20年后的今天,穿越“死亡之谷”也依然是我们要面对和解决的主要问题。
/ 02 /
什么是穿越“死亡之谷”的核心?
药物研发是一门试验科学,从千千万万个分子中挑出一个能解决某种人类疾病的分子,无异于大海捞针。除了政府加大投入支持转化研究以外,有什么新的机遇来改变这一现状?到底什么才是穿越“死亡之谷”的核心?在中国做新药有没有优势?
让我们来回顾一下2001年GlaxoWellcome在那次项目加速试验中发现的问题。总结起来,主要有四个方面:第一个是循环周期(包括更短时间、平行测试、提早考虑成药性质),第二个是有机合成(包括可合成性、资源分配、化合物管理),第三个是数据(大量数据的处理和解读),第四个是人的因素(包括压力应对、激励机制和人员管理)。除了人的因素以外,前三个方面都涉及到所谓的Design-Make-Test-Analyse循环。
从2007年开始,以阿斯利康、BMS等为代表的药企,开始将Lean Six Sigma概念应用到临床前药物研发当中。2008年,苏黎世联邦理工学院的Ullman和Boutellier教授,就提出将设计、合成、测试和解释结果的反馈循环用于构效关系的优化,这应该是DMTA的雏形。2009年,阿斯利康第一次将先导化合物优化拆解为含有design(设计,D)、make(制造,M)、test(测试,T)、analyse(分析,A)四个步骤的循环。
阿斯利康最先从make(涉及到化合物的合成、分离纯化和分析表征)这一步开始优化,比如更好的合成计划、进展追踪、大幅缩短分离纯化时间等等,可以把平均交货时间(从确定目标分子到交付生物活性测试)从23天缩短到13天。
2012年,在make环节的基础上,阿斯利康分享了其他3个环节的改进措施以及全流程优化后的结果。概括来说,主要的改进分别是:加强对“设计”的多学科投入,在“制造”中增加知识的应用来缩短周期,在“测试”中确保十个工作日内平行地提供相关数据结果,并在“分析”中最大化学习效率。经过几年的实践和迭代,一个DMTA循环平均周期缩短了46%,进入安全评价阶段候选化合物的平均成本降低了一半以上。
我们把新药研发中的“死亡之谷”再细分一下,可以分为临床前研发和早期临床研究两个阶段。临床前研究又包含靶点的确立和验证、苗头化合物设计和发现、成药性质优化等3个主要环节,后两个环节离不开有机合成。如下图所示,除了前面提到的阿斯利康成药性质优化(先导化合物优化)是DMTA,其他2个环节和有机合成本身都符合DMTA的循环思路。当然,后两个环节需要以有机合成为基础。
其实不只是临床前,早期临床研究就是在人体上test,这个试错过程从本质上和临床前各个阶段没有太大区别。只是到了这个时候,除了一两个备选分子以外,从头再转一个循环的可能性已经不大了。
因此,我们这里主要讨论如何更多、更快、更好、更省地发现临床前候选化合物这个问题,一方面极限优化以提高分子的成功概率,另一方面穷尽探索来提供更多值得尝试的分子。
正是因为找到一个理想药物分子的概率不高,半导体领域的“fail fast(快速试错)”理念在新药研发的各个阶段都适用。在充足的资金支持基础上,穿越“死亡之谷”的核心是低成本快速试错,这是全行业需要长期共同面对的挑战。
/ 03 /
临床前新药研发中几个相互依存的循环和效率提升机会
近年来,新工具新平台的赋能、底层技术的发明到成熟、大数据积累和算法突破,对每个循环的效率提升和成本降低都有着不同程度的影响。下面我们就逐一分析和讨论。
▍靶点的确立和验证
在阿斯利康的5R(Right target, Right tissue, Right safety, Right patient and Right commercial potential)框架中,第一个R就是正确的靶点,其中最重要的是靶点和疾病的强关联性。以往发现靶点和疾病的关联性,要经过生信分析、体外筛选评价再到动物体内实验进行验证。这个过程不仅周期长效率低,由于细胞培养条件和微环境与体内大相径庭,体外实验的结果很多时候难以在体内重现。
随着基因编辑技术的不断升级和规模化应用,在体内进行靶点筛选来发现验证与疾病的关联成为可能。不仅成本低、通量高、速度快,体内筛选也更接近真实情况,得出的关联性可信度更高。除了单一靶点的验证以外,基因编辑技术还能应用在合成致死、老药新用、耐药预测、生物标志物发现等多个相关场景中,起到加速赋能的作用。
另一方面,随着微流控、传感、成像等交叉技术在测量仪器中的应用,单细胞测序、高分辨成像、蛋白质谱等领域进展迅速,获取信息的精度提高、维度增加、通量增大,为靶点和疾病关联关系的挖掘和研究提供了海量的数据。
▍苗头化合物设计和发现
在选定靶标之后,下一步就是苗头分子的发现。思路主要有两类,一种是直接进行实验筛选,从HTS(高通量筛选技术)到最近非常热的DEL(DNA编码化合物库)都属于这类;另一种是通过计算先产生或富集,然后再通过实验进行验证。
在第一种路径中,DEL最近的迅猛发展主要得益于对其设计、合成、质控和筛选进行了智能化升级,从而使得从海量数据中进行高质量关联性分析成为可能。对于第二种路径,AI制药已经成为行业风口。
基于计算的苗头化合物发现之所以得到了前所未有的关注,主要原因有三:
第一,冷冻电镜、快速单晶衍射作为新型基础设施,提高了获取蛋白结构信息的效率,AlphaFold2和RoseTTAFold等算法的出现提升了对蛋白结构的预测模拟能力。这是苗头化合物产生和设计的计算起点。就在不久前的7月22日,AlphaFold发布了98.5%的人类蛋白结构预测,并将通过一个公共数据库(https://alphafold.ebi.ac.uk/)向社会免费提供所有预测结果。这无疑会大大加速针对各种蛋白的基础研究和药物开发。我们期待着AI在蛋白复合物和共晶结构预测方向取得新的突破。
第二,云计算的普及,让超大规模化合物库的计算评价成为可能。无论是小分子本身的晶型、构象,还是与蛋白的相互作用,基于理论物理的所谓“第一性原理”的背后主要靠算力,核心是解决如何算得更快、更准的问题。如果能把分子的产生和评价,变成一个穷举式深度搜索问题,通过尽可能多的局部最优来逼近全局最优,就可以提升苗头化合物虚拟发现的效率和质量。这样的探索在学术界和产业界越来越受到重视。
第三,深度学习算法上的创新溢出到分子设计领域,让大家看到了基于数据进行效率提升的可能。尝试最多的方向是,借鉴图像、自然语言和图神经网络等领域的深度学习算法来描述分子本身或分子与蛋白的相互作用从而产生新的分子或预测分子性质。
基于数据的最大挑战是突破数据在体量、质量、结构化程度和均衡性等方面的局限。目前已知的小分子数量和小分子与蛋白相互作用(共晶)信息能不能满足深度学习模型训练的数据要求,暂时还没有明确的结论。
无论是在苗头化合物的发现还是后续的优化过程中,在湿实验中验证分子与蛋白的相互作用,才算完成了一个DMTA循环,这样的反馈周期和效率,对计算和深度学习都至关重要。我们注意到许多CRO(合同研究组织)公司,都在建立扩充分子相互作用实验平台,就是为了服务于快速增加的研发需求。
▍有机合成
通过有机合成拿到目标分子,是最费时费力(费钱)的一步。20年前如此,现在依然如此。2020年阿斯利康科学家发表文章,对比了生物测试和有机合成的自动化进展,指出有机合成到今天仍然是一项高度人工的工作。
其实就在同一年,利物浦大学Andrew I. Cooper课题组用自动化合成机器人在8天内进行了688次连续反应,优化了光解水产氢的催化剂体系。这虽然只是一次实验室尝试,它预示着有机合成即将开启自动化时代。
在之前的报告中,我们系统梳理过医药化工产业升级的方向和机会(欢迎点击蓝色链接,回顾报告《医药化工产业升级中的投资机会 | 峰瑞研究所》)。在这篇里,我们再来分析一下自动化、数据化和智能化是如何提高有机合成效率的。
有机合成人员的水平高度依赖其经验。经验是什么?经验就是过往做过(见过)的反应数据和对文献数据的搜索辨别能力。一般来说,带过团队的合成主管经验丰富、解决问题能力强,归根结蒂是因为每个团队成员产生的数据和信息都汇总到主管这里,日积月累自然见多识广,主管就可以给团队更有效的建议和指导,团队的效率就越来越高。这是一个具有自我提升能力的DMTA循环,数据多,D的效率就变高,循环随之变快,能产生的数据就更多,如此往复。
2018年Waller 教授课题组在《自然》杂志上发表了文章,阐释了利用深度学习算法分析(A)化学反应历史数据来解决新化合物合成路线设计(D)的问题,这个方向开始受到广泛关注和充分探索。在合成路线的穷举和排序、工艺路线和条件的搜索推荐、大量分子的可合成性分析等具体应用场景中,机器学习算法都取得了不同程度的进展和突破。在效率提升的过程中,算法和算力固然重要,但数据的数量和质量才是核心。目前普遍使用的文献专利数据,数量虽然不少,质量却难以保证,是基于深度学习算法的最大瓶颈。从这个意义上说,国内有机合成CRO,有大量可靠的内部实验数据,最有可能通过算法在提升设计能力上赢得先机。
另一个行业热点是有机合成自动化,就是用机械臂/微流控/机器人等形式来做有机反应。机器替代人做数据采集,精准严密确保不出错,且机器不需要休息,既保证了数据的可靠性又提升了生产效率。除此以外,年轻人从事有机合成的意愿在不断下降,也给自动化取代人提供了理由和动力。
在有机反应数据的产生上,高通量化学催化和酶催化,在发挥着越来越重要的作用。当然,目前这两种催化手段在CDMO(合同研发生产组织)企业的生产过程中采用较多,是降低成本的新型赋能工具,它们在新分子合成和构建中的价值还没有被普遍认可。化学催化可以对反应条件进行低成本快速探索,对打通路线和实现关键步骤大有帮助,同时可以解决数据较少反应的数据积累问题。酶催化则通过与化学反应不同的成键方式和合成策略,可以非常高效地解决有机合成难以解决的控制和修饰问题。整合两种方式发挥协同作用,辅以自动化设备和合成生物学对酶的改造效率提升,有机合成效率将会迎来新的一次大飞跃。
可以做这样大胆的设想,如果有机合成产生新分子的成本可以被降低到无限接近原料成本,如果需要20步能合成出来的分子可以在3周之内交货,那么我们能探索的化学空间将大大拓展,不仅可以对更新、更有挑战性的靶点进行充分研究,找到更优分子的可能性也会变大,成本更低,试错更快。
▍成药性质优化
最后来说说成药性质优化这个环节。传统的评价方法,无论是体外实验还是动物体内实验,主要是为了更充分地表征化合物的各种特性,以降低在临床试验中失败的风险。大药企内部有许多历史数据,已经不断在被分析和复用。在深度学习算法非常普及的今天,重新建模来做数据挖掘和预测,门槛也不高。如果各大公司能分享数据,来训练模型和开源给行业使用,那将极大提升成药性质优化的效率并节约试错成本。
对传统成药性质评价手段的升级和替代,一直是行业研发和关注的方向。比如用物理计算来预测化合物的晶型和溶解度,已经达到了与实验非常接近的程度。尽管有基于物理的计算和基于数据的算法模型可以来初步预测分子的某些成药性质,让D更精准,但受限于算力和数据的不足以及生命体的复杂性,合成得到分子并通过实验验证仍是必不可少的步骤。以基因编辑技术为基础建立更多相关动物模型,可以比原先的模型更接近人体情况;最近比较热的器官芯片,可以替代一部分动物实验低成本地进行筛选评价,这些进展都会让成药性质优化这个DMTA循环更快、更有效。
在临床前新药研发的各个环节中,都有新型基础设施和新方法新工具的出现。尤其是在苗头化合物设计发现和有机合成这两个环节上,算力算法和数据积累带来的效率提升更加显著,有可能产生颠覆性的影响。这些都将直接改变试错的成本结构,缩短验证周期,一定程度上改变临床前新药研发的传统模式,为穿越“死亡之谷”提供“杖和竿”。
/ 04 /
为什么在当下的中国?
国内生物医药产业近20年的发展可以大体分为三个阶段。第一个阶段从2003年到2012年,主要是承接产业转移;第二个阶段从2013年到2019年,主要是高端进口替代;从2020年起,开始进入新药研发最具挑战的原始创新阶段。
2020年疫情爆发初期,我们就曾研判过国内创新药发展的趋势(欢迎点击蓝色链接,回顾报告《锤子与舞蹈:疫情之下,医疗产业的下一波投资机会 | 峰瑞研究所》),提出从仿制创新到原始创新、系统创新的转换。现在来看,这个趋势来得比想象还要快。
之所以能这样,首先是经过以高校扩招保证人才供给为基础、以CRO/CMO为产业形态的第一阶段,产业链趋于完整,研发人员经验不断丰富,效率得到提升。
接下来以解决新药供给和医保控费等政策因素为驱动、以biopharma为产业形态的第二阶段,短期内大量创新药项目同时上马,研发和生产外包需求急剧增加,不仅催生了为CRO/CDMO提供服务的效率更高的CRO公司,前面提到的所有新技术、新交叉工具、新算法在全行业得到了广泛的应用。
在投资火热、需求大量释放、产业升级压力同时存在的情况下,这些新的效率工具有机会得到如此充足的资金投入和快速迭代发展,这在相对成熟的欧美市场都未曾出现过。
2020年开始,国内创新药市场结束了从无到有的快速增长期,开始进入存量市场。依赖大干快上和营销能力的商业逻辑已经开始“内卷”,产品的质量好坏、能否真正解决未满足临床需求,正在成为企业的核心竞争力。
在产业链条不断完善、新工具新技术不断商业化应用的基础上,能否通过低成本快速试错做出更好或更新的产品,就是小分子新药研发行业面临的系统性新机会。
/ 05 /
什么样的企业能抓住这个机会?
过去这几年,由于投资和市场实在太热,许多CRO公司或者新型技术公司,都希望有机会拓展链条去做新药,也就是最终产品。这样的尝试可以理解,但从商业逻辑上却未必是最好的选择。做产品有做产品的风险,做服务有做服务的逻辑,无论做什么,都需要具备在核心技术上不断迭代的能力,也就是高效、低成本完成DMTA循环的能力。如果通过循环能积累数据、打磨技术,从而提升壁垒,这样的企业将会成为好企业。
当然,新药研发的流程长、链条多、风险高,好企业的诞生尤其需要依托于更加开放共享、专注专长的产业生态。未来若干年,我们相信医药产业不仅会出现以产品力为核心的“华为”、“比亚迪”,也会诞生新型基础设施如“宁德时代”和效率更高的服务外包企业如“立讯精密”。