AI药物研发之惑：我们应如何提高药物研发的成功率

刘正医药荐客 2022-01-04

本文转载自：动脉新医药

在过去的3年里，我们见证了人工智能（AI）的第三波崛起，并为之折服。同样的风潮也吹拂了相对保守的医药行业，甚至侵入了最具技术门槛的制药业。

在一些创业团队的蓝图里，通过机器学习算法和虚拟研发的商业模式，可以革新目前这种“2 Billions, 20 years”低效的药物研发过程，将新药更快更省地带给患者。

但如果把眼光从未来移开，回头凝视历史，我们就会发现AI在药物研发中并非陌生。自80年代开始，一大批巨头就开始推动计算机辅助药物发现（Computer Aided Drug Design，CADD)。

大家可能知道Merck赞助了好几次Kaggle Challenge，主题是用机器学习预测P450酶活性。但其实，人家在30多年前就开始了相关的尝试，还登上了1981年的《财富》杂志。

在那个年代里，早期的计算化学家，已经在使用KNN和SVM等算法对药物分子中的moieties进行无监督聚类，试图归纳出特定药效的特征。一些分子动力学程序也试图用机器学习来优化收敛速度，尤其是面对蛋白质构型docking的搜索时。

这些人工智能的思路，早就融入了商用的QSAR(Quantitive Structure Activity Relatioship，定量构效关系 )软件中。

那么这次，以深度学习为代表的AI回潮，有什么不一样？如果这次确实不一样，AI又能不能让药物研发这件越来越糟心的事情变得“不一样”？

在讨论AI药物研发之前，让我们梳理一下药物研发的整个流程。通常可以划分为三阶段：

Drug Discovery：了解疾病机理（或发现“奇迹”），识别出机理中能成药的靶点，我称其为“生物学”阶段；

Drug Design ：筛选出适用于靶点的lead小分子/生物大分子，设计并优化lead的结构，然后对分子进行临床前assay，也就是广义的“化学”阶段；

Drug Development：三阶段的临床试验验证安全性和疗效，并在上市后的继续跟进和扩展适应症，可以称之为“医学”阶段；

在这三个不同阶段，研发团队有着不同的目标函数，也产生了不一样的技术需求和解决这些需求的方法论。因此，AI运用于不同的阶段会有非常不同的难度和效用。

在生物学阶段，主要的目标函数是：Found （找到）

在最理想的情况下，生物学家能够把疾病现象解释为机理，然后按照机理去识别靶点tackle这个机理。在更实际的情况下，可以通过临床中的特例或是一些heuristic的推理，定向识别出能用药物tackle的靶点。

也就是说，虽然不清楚整个疾病机理的作用网络，但作用于某些网络的hub可以让疾病伏法。这大概是最能称之为“Magic Bullet”（神奇子弹）的情况了。

而在当前的医药研发中，生物学研发者会面对两个越来越宽的鸿沟，一个比较明显但是相对容易理解，一个比较隐秘但真正棘手。

比较明显的鸿沟是：将机理转化为可成药的靶点，这并没有理想中那么直接。我们已经遭遇了太多完美机理无法成药的案例，因为作用于单个机理的药物，会受到其他未理解机理的干涉，导致预计有效的疗法完全失效，或是产生先期不可预见的副作用。这已经造成了大量的研发项目在早期就停滞，或者更惨的如Tau蛋白，在进入临床后才宣告失败。

而这个明显的鸿沟背后，有一个更难的鸿沟：从生物现象本身的复杂性里提取可理解的机理，这比给你个CPU的电镜照片让你逆推出计算电路要难得多。人体在分子层面的运作本身的复杂性，很可能是超越人的理解范畴的。从某种意义上说，生物学发现的所有机理都只可能是局部机理，是“比特例更一般的特例”。

这并不意味着这些“更一般的特例”不对，但是他们的数量将会是有限的。我们已经摘了很多容易摘的果子（Low Hanging Fruit），而在研究接下来的机理时，会面临可理解性和可预测性之间的背离，而预测性的下降会对临床造成困惑。

而现有的生物学研究范式里并没有意识到这种困难，这也就不难理解，为什么本世纪以来生物学研究的可重复性大大下降了（排除掉学术不端的影响）。如果意识到生物现象本身的复杂性，你会发现“生物学解签师”真的已经尽力了，但是他们被误用的统计学（如最近的P<0.05争论）和网络复杂性联手给蒙了，因此得不出具有确定性又可理解的机理。

而这也许是药物研发效率下降的最底层原因，我们先按下不表。

那么进入化学阶段后，主要的目标函数就是：Optimize （优化）

当AI研究者见到这个词的时候，一定会觉得暗爽。的确，在已经了解靶点的情况下筛选药物分子，是最容易想到的AI能够赋能的任务。实际上，这是计算化学和CADD已经耕耘了几十年的战场，已经有了很深的积攒了。

大部分AI新药公司也都集中在“化学”这个阶段，无论是做分子模拟，构型预测和QSAR分析，晶型优化，甚至继续向下去做逆合成路线推演，或是生产流程优化，都是从已有的先验知识出发，去搜寻和优化lead compound。

对于这个比较成熟的过程，可能的困难不是出在算法上，因为计算化学家一直在follow最新的机器学习算法并加以应用。最头痛的问题在于，现有的生化数据库的维度和量级都有点小了，而这却是深度学习方法较为依赖的要素。

想要达到ImageNet对DL的推动力，现有的如DeepChem, ZINC之类的库是不够的。更糟糕的是数据来源的可靠性不足，毕竟我们都知道garbage in, garbage out。

在组学和结构生物学的数据库未完善和矫正之前，我们很难做到足够可靠的virtual screening，因此我非常看好质谱和冷冻电镜的大规模应用，这相当于互联网出现之前的全美光纤建设，是基础。

当然，ab initio直接计算出新的分子结构，也许可以对真实数据做一些补充，但是这种方法依然受限于已有的分子库本身的数据结构。

但更让人困惑的是，AI算法所需要实现的事情，化学家们通过heuristic approach也可以有很高效的实现，他们没有意识到算法给自己工作带来的颠覆性价值。

比方说，最奇怪的就是用深度学习来做逆合成分析，AI并没有体现出比人的灵感更优异之处，因为最终路线的实现更需要wet lab的实践而不是图上推演。AI所试图优化的地方，恰恰是目前人工操作最成熟，最不需要AI的地方。在这些阶段玩AI，是内卷化的竞争，能玩的空间其实很小的。

更何况，“化学”阶段在整个药物研发中并非是一个速度决定步骤。在这个阶段任何的改进都只是边际上的小规模提高，除非运用于速度的细微差别更重要的me-too，me-better或首仿药中，否则能够带来的收益是较小的。

从这个角度上看，AI算法在“化学”阶段更多是一个工具的角色，必须结合一些尚未成药的新机理，或是成药困难的靶点才可以产生更大的价值。

我们的确看到部分团队会自建生物学团队，从机理出发来全程开发lead直到卖给药企。但问题在于，你首先要有个牢靠的生物学机理作为出发点，而这个关键问题却和你自己的机器学习knowhow无关。这是一个很尴尬的局面。

但我认为，作为一种无监督无先验知识的学习过程，机器学习真正最颠覆的地方，应该是在对人类未知机理的情况下寻找能够tackle疾病的药物分子，而并不需要给出人类可以理解的机理。这很有难度，但是却是最值得探索的地方，因为在机理明确的情况下药物的发现只是一个速度快不快的问题，而机理未知的情况下则是从零到一的问题。现在真正阻碍药物研发效率的，是后者！如果改一下克林顿当年竞选的口号的话，那么我可以说：“It’s biology, stupid！”

但是biology是一个Hard Problem，而现在，很少有AI制药团队把目标设定在那里。

而到了医学阶段，主要的目标函数会变成：Verify（验证）

如果说化学阶段的目的是Be better的话，那么医学阶段的目标似乎又收缩了，变成了Be usable，然而真实的情况是大部分药物分子跨不过这个坎。在药物研发里有个谚语，叫做“Fail fast, Fail early”，这其实是求之不得的事情，因为如果拖到临床II期甚至III期临床再失败，将会造成摧毁整个公司市值的重大损失。

这看起来似乎是荒谬的，如果前期的生物学机理和化学优化已经完善，为什么放到真人身上就砸了呢。但这个荒谬背后的原因是非常深刻的：药物分子在复杂的人体系统，尤其是具有基因和组学异质性的人群中的效应是难以捉摸的，在不同的维度上可以呈现出不同的usability。

大部分的药物如果是在II期及之后失败，最大的问题可能不是因为药不好，而是以错误的方式用在了错误的人群中。很多药物其实在临床试验里并没有死透，如果我们知道自己错在那里，其实是有可能通过给药方案和适用范围的调整，达到新的临床终点。

如果能够及时止损，及时选择合适的适应症，提高成功率的话，这才是真正值钱的地方。而这其实可以借助于机器学习对患者画像的洞察来实现，在临床试验开始之前就对这个药在大人群中的可用性，或是对哪些细分marker的人群可用，以及最重要的，哪些marker人群和临床终点无效做出判断。这样的洞见，在II期及以后的临床试验中都价值上亿！

可以看到，目前的药物研发的流程，最大的矛盾集中在生物学阶段和医学阶段，相反，化学阶段反而是最成熟的部分。而如果只是在这个非瓶颈部分做优化，并不会显著提升药物研发的时间效率和回报率。

因此我认为，如果AI药物研发的项目，仅仅是过去计算化学模拟，组学和药物开发自动化的延续，是用AI的工具去优化和加强已有的研发流程，这当然是一个最具可行性的前期策略，但是这并不是那么值钱的市场。这些针对药物研发中“化学”阶段的AI创业项目，做的普遍是容易做，但不是必须做的事情。如果只是提升当前的药物研发效率，那么AI药物研发公司的估值，显然有点高了。

大型药企对这些创业项目的关注和支持，与其说是看好技术而去投资，不如说是出于财务KPI的考虑，以投资AI药物研发公司的方式，将非药企核心的研发业务外包给了CRO和这些“virtual biotech”的AI创业公司。

这可以输出药企的优势：充沛的现金流投入，和临床开发“接盘”能力，而产生的收益又不会立即体现在损益表上，而是通过收购-商誉的调节，让报表变得更好看。当然，从投资的角度去看，我也认同这种商业逻辑。

但真正具有极大价值的，应该是用AI重构药物研发的整体逻辑，这可以从两个方向进行努力：

1，在生物学的阶段，甩开可理解性的限制，以无监督学习的方式去更高效寻找新机理和有效的新靶点，往外扩张成药的空间。

2，在医学的阶段，结合患者画像参与到临床实验的决策中，以提高药物定位和过审的成功概率，尽早识别并kill掉无底洞的烂药，以免到了3期失败被坑死。

这两个方向其实都体现出同一个理念，那就是应该用AI去提高药物研发的成功率，而非药物研发的运营效率，这两者是质和量的不同。如果能够直面“生物学”和“医学”阶段的Hard Problem，实现颠覆性创新，我相信，这会比在“化学”阶段做的任何渐进式创新，都更有价值。与诸君共勉！

本文作者：刘正新加坡Timbre capital分析师

作者邮箱：justinian@timbrecapital.com.sg

文 | 刘正

编辑 | 刘宗宇

往期文章：

新泽西地区招聘生物药Regulatory Affairs Director/AD