查看原文
其他

还在拼算法和算力?数据才是制胜的王牌|AI与新药(一)

程昊红 研发客 2022-07-18


21世纪初期,人工智能(AI)技术取得重要的突破,开始真正应用到很多领域,改变了不少行业的发展轨迹。在医药产业链中,AI也被应用到包括药物研发、健康管理、辅助诊疗、医疗影像等方向。不过,整体看来,AI在医药产业中,不管进入的时间还是应用的深度尚不及其他行业。其中,在新药开发的应用,也是随着近几年AI领域整体取得一些进展后才带动起更高的热度和关注度。


AI领域应用较多的包括机器学习、深度学习、自然语言处理、知识图谱等技术。作为一项辅助技术,其可应用于制药的多个环节,被寄望改善新药开发周期长、效率低的问题。虽然已经有相当的热度,但AI技术并不是解决问题的万能灵药,它依然处于发展的早期阶段,且与生物医药中很多技术的逻辑不同,对其在制药领域应用的观察与理解显然也需要一些不同的视角。


本次专题不讨论技术本身,而是聚焦于AI技术在创新药开发领域的具体作用、在不同的发展阶段会面临怎样的挑战。在第一篇里,我们首先探讨:AI在制药领域持久发展的土壤在哪里。


应用的拓展

从早期发现到下游几乎都有AI的身影
了解一项技术在某个行业的应用,必然会关注这项技术使用的领域和方向。AI在很多行业中都呈现多样的应用方向,在药物研发中亦然,也像很多技术在行业中的发展路径一样,初始阶段同样偏重更易取得进展的方向。
“从整个药物研发的链条上来看,目前AI最聚集的是早期发现领域。这一领域的技术发展相对更成熟,更容易出现一些成功的案例。”晶泰联合创始人、CEO马健告诉研发客。
晶泰CEO马健
在一篇对AI医药英文文献进行关键词统计的文章中,7个AI医药研发领域出现的频次最高,分别是靶点药物研发(Drug Targets Development)、药物挖掘(Drug Mining)、化合物筛选(Compound Screening)、预测ADMET性质(Predication of ADMET Properties)、药物晶型预测(Crystal Structure Prediction)、病理生物学研究(Pathophysiology)和药物重定位/药物再利用(Drug Repurposing) 。其中,靶点、药物挖掘、化合物筛选和ADMET预测均是药物开发早期发现的重要环节。


人工智能在医药研发领域具体研究方向
剂泰医药联合创始人赖才达显然也认同这样的观点,他认为AI应用落地最快的是早期的分子发现环节,因为这个环节数据较多,一开始可以依靠现在已公开的分子和靶点数据进行AI的训练,计算背景的人也可以完成这方面的工作。目前已经有通过AI设计的分子进入临床研究阶段。
而除了早期发现,目前来看,AI应用正在拓展到产业链中更多环节,几乎每个环节都有AI的创业公司在开展相应的工作。这被马健视作从局部优化到全局优化的一个发展过程。
在赖才达看来,AI在制药链条的拓展着重的是应用场景,是否有大数据的产生则是应用场景的基础。产业链的下游也有很多应用场景。
剂泰医药联合创始人赖才达
“分子发现、合成有不少可以开展工作的方向,往下是药物递送,再往下包括动物模型搭建到工艺放大这部分都有很多空间和机会。在分子设计部分,除了小分子和蛋白质,对于RNA的设计,传统方法的限制越来越大,这部分也非常适合AI应用场景,因为序列非常专一,只要有高通量的合成表达系统,就可以用AI去做计算和预测。在临床研究方面,美国已经有公司开始专注临床研究招募环节。”

数据“试金石”

构建获取真实数据的能力和更强的实验能力
谈论AI不可避免要讨论到三个要素:算法、算力和数据。算法是方法论,算力是计算能力,而数据则决定了AI训练的效果。
从上文已可看到,AI在制药应用的切入方向是数据更丰富的环节,其发展依赖于数据的产生。而此次交流的每位行业专家,无论AI技术背景或者医药背景,普遍认为后续的竞争要点与挑战也在于数据。数据俨然成为AI药物研发后续发展最关键的因素。
“AI的三个基础中,算力目前没有什么问题,算法也会在不断见证过程中实现优化,最关键的是数据。因为AI发展需要大量的数据来支撑训练,发展算法同时验证算法。”英矽智能首席科学官任峰说。
马健表示,AI技术本身应用发展正在经历从算法、算力到数据的阶段变化。2014~2019年左右,可以说是AI药物研发的上半场,这个阶段更多围绕着算力和算法展开,重点在于让更多算法在已有数据的基础上快速落地。
而现在AI驱动药物研发进入到关键中场阶段,这一阶段的重点在于构建产生、获取真实数据的能力,构建更强的实验能力,这些能力将会牵引算法走到下一个阶段。到了下半场,数据、算力、算法会形成一个相对完整的能力匹配,这时AI驱动的药物研发才真正进入了比较成熟的阶段。

能否满足数据量和质的要求,也成为判断AI新药开发是否具有价值的试金石。
实际上,数据本身是一个涉及诸多影响要素的复杂体系,不仅是数据量,方方面面的因素都会影响最终AI的应用,这也正是挑战之处。
其中,数据的数量和质量是一个非常重要的问题。任峰表示,目前大家用到的多是一些公开的数据,这些公开的数据存在参差不齐问题,由于公司采用的实验方法不同,某些特定参数的数据可能一致性也比较差。未来发展的一个方向,就是通过一些自动化的实验测试需要的数据,减少人为的变量。另外,随着AI公司融资规模的提高,可以按照自己的需求收集一些独有的数据,扩大数据量来进一步提升他的算法。
数据倾向性是马健非常关注的问题。他表示,实验获得的、计算模拟产生的、公开的信息等都构成数据来源,但AI发展需要的是一些更加标准化的数据,这些来源五花八门的数据样本如果具有倾向性或者说多样性较差,无法训练AI对于整个问题完整的描述。
“比如,文献获取的数据大部分属于正样本,是研究成功发布的成果,但其实大量研究当中的试错是非常有价值的数据,负样本和正样本都存在,对于这个问题的认知才更完整。”马健告诉研发客,除了负样本少,还有假阳性的问题,一些实验重复性不好,因此,公开获取的数据来源一定要进行非常多的过滤。
除此之外,还有数据的迁移性问题。马健以汽车制造相比拟,擅长制造卡车的公司如果要去制造跑车,虽然都是造汽车,但外形、空气动力学的要求完全不一样,这构成两个很不相同的领域,那么卡车设计过程中得到的数据对于制造跑车会有多大的价值。落在制药领域,开发不同的适应症和不同的靶点时,问题的特征差距非常大,这意味着,并不是谁的历史数据最多就能够开发得更快。

等待来自管线的验证

深度渗透行业,等待新的临界点
近两年来,陆续有进展较快的AI企业公布其通过AI设计出的临床前候选物。2020年2月,英国Exscientia公司宣布开发出治疗强迫症的临床前候选化合物DSP-1181,同年3月项目进入临床试验阶段。2021年,英矽智能先后宣布两款针对纤维化领域的临床前候选化合物,进展最快的产品ISM055已经于今年11月底启动了临床研究。
如果说数据维度是AI应用的基础,决定了AI未来持续的输出能力,那么这些AI技术平台设计的产品,则是AI应用最直观的成果,是了解整个领域发展所处阶段、面临的挑战的重要样本。
在生物医药背景出身的任峰看来,与AI阅片这类相对成熟的领域相比,AI在制药的应用尚处于初级阶段。一方面,虽然AI驱动的新药研发已经有一些项目推到PCC(临床前候选化合物)、临床前或者临床早期阶段,但这些绝大多数完成的是临床前的验证,还没有一个由AI设计的药物完成临床研究,最后证明在人体中有效。另一方面,由AI设计的药物还是少数,没有太多这类创新产品进入临床,缺乏更大规模的产品上的验证。
“综合这两方面来说,AI在新药研发领域验证的深度不深,广度也不够广。”
处于早期、缺乏一定验证是AI新药开发的现状,管线的推动、AI技术在临床的训练和转化也就成为行业发展的重中之重。
一位新药研发企业的副总裁表示,由于产品管线有非常直接的价值,所以业界会相对集中在这个方向。不过,AI运用在药物研发上是一个很大的课题,实现概念验证(Proof Of Concept)的难度不小。而这个环节可以分解成很多单元和模块来开展工作,比如生物标志物、转化医学的研究,或者源头上寻找靶点的研究等,这样的小模块有可能更快取得进展。
而对于行业发展的判断,马健认为,推动产品管线很重要,但并不是等到有药物上市销售,才认为AI技术的应用真正落地、真正成功。事实上,不必等到第一个药物进入上市阶段,在更早的阶段,比如出现临床前候选化合物或有药物进入临床Ⅰ期时,行业对技术的认知已经开始发生变化,临界点就出现了。
谈到临界点,包含了对挑战、对发展方向的思考。
马健表示,首先是提出正确的问题。与医药行业深度的耦合,才能发现行业中有价值的、重要的、深刻的问题。而专业正确的问题,会引导能力构建往更高效的方向去发展。目前,AI药物研发的参与者大部分是早期创业公司,而早期创业公司更擅长外源性的AI算法部分,还没有形成对行业足够深度的完整认知,这是未来须加以跟进的方向。
AI新药开发处于发展早期的另一个体现是整个领域还在进行市场的教育,这也是发展的着力点之一。据马健观察,市场教育也在迭代,最开始教育市场是讲算法,现在更多是在讲方法论。
“市场已经开始对AI技术有快速的尝试和接受,客户拓展的增速非常快。而尝试AI的企业数量越多、本身影响越大,就会实现一定的行业渗透率,达到新的临界点,随之进入全行业加速应用AI技术的阶段。”

在下一篇里,我们将走近AI制药行业里的参与者,观察他们的策略和布局。


编辑|姚嘉  排版|张跃

总第1469期
访问研发客网站可浏览更多文章www.PharmaDJ.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存