人工智能在药物研发中的应用
本文原载于中国医药报、中国医药报微信公众号、食事药闻APP《人工智能药物研发》专题
在制药这一传统行业,AI也已经有了诸多应用。AI逐渐应用于药物发现的靶点发现,虚拟筛选,化合物设计与合成,ADME-T性质和理化性质预测,药物临床试验设计和管理、患者招募,药物警戒和真实世界研究等多个流程和环节。
制药受困
在过去的数十年里,许多科学、技术和管理因素都取得了巨大进步,这有助于提高药物研发的生产率(R&D)。然而,自1950年以来,每10亿美元研发投入获得批准的新药数量几乎每9年减少一半,该趋势在60年间非常稳定,被称为制药行业的反摩尔定律(Eroom’s Law)。新药的开发成本越来越高,药物研发面临着严重的生产力危机。
对于反摩尔定律主要有三种解释,即低垂果实假设(好摘的果子被摘走了)、监管障碍假设(新药申报的监管要求不断增高)、研发模式问题。前两种解释都是客观事实难以改变,那么,是否有更好的药物研发模式?这是制药行业一直在思考的问题。
制药行业在遭遇生产力困境的同时,也面临着数据困境。
AI的橄榄枝
2016年3月,AI程序AlphaGo大胜韩国著名棋手李世石,是AI发展历史上的里程碑事件。这一事件加快了AI在社会生活多个领域的探索和应用,也让制药行业看到了提高药物研发生产率的希望。2016年后,AI在制药行业的技术测试大量开展。实验科学不再是唯一选项,以数据为中心的药物发现开始走上舞台。
在随后的几年时间里,AI制药逐渐 "升温",概念验证研究持续不断、大量的资本涌入AI驱动的生物技术初创公司、制药公司与AI生物技术公司和AI技术供应商之间的合作越来越多。一些领先的制药公司的高管认为,AI不仅仅是一个先导化合物发现的工具,而且是一个促进生物学研究、发现新的生物靶点和开发新的疾病模型的更通用的工具。
AI在制药的多场景中展开
AI制药问题显现
伴随着AI在药物研发中的应用,许多问题出现。归结起来,是AI如何与制药场景相互“适配”的问题。
对制药来说,走AI的路,就要穿AI的鞋。
AI方法对于其适用对象的相关条件有诸多要求。如同传统药物研发需要配备必要的硬件设备和必要的环境设施(如科学仪器设备、实验室等),基于AI的药物研发需要配备数据、算法、算力,其中对数据的要求最为严格。
传统的药物研发以实验科学为主。数十年来,药物研发数据的记录、治理和储存方式都以实验为核心,根据实验的需求来调整,数据是实验的“附属”和“跟班”。而AI作为虚拟科学、计算科学和数据科学范畴内的方法,将数据放在第一位,从数据中提取知识,对于数据的格式、标准、质量、数量都有严格的内在要求。
于是在实际情况下,AI直接使用传统药物研发模式的数据往往遇到困难,数据的规模问题和质量问题被频频提及。要最大化AI的价值,就需要相应的符合AI要求的数据。目前AI制药的“基础设施”并不完备。
对AI来说,进入制药的主场,就应当遵循制药的规律。
比如,药物的开发是一个多维同步优化的过程,鉴于数据的规模和复杂性,基于AI的药物研发往往需要重写机器学习算法,而不是简单地调用。AI与制药这一传统行业的核心业务深度融合,需更深刻的行业理解力和更高的技术准确率。AI虽然已经可以从大量已知论文、实验数据中挖掘新的知识,改变了传统基于学术经验的研究方式,然而方法的准确性、可解释性、可重复性等还有待提高。
解决措施
数据产生。在生物医药行业,包括数据可重复性在内的数据质量问题一直存在。而AI在药物研发中的探索和应用实践,让这一问题更加明显。
为此,一些AI药物发现初创公司除了使用公开来源、合作伙伴等渠道获得的数据以外,寻求和开发新的、规模化的数据来源,包括自建实验室获取数据、将“湿实验”的部分外包给CRO获得数据、借助远程机器人来生产数据等。在未来,AI对高质量大数据的需求,或将推动药物发现数据的自动化和规模化生成。
数据共享。对于机器学习来说,数据量越大,预测的准确性可能就越高。为此,除了内部组建AI团队、内部开发以外,制药公司尝试组成联盟来开展基于AI的药物研发。
如基于区块链和联邦学习搭建技术框架、在多家顶级制药企业之间共享药物数据进行AI药物发现的MELLODDY,致力于促进医疗保健领域AI的进一步发展和实施的AAIH,促进小分子药物发现和合成自动化的软件设计的MLPDS,旨在利用AI加速药物从靶点走向患者的ATOM等。制药企业是否可以在竞争前合作?Pistoia Alliance也进行了探索。
国内隐私计算相关企业也开始涉足医药领域。从隐私计算的原理来说,可以在不共享数据本身的情况下,共享数据价值。
数据治理。以新型冠状病毒肺炎为例,新冠病毒在全球范围内传播的同时,众多国家和地区呼吁共享新冠肺炎的研究数据集和相关研究文献,并建议发布者同时提供可以直接应用AI的全文和数据格式,便于再次研究和分析。未来,机器学习可读是医药数据库建设的重要方向。
政策和指南的引导和“铺路”。在目前国家颁布的几乎所有的AI相关政策或规划中,药物研发都被作为AI应用的关键场景。2020年12月31日,国家药监局药品审评中心(CDE)发布《模型引导的药物研发技术指导原则》;2021年4月13日,CDE发布《用于产生真实世界证据的真实世界数据指导原则(试行)》,分别针对药物研发模型开发和真实世界数据治理问题。
SPIRIT 2013被广泛认可为是试验方案的国际标准,CONSORT声明被认为是评价RCT报告质量的国际推行标准。2020年9月9日,SPIRIT-AI和CONSORT-AI适时出现,成为涉及AI的临床试验的首份指南。
反过来,为了更好地推进AI制药,AI工具箱中的几乎所有方法都被调用。
在过去的十年中,药物研发相关数据的数量急剧增加。各种各样的机器学习方法,例如朴素贝叶斯、支持向量机以及深度神经网络,正在证明它们在药物发现和开发中的作用。包括分子对接、虚拟筛选在内的各种制药应用中都使用了DNN(深度神经网络)。
不过总体来说,制药领域往往面临可用数据有限的情况,可用数据的产生往往耗时且需要高昂的资金投入,很多时候机器学习可用的往往是小数据集。与之相对应,小样本学习的发展是AI发展的重要方向,在化学反应预测、药物逆合成路线设计方面已有了应用。
迁移学习可通过挖掘相关数据集中包含的知识来解决数据稀缺问题,目前主要应用于分子性质和活性预测、分子生成和基于结构的虚拟筛选。
数字化让事物摆脱物理形态的时空限制
从本质上来说,数据是事物性质、状态、关系的抽象。当围绕一个事物的数据越来越丰富,构建出事物的虚拟形态,并且这种虚拟形态一定程度上能够代表事物的物理形态的时候,事物的物理形态就不是可以调用和操作的唯一选项。这是虚拟科学、大数据能够兴起的根本原因。
AI制药在探索和实践中前进
AI在制药中的应用,有望把AI的整个生态带入制药。那么未来,计算制药与传统制药是否会成为并行的模式,如同线上与线下(线上购物本质即为虚拟筛选)?尚不可知。
复杂的生物体系的无数变量能否被足够准确地定量和分析,用来发现新的药物靶点、更好地判断药物的作用效果?还有很多未知需要探索。
然而,无论AI是否能够重塑、变革药物研发过程,从药物研发全周期所有数据中获取价值都是未来的方向。
数据不等同于科学,但是几乎所有的科学进步,都是从数据中得到确认和判定。数据规模的持续增加,正在让药物研发数据演变为大数据。
而目前AI是处理大数据最理想和最有效的方法。
药物发现工作量巨大,仅靠人工耗时费力。AI可以增加研究人员的“认知带宽”,更快地缩小搜索范围,减少寻找新药的时间和成本。AI还可以自主筛选来自公共数据库、开源应用和先前临床试验的大量大数据,整合所有数据,并在此基础上形成假设。未来,AI与机器人技术将推动科学研究向“工业化”发展,药物研发人员将从大量的重复性工作中解放出来,有更多的时间来思考科学假设、集中精力投入到创造性的工作当中。
就模式来说,最佳的AI制药模式并非是建立纯粹的AI流程,事实上,人与AI结合往往优于单独的人类流程或AI流程。就如同国际象棋中,人类与计算机算法的结合通常可以击败单独的人类或计算机算法。
制药行业有庞大的、并且正在不断增加的数据,需要AI技术方法来梳理和开发;全社会各行业对于AI的关注、探索和应用尝试,势必加快AI技术方法的成熟和革新。如果“大规模数据→更准确模型→更好的药物→更多更好的数据”的循环逻辑在实践中落地成熟,AI制药将大大提速。
不过,任何技术的应用和推广很难一蹴而就,螺旋式上升、波浪式前进是新事物的发展规律。变革意味着要重新梳理、构建、处理与所有事物的关系,这一过程复杂、漫长、艰辛。AI与数据驱动的药物研发模式还需要更多更深入的探索和实践才能真正体现价值。
致敬药物研发的大时代。
(智药邦 侯小龙)
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
AI药物研发公司Exscientia的理念、技术与特点
进入临床试验的AI设计的药物 汇总V1.0
Nat Biomed Eng:利用深度学习从抗体序列中预测抗原特异性,优化抗体药物
远程机器人实验室在AI药物发现中的应用价值与前景
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
利用人工智能增强表型药物发现
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
FDA发布人工智能/机器学习行动计划