人工智能在药物研发中的应用

智药邦侯小龙智药邦 2022-06-15

本文原载于中国医药报、中国医药报微信公众号、食事药闻APP《人工智能药物研发》专题

近年来，人工智能（AI）已经被广泛应用于多个行业，彻底改变了社会生活的许多领域。

在制药这一传统行业，AI也已经有了诸多应用。AI逐渐应用于药物发现的靶点发现，虚拟筛选，化合物设计与合成，ADME-T性质和理化性质预测，药物临床试验设计和管理、患者招募，药物警戒和真实世界研究等多个流程和环节。

那么，AI应用于制药的逻辑是什么？AI会如何改变药物研发？如何应对制药行业的效率挑战？

制药受困

从制药行业的困境说起。

在过去的数十年里，许多科学、技术和管理因素都取得了巨大进步，这有助于提高药物研发的生产率（R&D）。然而，自1950年以来，每10亿美元研发投入获得批准的新药数量几乎每9年减少一半，该趋势在60年间非常稳定，被称为制药行业的反摩尔定律（Eroom’s Law）。新药的开发成本越来越高，药物研发面临着严重的生产力危机。

对于反摩尔定律主要有三种解释，即低垂果实假设（好摘的果子被摘走了）、监管障碍假设（新药申报的监管要求不断增高）、研发模式问题。前两种解释都是客观事实难以改变，那么，是否有更好的药物研发模式？这是制药行业一直在思考的问题。

制药行业在遭遇生产力困境的同时，也面临着数据困境。

随着全社会数字化信息化的快速推进、药物研发设备的升级和长期的积累，可用的药物研发数据越来越多，以至于在一定时间范围内无法使用常规方法和软件工具分析和处理所有数据。

同时，制药企业正在经历数字化转型，大量的数据不断地产生。数字化以后怎么办？传统的统计学在浩瀚的大数据面前越来越力不从心。于是，日益增长的数据处理的需求，与现有数据分析能力之间的矛盾，也在推动制药行业寻求新出路。

AI的橄榄枝

2016年3月，AI程序AlphaGo大胜韩国著名棋手李世石，是AI发展历史上的里程碑事件。这一事件加快了AI在社会生活多个领域的探索和应用，也让制药行业看到了提高药物研发生产率的希望。2016年后，AI在制药行业的技术测试大量开展。实验科学不再是唯一选项，以数据为中心的药物发现开始走上舞台。

在随后的几年时间里，AI制药逐渐 "升温"，概念验证研究持续不断、大量的资本涌入AI驱动的生物技术初创公司、制药公司与AI生物技术公司和AI技术供应商之间的合作越来越多。一些领先的制药公司的高管认为，AI不仅仅是一个先导化合物发现的工具，而且是一个促进生物学研究、发现新的生物靶点和开发新的疾病模型的更通用的工具。

AI在制药的多场景中展开

数年间，AI已经被尝试应用于药物研发的几乎所有流程和环节，主要有以下方面：

靶点确认。靶点确认是药物开发中的关键步骤，也是最复杂的步骤之一。目前已知的药物靶点绝大多数为蛋白质，通过机器学习的方法，从蛋白质原始信息中提取特征，构建准确稳定的模型进行功能的推断、预测和分类，已经成为靶点研究的重要手段。

从患者的样本中、海量的生物医学资料中提取基因组学、蛋白质组学、代谢组学等多组学数据，借助深度学习来分析非疾病和疾病状态之间的差异，也可用来发现对疾病有影响的蛋白质。

基于表型的药物发现。在过去的三十多年里，基于靶点的药物发现都是药物发现的主要方法。近年来，基于表型的药物发现（直接使用生物系统进行新药筛选）受到关注。机器学习可以在表型筛选中将细胞表型与化合物作用方式联系起来，获得靶点、信号通路或遗传疾病关联的聚类。

AI强大的图像处理能力，能够将生物系统的所有形态特征整合，系统研究药物潜在的作用方式和信号通路，扩展对于疾病的生物学认识。

分子生成。机器学习方法可以产生新的小分子。AI可以通过对海量的化合物或者药物分子的学习，获得化合物分子结构和成药性方面的规律，进而根据这些规律生成很多自然界从未存在过的化合物作为候选药物分子，有效构建拥有一定规模且高质量的分子库。

化学反应设计。AI目前正在取得进展的化学领域之一是对化学反应和合成路线进行建模和预测。AI可以将分子结构映射为可以由机器学习算法处理的形式，根据已知化合物的结构，形成多条合成路线，并推荐最佳合成路线。反过来，在给定反应物的情况下，深度学习、迁移学习可以预测化学反应结果。AI还可用来探索新的化学反应。

化合物筛选。AI能够对化合物的化学结构与生物活性之间的关系进行建模，预测化合物的作用机制。

一个典型的例子是MIT的研究人员基于深度学习发现了新的抗生素。研究人员训练了一个能够预测具有抗菌活性的分子的深层神经网络，在几天内筛选超过 1 亿个化合物，根据模型的预测分数对化合物进行排名，最终确定了8种与已知抗生素在结构上差别较大的抗生素。

ADMET性质预测。药代动力学性质不够理想，是临床研究阶段药物研发失败的主要原因之一。深度学习可以自动识别化合物的相关特征，评估数据集中多个ADMET参数之间的隐藏的关系和趋势，预测化合物的细胞渗透性和溶解性、毒理学性质。

药物临床试验。新药开发中资金投入最多的阶段是临床试验阶段，AI在临床试验的设计、管理、患者招募方面皆有应用潜力。

自然语言处理技术可从各种结构化和非结构化数据类型中提取信息，找到符合临床试验入组标准的受试者；也可用于关联各种大型数据集，找到变量之间的潜在关系，改进患者与试验的匹配情况。诺华已使用机器学习算法监控和管理所有的临床试验。

药物警戒。AI将对传统的药物警戒带来冲击。随着监管要求的严格和患者安全意识的提高，药物警戒的工作量和成本大大增加。AI可以将药物不良反应从接收到报告的整个流程实现自动化，优化药物警戒的工作并降低成本。基于AI系统还有可能通过预测能力展开药物风险评估。

真实世界研究。AI的进步提供了分析大型多维RWD（真实世界数据）的新策略。AI能够识别真实世界数据中的内在关联，生成新的假设，也能为临床试验提供新的信息。最新的一个案例是，AI通过分析真实世界数据，可以找出不会影响试验的总生存期的风险比的入组标准，从而扩大临床试验的人群范围。

AI在药物研发中的应用还包括理化性质预测（如晶型预测）、药物重定向、制剂开发中的应用等。

AI不仅应用于小分子药物研发，在抗体药物、核酸药物、免疫治疗药物开发中也已有了新应用。

AI制药问题显现

伴随着AI在药物研发中的应用，许多问题出现。归结起来，是AI如何与制药场景相互“适配”的问题。

对制药来说，走AI的路，就要穿AI的鞋。

AI方法对于其适用对象的相关条件有诸多要求。如同传统药物研发需要配备必要的硬件设备和必要的环境设施（如科学仪器设备、实验室等），基于AI的药物研发需要配备数据、算法、算力，其中对数据的要求最为严格。

传统的药物研发以实验科学为主。数十年来，药物研发数据的记录、治理和储存方式都以实验为核心，根据实验的需求来调整，数据是实验的“附属”和“跟班”。而AI作为虚拟科学、计算科学和数据科学范畴内的方法，将数据放在第一位，从数据中提取知识，对于数据的格式、标准、质量、数量都有严格的内在要求。

于是在实际情况下，AI直接使用传统药物研发模式的数据往往遇到困难，数据的规模问题和质量问题被频频提及。要最大化AI的价值，就需要相应的符合AI要求的数据。目前AI制药的“基础设施”并不完备。

对AI来说，进入制药的主场，就应当遵循制药的规律。

比如，药物的开发是一个多维同步优化的过程，鉴于数据的规模和复杂性，基于AI的药物研发往往需要重写机器学习算法，而不是简单地调用。AI与制药这一传统行业的核心业务深度融合，需更深刻的行业理解力和更高的技术准确率。AI虽然已经可以从大量已知论文、实验数据中挖掘新的知识，改变了传统基于学术经验的研究方式，然而方法的准确性、可解释性、可重复性等还有待提高。

此外，传统的药物研发模式已有相对健全的监管政策、行业体系。作为一种新的模式，AI在制药行业的应用探索，也需要相应的行业政策和体系来规范和引导。

解决措施

为了更好地推进AI与制药场景相互“适配”，在一些关键方面，制药相关领域采取了一些措施来适应AI的发展。

数据产生。在生物医药行业，包括数据可重复性在内的数据质量问题一直存在。而AI在药物研发中的探索和应用实践，让这一问题更加明显。

为此，一些AI药物发现初创公司除了使用公开来源、合作伙伴等渠道获得的数据以外，寻求和开发新的、规模化的数据来源，包括自建实验室获取数据、将“湿实验”的部分外包给CRO获得数据、借助远程机器人来生产数据等。在未来，AI对高质量大数据的需求，或将推动药物发现数据的自动化和规模化生成。

数据共享。对于机器学习来说，数据量越大，预测的准确性可能就越高。为此，除了内部组建AI团队、内部开发以外，制药公司尝试组成联盟来开展基于AI的药物研发。

如基于区块链和联邦学习搭建技术框架、在多家顶级制药企业之间共享药物数据进行AI药物发现的MELLODDY，致力于促进医疗保健领域AI的进一步发展和实施的AAIH，促进小分子药物发现和合成自动化的软件设计的MLPDS，旨在利用AI加速药物从靶点走向患者的ATOM等。制药企业是否可以在竞争前合作？Pistoia Alliance也进行了探索。

国内隐私计算相关企业也开始涉足医药领域。从隐私计算的原理来说，可以在不共享数据本身的情况下，共享数据价值。

数据治理。以新型冠状病毒肺炎为例，新冠病毒在全球范围内传播的同时，众多国家和地区呼吁共享新冠肺炎的研究数据集和相关研究文献，并建议发布者同时提供可以直接应用AI的全文和数据格式，便于再次研究和分析。未来，机器学习可读是医药数据库建设的重要方向。

政策和指南的引导和“铺路”。在目前国家颁布的几乎所有的AI相关政策或规划中，药物研发都被作为AI应用的关键场景。2020年12月31日，国家药监局药品审评中心（CDE）发布《模型引导的药物研发技术指导原则》；2021年4月13日，CDE发布《用于产生真实世界证据的真实世界数据指导原则（试行）》,分别针对药物研发模型开发和真实世界数据治理问题。

SPIRIT 2013被广泛认可为是试验方案的国际标准，CONSORT声明被认为是评价RCT报告质量的国际推行标准。2020年9月9日，SPIRIT-AI和CONSORT-AI适时出现，成为涉及AI的临床试验的首份指南。

反过来，为了更好地推进AI制药，AI工具箱中的几乎所有方法都被调用。

在过去的十年中，药物研发相关数据的数量急剧增加。各种各样的机器学习方法，例如朴素贝叶斯、支持向量机以及深度神经网络，正在证明它们在药物发现和开发中的作用。包括分子对接、虚拟筛选在内的各种制药应用中都使用了DNN（深度神经网络）。

不过总体来说，制药领域往往面临可用数据有限的情况，可用数据的产生往往耗时且需要高昂的资金投入，很多时候机器学习可用的往往是小数据集。与之相对应，小样本学习的发展是AI发展的重要方向，在化学反应预测、药物逆合成路线设计方面已有了应用。

迁移学习可通过挖掘相关数据集中包含的知识来解决数据稀缺问题，目前主要应用于分子性质和活性预测、分子生成和基于结构的虚拟筛选。

此外，联邦学习在处理药物研发可用数据的问题上也有重要应用。联邦学习是Google AI在2017年推出的一种新的机器学习协作形式，训练过程分布在很多用户之间。不同于传统的实验科学，AI需要大量数据来建模，而药物研发数据产生所需的高成本，严重影响制药公司分享数据的积极性。联邦学习技术的采用，可以在多家制药公司的本地设备上训练AI模型，在药物研发中已有应用案例。

国内外互联网和AI巨头如华为、腾讯、百度、Google等涉足制药领域的同时，带来了最先进的AI技术、算法。不过就AI本身来说，其可解释性、理解推理的局限性等问题确已显现，但这正是下一时期AI理论技术的突破重点。

数字化让事物摆脱物理形态的时空限制

数据产生于各种社会活动，在很早的时候就为人类带来价值，是人类文明的基石。后来随着科学的快速发展，数据扮演了更加重要的角色。进入移动互联网时代后，数据的产生越来越迅猛。如今，数据被认定为是一种生产要素，与土地、劳动力、资本、技术等传统生产要素并列。

从本质上来说，数据是事物性质、状态、关系的抽象。当围绕一个事物的数据越来越丰富，构建出事物的虚拟形态，并且这种虚拟形态一定程度上能够代表事物的物理形态的时候，事物的物理形态就不是可以调用和操作的唯一选项。这是虚拟科学、大数据能够兴起的根本原因。

数字化塑造了一个与物理世界平行的镜像世界，让原本分散存在的所有事物可以摆脱其物理形态在时间、空间上的“绑定”和限制，以虚拟形态进入同一条“河流”，出现在同一个空间。包括整个制药行业的所有要素和内容在内，万物数字化，万物互联和碰撞。坚实的数字化基础，是智能化的基本前提。

AI制药在探索和实践中前进

鉴于当前面临的挑战，制药公司对于能够促进新药发现和验证的先进技术存在巨大需求。全球范围内已有数百项制药公司与AI技术公司的合作。

可以说，传统的制药行业对于AI的态度正在经历从怀疑到兴趣。然而从兴趣到信任还有多远？尚不可知。

AI在制药中的应用，有望把AI的整个生态带入制药。那么未来，计算制药与传统制药是否会成为并行的模式，如同线上与线下（线上购物本质即为虚拟筛选）？尚不可知。

复杂的生物体系的无数变量能否被足够准确地定量和分析，用来发现新的药物靶点、更好地判断药物的作用效果？还有很多未知需要探索。

然而，无论AI是否能够重塑、变革药物研发过程，从药物研发全周期所有数据中获取价值都是未来的方向。

数据不等同于科学，但是几乎所有的科学进步，都是从数据中得到确认和判定。数据规模的持续增加，正在让药物研发数据演变为大数据。

而目前AI是处理大数据最理想和最有效的方法。

药物发现工作量巨大，仅靠人工耗时费力。AI可以增加研究人员的“认知带宽”，更快地缩小搜索范围，减少寻找新药的时间和成本。AI还可以自主筛选来自公共数据库、开源应用和先前临床试验的大量大数据，整合所有数据，并在此基础上形成假设。未来，AI与机器人技术将推动科学研究向“工业化”发展，药物研发人员将从大量的重复性工作中解放出来，有更多的时间来思考科学假设、集中精力投入到创造性的工作当中。

就模式来说，最佳的AI制药模式并非是建立纯粹的AI流程，事实上，人与AI结合往往优于单独的人类流程或AI流程。就如同国际象棋中，人类与计算机算法的结合通常可以击败单独的人类或计算机算法。

制药行业有庞大的、并且正在不断增加的数据，需要AI技术方法来梳理和开发；全社会各行业对于AI的关注、探索和应用尝试，势必加快AI技术方法的成熟和革新。如果“大规模数据→更准确模型→更好的药物→更多更好的数据”的循环逻辑在实践中落地成熟，AI制药将大大提速。

不过，任何技术的应用和推广很难一蹴而就，螺旋式上升、波浪式前进是新事物的发展规律。变革意味着要重新梳理、构建、处理与所有事物的关系，这一过程复杂、漫长、艰辛。AI与数据驱动的药物研发模式还需要更多更深入的探索和实践才能真正体现价值。

致敬药物研发的大时代。

（智药邦侯小龙）

----------- End -----------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

人工智能在药物研发中的应用

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天

生成图片，分享到微信朋友圈

人工智能在药物研发中的应用

您可能也对以下帖子感兴趣