查看原文
其他

Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力

智药邦 智药邦 2022-06-15

2021年6月30日,FDA/NCTR生物信息学和生物统计学部门主任Weida Tong(童伟达)和FDA/NCTR生物信息学和生物统计学部门AI研究团队技术负责人Zhichao Liu(刘智超)在Drug Discovery Today在线发表文章,文章总结了基于AI的语言模型的进展,以及其在药物发现和开发中的应用潜力。

以下是全文内容。



摘要

新药的发现和开发是昂贵的、耗时的,而且往往是低效的,有许多失败的例子。在AI的支持下,语言模型 (language models,LMs) 已经改变了自然语言处理 (NLP) 的格局,为更有效的药物开发提供了可能性。在此,我们总结了AI驱动的语言模型 (AI-powered LMs) 的进展,以及它们在帮助药物发现和开发方面的潜力。我们强调了AI驱动的LM在靶点识别、临床设计、监管决策和药物警戒方面的机会。我们特别强调了AI驱动的LM在开发COVID-19新疗法中的潜在作用,包括药物重定向,这可以外推到其他有可能导致大流行的传染病。最后,我们列出了其他的挑战,并提出了可能的改进方案。



前言

LM的目的,是通过使用不同的统计和概率技术,来确定一个给定的单词组合在句子中出现的概率。在AI的帮助下,LM可以表现出类似人类的学习过程,不仅可以预测单词,还可以理解语言。此外,LM获得的知识可以转移到其他任务中,如同人类经常从一个任务中学习、并将知识转移到另一个任务中。这场创新革命极大地增强了NLP的能力。基于AI的LM已经证明了它们在各种现实世界中的应用,如聊天机器人、自动翻译、客户体验、基于情感的新闻聚合和语言识别。在这里,我们描述的AI驱动的LM主要是基于神经网络架构的LM。

新兴生物技术的创新极大地提高了我们对疾病病因和发病机制的认识。然而,药物发现和开发仍然是一个耗时和昂贵的过程,受到高失败率和不确定性的困扰。从头新药发现和开发过程 (目前正在投入大量精力来完善、修正和改革) 特别强调以数据为导向的新治疗方法,来改善患者预后,降低成本。随着生物医学数据数量的迅速增加,更好地了解产生的数据的特点,以及所需的分析方法的类型,对于理解数据资源的潜力是很有价值的。

虽然人们的注意力往往集中在大型技术平台产生的"组学"数据和生物分析上,但基于文本的数据仍然是药物发现和开发过程中的宝贵信息资源。因此,传统的基于NLP的方法和工具已经被开发出来,以发现隐藏在这些资料中的信息。然而,迫切需要更先进的策略来利用这些日益丰富的可用数据,并紧跟最新积累的基于文本的资料。值得注意的是,由AI驱动的LM有可能为药物开发带来新的可能性,并迎来一个更快、更便宜、更有效的药物发现和开发的时代。

一些基于文本文件和AI的LM的应用已被证明在药物发现和开发的不同阶段是有用的 (图1) 。在临床前阶段,对复杂疾病的病理生理学的不完全了解是靶点识别的重要障碍之一。此外,动物模型可能无法反映人类疾病的基本机制。在临床阶段,病人的选择、招募和监测构成了一个战略挑战。在上市后阶段,目前的系统在有效和高效地检测、解释和分析安全信息的能力方面存在不足。此外,监管提交过程的复杂性可能会阻碍制药公司和监管机构之间的协调沟通。在这篇文章中,我们概述了AI驱动的LM在药物发现和开发方面的实际机会,并为关键挑战提供了潜在的解决方案。

图1 药物发现和开发的背景下,AI驱动的语言模型的作用。顶层 (绿色)是药物开发过程的总体阶段,下面一层 (蓝色) 是该过程的目标。下面两层 (黄色和粉色) 列出了与药物发现和开发每个阶段相关的文本资料,以及人工智能驱动的语言模型的机会。



AI驱动的语言模型

快速发展的LMs极大地提高了我们从文本中发现可用信息的能力 (Box 1) 。在AI的推动下,许多吸引人的LM基础设施,特别是基于transformer的LM,已经被开发出来,并在信息检索、文本分类、文本总结和情感分析中显示出潜力。

Box 1. 语言模型的演变

LM使计算机能够通过估计各种语言单位 (如单词、句子、段落等) 的概率分布来理解人类的语言。LM主要分为两类:基于计数的LM和连续空间的LM。基于计数的LM的经典例子是n-gram,其目的是构建句子的联合概率分布来预测单词。然而,n-gram LM的几个缺点限制了其在现实世界的应用。(i) n-gram LM不能推断出训练语料库中没有遇到的新的词序组合;(ii) n-gram模型不能考虑到词之间的语义关系。

基于计数的LMs的缺点导致了连续空间LM的想法的产生,即通过应用神经网络或降维技术来提取语言的句法和语义特征。Mikolov等人提出了Word2Vec,通过训练一个浅层神经网络来学习单词之间的相似性,从而生成单词的向量表示(即单词嵌入) 。Word2Vec是最广泛使用的基于神经网络的LM之一,为整个领域带来了突破性进展。

与其他单词表示模型一起 (例如GloVe和FastText) ,这些词嵌入技术需要更少的内存和减少的计算时间,并被证明可以大幅提高下游模型的性能。然而,单词嵌入在单词和向量表示之间提供了一种一对一的关系,并没有解决多义词的问题。随后,人们提出了RNN和LSTM来处理文本序列数据。然而,这两种算法存在梯度消失的问题,在处理长序列句子时有困难。最具创新性的突破性NLP框架是基于transformer的LM,谷歌的BERT模型是这种方法的一个突出例子。

基于transformer的LMs的核心是通过自注意力机制 (Self-Attention)和位置表示 (positional encoding)进行Seq2Seq (sequence to sequence)学习,这改变了我们处理文本数据的方式,从处理语言到学习语言 (Box 2) 。  

Box 2 基于transformer的语言模型的架构

目前有两种以不同学习场景开发的transformer在该领域占主导地位。BERT和Generative Pretrained Transformer (GPT)模型。  

BERT及其衍生品是用一个完整的编码器-解码器transformer建立的,它为下游的NLP任务进行了微调。基于BERT的模型架构与任务无关,需要有特定任务的数据集和特定任务的微调来实现模型性能的优化。然而,收集特定任务的标记数据可能具有挑战性,特别是在生物医学领域。此外,在这种模式下所做的泛化可能是不充分的,因为模型对训练分布过于具体,在训练分布之外没有很好的泛化作用。为了克服这些缺点,人们制定了两种策略。

首先,增加训练材料的规模和多样性,以提高模型对不同NLP任务的泛化能力。其中一个例子是Robustly Optimized BERTPretraining Approach (RoBERTa) 。除了原始的BERT训练语料,RoBERTa还用Common Crawl的新闻和故事语料扩展了训练语料。随后,该模型在GLUE基准结果中的表现比BERT和XLNet都要好2-20% (采用了动态屏蔽训练策略) 。第二,开发了调整后的训练策略来提高模型的性能。包括ARBERT, ELECTRA和DistillBERT在内的例子提供了精简的模型架构,而不损失预测模型的性能。 

GPT模型是基于自回归transformer的LMs。这些模型有一个特定任务的学习架构,没有密集的微调过程。GPT模型使用 "语境学习"的概念,模型在训练时发展出一套广泛的技能和模式识别能力,然后在推理时使用这些能力来适应或快速识别所需的任务。GPT-3最近发布,包括一个巨大的transformer模型,有1750亿个参数,用Common Crawl的45Tb压缩明文,加上高质量的参考语料 (如维基百科) 进行训练。GPT-3模型被证明在特定任务的数据集中,在各种NLP任务中用少量的学习即可取得更好的最先进的结果。
Seq2seq模型包括一个编码器和一个解码器的组合,旨在将序列从一个领域 (如英语的句子) 转换到另一个领域 (如法语句子的确切含义) 。深度学习模型架构,如循环神经网络 (RNN) 或长短期记忆 (LSTM) ,可用于开发编码器和解码器。编码器将序列作为输入,并将序列映射到内部状态向量或上下文向量中,然后将编码器的输出丢弃。生成的上下文向量可以封装输入序列信息,以促进解码器的预测。解码器的训练过程被称为 "teach forcing"。具体来说,解码器将编码器提取的上下文向量作为初始状态来生成输出序列。这些输出在未来的输出中会被考虑。Seq2seq模型已被用于解决复杂的NLP任务,如机器翻译、问答 (Q&A) 、聊天机器人、文本总结等。LSTM通过一个单元、一个输入门、一个输出门和一个遗忘门发挥作用,避免了梯度消失 (例如在RNN中看到的) 的问题。Transformer模型的主要革命性部分是可以直接访问序列的所有位置,相当于在编码/解码期间拥有序列的全部随机访问记忆。

基于transformer的LMs可以模仿一些类似人类的特征,即不断获取、微调和转移知识和技能 (图2) 。首先,基于transformer的LMs可以提供一个迁移学习框架。为此,学到的知识被储存在一个预训练的模型中,允许用户用渐进的可用信息或特定领域的知识来进一步训练。其中一个例子是BioBERT,它是一个经过预训练的语言表示模型,通过在PubMed的生物医学语料库中训练原始的BERT模型而得到的。BioBERT在大多数生物医学文本挖掘任务 (包括生物医学名称的实体识别、生物医学关系提取和生物医学问题回答) 中的表现优于原始BERT模型。同样的学习策略也被ClinicalBERT采用,它用电子医疗记录 (EHRs) 数据训练基于BERT的模型,以加强其临床应用。

图2 基于transformer的LMs可以模仿一些类似人类的特征。AI驱动的语言模型和人类智能的比较。(1) 终身学习 (绿色) ;(2) 应用知识 (蓝色) ;(3) 总结知识 (黄色) 。

人类可以运用正确的知识来解决相关问题;这一功能似乎也可以通过基于transformer的LM来实现。对于不同的任务,只需增加一个输出层就可以对预训练的语言模型进行微调,从而为一系列NLP任务创建最先进的模型。例如,同样的预训练BERT模型,通过一个微调层,在11个最先进的NLP任务中产生了更好的模型性能。这些NLP任务主要分为三类:文本分类、文本嵌套和问题回答。更令人鼓舞的是,BERT是第一个在两项任务中 (斯坦福问题回答数据集SQuAD和有对抗性的情况SWAG) 表现优于人类水平的模型。基于transformer的LMs能够总结不同资料中嵌入的知识。人类的学习能力之一就是准确地总结资料中的信息并将其转化为有用的知识。基于长序列的transformer模型已经被证明可以生成流畅、连贯的多句子段落;甚至整个维基百科的文章都可以通过这种方式创建,作为源文档的多文档总结。然而,长序列总结模型庞大的计算内存需求限制了它们的应用。谷歌新提出的Reformer模型通过采用局部敏感的散列技术,极大地提高了处理长序列的能力,这将大大扩展多文档总结的范围。



"fit-for-purpose"的AI驱动的语言模型的选择  

基于transformer的语言模型的多样性大大增强了处理非结构化文本的能力,适用于各种现实世界的应用。然而,在生物医学应用的背景下,选择和重新定位基于transformer的LM是一个挑战。在药物发现和药物开发中实施适合目标的基于transformer的LM受到多个因素的影响。重要的因素包括特定领域训练数据集的可用性、下游NLP任务和计算能力。在药物发现和开发中选择一个适合目标的基于AI的LM的关键步骤是"定义目的"、"管理数据的可用性"和 "衡量可扩展性"。

定义目的

AI驱动的LM在药物发现和开发的每个阶段都有潜力,但在寻求正确的AI解决方案之前,必须确定目的。例如,一家制药公司的科学家可能需要了解蛋白质靶点的生物学作用,然后整理治疗疾病类别的专利,以支持靶点识别和验证。对于这一点,一个能够汇总公开文献和医学专利数据库的AI问答系统可能是正确的解决方案。患者招募可能更想寻找一种自动途径来优先考虑临床中心和患者。因此,一个基于AI的病人匹配系统可能是有用的。药物评审员可能对能够从临床资料中检测安全信号的强大工具更感兴趣。为此,AI驱动的生物医学命名实体识别 (NER) 和实体关系提取方法可以作为选择。鉴于数据和需求的多样性,为任何数据驱动的假设定义一个目的是一个优先事项。

管理数据的可用性

训练基于AI的语言模型需要大量的文本。目前公开的预训练的语言模型主要是基于一般的知识来训练的,如书籍、新闻、网页、社会媒体和维基百科。一些特定领域的LMs,如BioBERT和ClinicalBERT,已经被提出来,通过使用公开的生物医学文献或去识别的EHRs来加强临床应用。然而,在微调过程中仍然需要标记的数据,并使模型适合于下游任务。但是标记数据的整理是一个具有挑战性和耗时的过程,其中需要大量的领域专业技术和知识。此外,在药物发现和开发过程中产生的数据对公司来说可能是敏感的,这对LM开发中的数据共享构成了挑战。因此,建议在选择合适的AI驱动的LM之前,清楚地了解数据的可用性和整理标记数据所需的努力。

尽管数据注释仍然是AI驱动的LM发展的瓶颈,但有几个成功的例子可以激发业界的兴趣,进一步加快和促进生物医学领域的"标记的数据"的发展。首先,众包的生物医学标签可以成为管理特定领域标签数据的有效途径。众包生物医学标签的概念旨在将生物医学数据注释外包给全球范围内的分布式专家群体。一些商业模式,如亚马逊Mechanical Turk,已被开发用于此目的。我们建议建立一个基于自愿的生物医学标签联盟,以促进生物医学数据的注释。第二,对公开的生物医学语料库进行重组,将有助于解决特定的生物语言学任务。例如,合并不同领域的特定语料库可以成为创建注释的生物概念模糊性数据的实用方法。第三,标签工具可以成为促进手工数据整理和注释过程的解决方案。最常见的出发点是用Excel/Google电子表格来处理常见的标注任务,如语音部分和命名实体识别的标注。然而,这可能容易出错,因为转录中的排版错误很常见,而且单元格和列也不是阅读文本文件的最直观方式。例如,基因名称错误在科学文献中很常见,有高达30%的基因名称被错误报道。一些标准的标签工具,如Prodigy、LightTag、TagTog和Datasaur.ai,为提供可定制性和处理高级NLP任务提供了更标准化的解决方案。

可扩展性评估

数据和模型规模、计算能力或训练程序的增加带来基于transformer的LMs的性能的提高。比较流行的AI驱动的LMs框架之间的异同 (表1) ,对支持模型的选择很有帮助。首先,在不同的任务中应用AI驱动的LMs时,速度很重要。例如,假设AI驱动的LM是针对病人监测过程的,在这种情况下,更快的推理速度被设定为最高优先级,以满足实时数据收集和分析要求。因此,蒸馏模型架构 (distilled model architecture) ,如DistilBERT、ELECTRA和ALBERT,可能是一个合理的起点,尽管几个百分点可能会影响预测性能。第二,AI驱动的LM开发需要巨大的计算能力。更多的资料和更高的模型参数会带来更好的性能,用自定义语料库重新训练这些模型的前提条件是更多的计算能力。例如,如果AI驱动的LM旨在从临床笔记中识别潜在的不良事件,那么预训练的BioBERT或ClinicalBERT是适当的选择,以测试从头开发模型的必要性。第三,集合的方法可能能够进一步提高性能。对于复杂的药物发现和开发任务,如病人招募,单一的模型可能仅仅抓住了复杂性的一个方面,而共识的方法可能会改善病人的匹配。

表1 基于transformer的LMs的一些例子



药物发现中由AI驱动的语言模型

人工智能在药物发现和开发中提供了巨大的潜力 (表2) 。在此,我们强调AI驱动的LM在不同药物开发阶段的潜在机会,并提出进一步改进的可能方向和解决方案。

表2 基于AI的NLP应用于药物发现的部分实例

机会1:AI驱动的语言模型加速靶点识别

靶点识别是药物发现管线中最关键的步骤之一,用以确定疾病的生物起源并设计适当的干预措施。通常,靶点识别涉及科学和经济角度的各种考虑。由不同学科的专家组成的项目组,需要确定疾病领域和预期的治疗效果。然后,他们需要寻找适合该疾病的潜在生化、细胞或病理生理机制。接下来,可以对涉及不同方法的靶点进行全面调查,以进一步确定开发的优先次序。重要的是,被优先考虑的目标应该在疗效、安全性和知识产权方面具有竞争力。大量的信息可能广泛分布在公共领域的文献、专利文件和生物医学数据库中。使用传统的基于简单搜索的方法来手动整理数据往往是一个巨大的挑战。

AI驱动的LMs可以推进研究结果并加速靶点的识别。自动生物医学命名实体识别 (BioNER) 是一种实用的方法,可以发现嵌入在自由文本文件中的化合物、基因、靶点和疾病之间的隐藏关系。Khan等人提出了一个使用BioBERT的BioNER多任务学习架构。这些方法优于最先进的方法,如双向LSTM (BiLSTM) 、条件随机场 (CRF) 和具有共享字符和单词层的多任务学习神经网络 (MTM-CW) ,用于化学、疾病和基因实体识别。Nourani等人开发了一个混合迁移学习框架 (Deep-GDAE) ,用于从PubMed文献中提取生物医学关联,它整合了基于损耗的BiLSTM和基于从BERT和BioBERT基础模型中提取的特征信息的卷积神经网络 (CNN) 。Deep-GDAE在基因-疾病关系提取方面取得了很高的性能 (F-measure的79.8%) 。AI驱动的LMs的另一个有前途的应用是总结生物医学文献中的基本信息,以加速靶点识别。Moradi等人将BERT的基础和大型模型用于生物医学文本的总结,以创建一个基于PubMed全文的合成摘要。这些方法取得了最先进的结果;通过使用BioBERT的特定领域的上下文嵌入,可以进一步提高性能。

基于transformer的LM的概念已经被利用到化学信息学中,以推进药物-靶点关系的预测。SMILES是一种全面而直接的化学语言,其中分子和反应可以用代表原子和键符号的ASCII字符来指定。同样,FASTA在分析蛋白质结构和功能方面也很有用,因为它可以找到蛋白质或DNA序列之间的局部或整体相似性区域。受到基于transformer的预训练LM的启发,SMILES或FASTA文件中的大量信息可以被同化,就像人类对待句子一样,掌握分子的语义以及它们与下游任务的关系。与早期基于深度学习框架的化学表征尝试 (如Wod2vec和变异自动编码器 (VAEs)) 不同,基于transformer的化学表征将注意力机制 (位置表示, positional encoding) 纳入学习过程,以最大限度地提取信息。其中一个例子是SMILES transformer,它从ChEMBL数据库中训练了861,000个SMILES,这是一个化学生物测定库。学习到的化学表征被微调为不同的化学物理特性、治疗靶点和毒性预测信息。这种方法明显优于传统的基于指纹的策略。 

其他AI框架也被用于基于SMILE序列的虚拟筛选。Li等人提出了一个迁移学习框架,名为分子预测模型微调 (MolPMoFiT) ,用于预测给定化合物的物理和生物端点,如亲脂性和血脑屏障渗透性。MolPMoFiT包括两个部分。首先,作者根据ChEMBL数据库中的100万个SMILE序列开发了一个加权下降的LSTM模型,以预测SMILE序列中的屏蔽原子。其次,将训练好的权重下降的LSTM模型进行转移,并对下游任务进行微调。类似地,Fabian等人也采用了迁移学习框架,用BERT训练SMILES序列,然后将其应用于69个单独蛋白质靶点的化合物结合亲和力的虚拟筛选。

AI驱动的LMs有可能评估未满足的医疗需求,并为高通量筛选 (HTS) 提供优先目标。加快了解当前市场和潜在差距的机会可以促进早期药物开发规划。然而,靶点识别仍然依赖于实验数据的产生;AI驱动的LM有可能促进对数据的理解,支持靶点识别和优先排序。目前,AI驱动的LM模型提供了一种更翔实的方式,将基于文本的输入表示为n维矢量或高层表示。然而,为了进一步提高靶点识别性能,微调的模型对于不同的下游任务至关重要。一些更多的比较研究和评估似乎列出了AI驱动的模型与传统方法相比的优点和缺点,可能会指导不同AI模型的fit-for-purpose的选择。 

机会2:AI驱动的语言模型重塑临床试验

临床试验是资源密集型的,约占药物开发周期成本和时间的一半,但失败率却很高。不成功的临床试验有各种原因,其中一些是患者群选择不理想、无效的患者招募策略和不成熟的患者监测系统。各种基于文本的数据集,包括电子健康记录 (EHR) 、临床试验数据库、试验公告、资格数据库、社交媒体和医学文献,为AI驱动的LM提供了一个独特而直接的入口,以改善临床试验结果。 

在美国,大约80%的临床试验没有按照患者招募时间表进行。纳入/排除标准在适宜性、资格、动机和授权方面的复杂性给患者招募带来了挑战。疾病亚型的不匹配可能使患者不适合,病史记录的不一致可能使适合的患者不符合条件。患者的信息往往是不一致的,而且是以非结构化的形式记录的,这就妨碍了对特定的纳入/排除标准进行全面的患者筛选。

由AI驱动的LM能够实现患者招募过程的自动化,通过先进的信息检索和优先级机制减轻人工工作量的负担。首先,AI驱动的LM可以学习医学术语及其同义词,从可能是自由流动和非结构化的临床文件中检索出有用的信息。例如,疾病的异质性往往阻碍了对病人适宜性的判断;基于双向GRU架构的递归模型与上下文嵌入可以有效地促进从EHRs中提取疾病多标签。其次,AI驱动的LMs可以将入组标准综合成一个标准化的上下文查询,以改善临床试验匹配过程。有一个例子描述了使用基于BERT的上下文嵌入来匹配病人的入组标准。在跨模型学习基础设施的支持下,DeepEnroll可以将招募标准和病人的EHR共同编码到一个共享的潜在空间来进行匹配推理。最终,该模型的表现优于基于规则的匹配策略,F值 (衡量测试的准确性) 提高了12.4%。第三,AI驱动的LMs可以与其他新兴技术无缝结合,以加快病人分层。EHR数据、基因组学数据或图像数据的结合为推进精准医疗带来了巨大的希望。AI驱动的LMs可以通过从EHR、登记处、医院记录和健康保险数据以及生物库、基因组学和数字表型信息中深度挖掘,来提高表型分析能力。最后,由AI驱动的LM能够实现更高的患者注册率和更好的临床实验中心识别,从而实现高效的患者招募。然而,中心识别由多因素决定,比如中心的以往经验、与卫生非营利组织和病人组织的联系、病人保留的历史数据和成本效益等。可以通过考虑这些不同的因素,利用AI驱动的LM来支持临床决策,从而做出一个适当的决定。

成功完成临床试验证明了对患者招募的大量投资是正确的,但所有临床试验的患者平均退出率约30%。为克服临床试验招募和保留方面的挑战所做的努力仍在继续。这些努力可以保障受试者的福祉,确保遵守试验规则和程序,提高依从性和保留率,收集可靠和高质量的试验数据点,并改善真实世界的结果监测。AI驱动的LMs,作为ML和数字技术的结合,可以在加强病人监测方面发挥重要作用,以降低退出率,形成更有效的数据摄取框架。 

数字健康技术,如可穿戴设备、语音技术和计算机视觉,使远程病人监测成为可能。这些新兴技术还能够收集纵向和实时的生物识别数据集,为药物治疗和治疗方案的长期、真实世界的影响提供独特的见解。同时,这些技术的实施可以减轻患者在临床试验期间的任务,提高他们的依从性。更重要的是,AI和ML (尤其是深度学习模型) 可以用来进行实时的病人监测,以检测和记录相关信息。例如,在AI的支持下,语音助手已经逐渐被用于临床试验中的各种任务,包括提醒病人预约、记录病人日记、促进现场调查人员和赞助商之间的合作,以及提高医生的认识。

尽管由AI驱动的LM以及数字技术有可能改变临床试验,但迄今为止的大多数干预措施尚未实现这一潜力。关于在临床试验中采用AI和移动平台的争论正在进行中。迫切需要监管指导,以利用这些有前景的工具和技术来推动临床试验。为了填补这一空白,FDA宣布了一个新的战略框架,以促进使用真实世界证据来支持药物和生物制品的开发。另一方面,为了获得患者对AI和数字技术的信任,RWE的价值应该得到验证和沟通。一项关于患者接受可穿戴设备和AI的患者社区研究 (ComPaRe)表明,只有20%的参与者认为该技术的好处大大超过了危险。此外,作者发现,35%的患者会拒绝将使用生物识别监测设备 (至少一种现有的或即将推出的) 和AI工具的干预措施纳入他们的护理。

机会3:AI驱动的语言模型协助监管过程

制药公司发送给卫生监管机构的文件档案是合规的证据。这个过程包括许多法律、监管要求和监管指南,这些都有助于确定制药公司如何制造他们的药物、设计临床试验、报告安全信息以及制作宣传材料。FDA提倡以电子格式提交标准化的研究数据,用于investigational new drugs  (IND) 、new drug applications  (NDA) 和biologics license applications  (BLA) 的监管。例如,FDA数据标准目录指出,这些数据集的格式应遵循临床数据交换标准联盟 (CDISC) 非临床数据交换标准 (SEND) 。这些标准目前支持单剂量普通毒理学、重复剂量普通毒理学和致癌性研究。

同时,FDA有一个内部数据库,在数据仓库中维护和组织提交的资料,如其文件归档、报告和监管跟踪系统 (DARRTS) 。在药品开发周期中,需要基本的监管材料来进行监管。这些材料,如监管指南、IND安全报告、NDA/BLA申请、患者陈述、药品标签和FDA不良事件报告系统 (FAERS) ,是一个丰富的信息来源。在支持RWE的生成,以利于监管决策和更好的患者结果方面,由AI驱动的LM为医务人员和其他确保药物安全和有效的人员提供了前所未有的机会。FDA提倡开发知识管理系统,以便更好地利用AI,在监管过程中推进NLP。尽管NLP衍生的临床证据尚未被纳入监管提交文件,但现在是时候考虑如何在不破坏数据完整性和未来接受度的假设下实现这一点。

标准化的医学术语可以准确地表达存储在规范性文件中的医学知识,以实现高效、循证决策,并在利益相关者之间进行最佳沟通。建议的编码系统被推荐用于不同的领域,如用于疾病的国际疾病分类 (ICD) 、用于医学的WHO解剖治疗化学分类 (ATC) 、用于诊断的医学系统命名法-临床术语 (SNOMED-CT) 、用于信息传递的健康级别7 (HL7) 和用于不良事件的监管活动医学词典 (MedDRA) 。AI驱动的LM可以促进监管文件的编码,以便更有效地审查、传递和调用信息。

生物医学命名实体规范化旨在从文档中识别生物医学实体,并进一步将检测到的实体与给定知识库或本体中的相应概念联系起来。Ji等人提出了一个基于BERT的排名模型,用于SNOMED-CT编码、MedDRA编码和医学主题词 (MESH) 编码的生物医学实体规范化。该模型采用了领域专用的BERT架构,包括BioBERT和ClinicalBERT,并且与没有任何医学术语知识的最先进方法相比,性能卓越。值得注意的是,作者在EHR笔记上对BERT模型进行了新的训练,并进行了多标签标注,以更好地识别临床词汇。所提出的模型优于已报道的模型,并进一步证明特定领域的BERT模型可以提高下游任务的性能。

不同生物概念类型之间明显的模糊性是自动bio-NER方法开发的一个潜在障碍。这种模糊性存在于特定领域内和其他生物概念之间。缩写的模糊性意味着一个实体可以映射到多个生物概念。例如,缩写 "BD"不仅可以代表宾斯旺格氏病,也可以代表白塞氏病;这个例子相对容易解决。然而,一些跨生物概念的模糊性对自动bio-NER方法来说是个挑战。例如,CO2可以指化学中的二氧化碳和细胞色素C氧化酶亚基II(COII)。bio-NER是基于不同领域的标准化语料库而开发的。统一的生物医学语料库可以成为生物医学记录歧义的潜在解决方案。例如,Wei等人开发了一个生物医学语料库,用于管理在一个或多个概念类型之间存在歧义的生物医学术语。通过询问LSTM和CNN使用集合模型,该模型可以达到91.94% (微观平均) 和85.42%(宏观平均) 的模糊实体识别的F1分数,优于transformer模型,如BioBERT。因此,我们建议进一步努力规范生物概念以提高自动bio-NER方法的性能。  

决策过程与监管框架联系在一起,通过整合不同的数据集产生一致的结果。医务人员不仅要审查提交的文件,还要考虑到历史数据和相关文件,以产生证据并支持决策,这是一个复杂而耗时的过程。目前与监管有关的数据库都是独立编制索引和维护的,彼此之间没有相互联系。更重要的是,索引策略主要是基于身份,不存在实体-实体和文件-文件类型的语义关系。审查人员必须从一个数据库转移到另一个数据库来收集相关信息。在AI的支持下,语义搜索引擎可能是一个潜在的解决方案,可以提高信息检索的有效性,为审查员提取最相关的资料

与词法搜索不同的是,搜索引擎寻找查询词或其变体的字面匹配,语义搜索可以搜索并对相关性进行意义排序。一些早期的生物医学问答 (Q&A) 系统的尝试,如BioBERT,已经开拓了一个新的方向。在此基础上,开发了一个公开的生物医学语义索引和问答的评估基础设施,以评估所开发的语义搜索引擎的性能。为了充分利用语义搜索引擎在监管领域的优势,我们强烈建议监管机构应该与业界合作,开发一个基于监管的语义搜索引擎,以协助监管材料的审查。为了促进这项工作,我们列出了向公众开放的监管数据集,以支持这些工作 (表3) 。

表3 促进基于AI的语言模型在监管方面应用的公开的FDA数据集

机会4:AI驱动的语言模型推进上市后监测工作

上市后监测是指药物进入市场后的药物安全监测过程,是药物警戒科学的重要组成部分。上市后监测的主要目的是进一步完善、确认或“反驳”药物或设备在普通人群中使用后的安全性,并对各种医疗状况进行监测。市场后监测数据主要来自:(i) 自发/自愿报告的病例 (如FAERS、地方或区域联合委员会要求) 和科学文献出版物;(ii) 观察性研究,包括自动医疗数据库/社会媒体和随机临床试验;以及(iii) 主动监测,如药物诱发肝损伤网络 (DILIN) 和FDA哨点倡议。这些真实世界数据 (RWD) 和RWE数据集在医疗决策中的作用越来越大,并被FDA采用,来监测上市后的安全性和有效性,以及做出监管决策。上市后阶段积累的安全数据为AI深入挖掘安全信号和推进药物警戒提供了很好的资源。 

AI驱动的LMs也被证明有助于提高药物-有效性关联的检测,以及破译有效性和临床参数之间的因果关系。社交媒体已逐渐成为药物不良反应 (ADR) 监测的主要资源之一。Breden等人通过整合BERT-大型模型、BioBERT和ClinicalBERT提出了一个集合模型,以在Twitter推文中产生一个增强的自动ADR检测。从临床笔记中提取关系是检测AE和关系之间因果关系的一种实用方法。Guan等人将BERT模型和Edge采样相结合,从电子健康记录1.0 (MADE) 中识别ADR和疾病关系,并提高了性能。这个开发的模型可以用来从非结构化文件中提取因果关系。



案例:AI驱动的语言模型对抗新出现的传染病

新出现的传染病一直是对公共卫生的威胁,COVID-19就是最近的一个例子。在本综述发表时,COVID-19已经感染了3100多万人,死亡人数超过961,000,并造成了灾难性的社会和经济损失。全球都在努力开发有效的治疗方法来对抗这种毁灭性的致命疾病。令人鼓舞的是,AI在对抗冠状病毒大流行的战斗中被证明是非常宝贵的。在这里,我们说明了AI驱动的LM如何能够帮助开发COVID-19的治疗方法 (图3) 。

图3 AI驱动的语言模型用于加速COVID-19的治疗发展。图示说明了潜在的机会、数据资源和关键问题。

COVID-19搜索引擎

COVID-19可能是此刻科学领域最热门的话题,仅在2020年就发表了超过2万篇论文。这个数字还在成倍增加,平均每天有300篇文章被发表。已发表的文献是促进COVID-19治疗方法发展的丰富资源。然而,有太多的出版物,任何研究人员都无法阅读。人们已经做了一些初步的努力 (CORD-19数据集) ,创建了迄今为止可用于数据挖掘的最广泛的机器可读的COVID-19冠状病毒文献集。由AI驱动的COVID-19搜索引擎是一个很好的解决方案,可以帮助研究人员浏览科学文献以解决不同的问题。人们已经开发了50多个搜索和发现工具,并用于各种主题,如药物再利用、与其他疾病的相互作用、感染、按人口统计的死亡率和管理政策等。这些由AI驱动的搜索引擎允许研究人员提出具体问题,如 "什么已批准的药物可能会治疗COVID-19?

更安全的药物再利用

药物重新定位和重新使用被作为COVID-19治疗的快速药物开发范式加以推广。一些重新使用的候选药物,包括氯喹和羟氯喹,最初被FDA批准用于住院病人,只在仔细的心脏监测下使用,因为有心律问题的风险。这两种药物用于COVID-19现在已经被撤销,因为证据表明它们不太可能成为有效的治疗方法。氯喹或羟氯喹出现QTc延长的潜在风险被列入FDA批准的药物标签中,用于其最初的适应症。AI驱动的LMs可以应用于提取再利用药物和其潜在有效性之间的关系,以及再利用药物安全性的优先次序。

此外,COVID-19对世界各地的弱势人群和已有病症的患者产生了不成比例的影响。患有COVID-19和已有病症的患者以及老年患者遇到药物-药物相互作用 (DDI) 的概率很高,因为他们更可能服用多种药物。AI模型可用于提取COVID-19再利用候选药物与其他药物之间的潜在DDI,以进行预防。

临床试验优化

治疗COVID-19病人,迫使医生在两个同样没有吸引力的选项中做出艰难的决定。(i)超说明书用药,希望能有一些好处;或(2)用标准的支持性护理治疗严重呼吸道疾病的患者。在通过RCT确认有效的治疗方法之前,这种情况将继续存在。根据clinicaltrial.gov的统计,目前有超过2900项与COVID-19有关的临床试验。临床试验中的入组患者数量、年龄组和人口分布变化很大,试验发起人之间有可能产生争议。例如,根据不同的临床试验,对羟氯喹的治疗或预防效果有争议。目前,REMAP-CAP建议在全球几十家医院进行随机对照试验,利用AI指导研究人员对COVID-19进行最有效的治疗。


结束语

由AI驱动的LM有巨大的潜力来改变药物发现和开发管线的每一步。因此,我们期望不同的利益相关者能够实施更多的调查和实际应用。我们已经说明了AI驱动的模型在药物发现和开发中的潜在机会,重点是AI驱动的LM在加速靶点识别、优化临床试验、促进监管决策和加强药物警戒方面的作用。此外,我们强调了AI驱动的LMs如何在对抗COVID-19大流行病中促进治疗方法的发展。然而,AI驱动的LMs在药物发现中的实施仍处于起步阶段。此外,除了AI驱动的LM,其他基于AI的模型也已被提出,并在解决不同的药物发现和开发问题方面显示出前景。这些都不在本综述的范围内,但我们建议仔细研究其他基于AI的模型,这些模型可能与AI语言模型相结合,以加强药物发现和开发。

人工智能驱动的LMs是一个快速发展的领域,许多模型架构已经被提出。然而,药物发现和开发中的大多数应用都是基于BERT及其衍生产品。其他新开发的LM声称在一般领域的评估数据基础上有卓越的性能和实力。这些基于transformer的LM在药物发现和开发中的效用仍有待于通过进一步的调查和严格的评估来确定。为了全面评估不同的基于transformer的LM在药物发现和开发中的各种任务,迫切需要更多的生物医学领域的标准基准数据集,如BioASQ和生物医学语言理解评估 (BLUE) 。

学习特定领域的语料库和知识对LMs的好处已被证明。然而,这些模型是在BERT-基础模型的基础上重新训练的。通过使用BERT大型模型,预计模型的性能会得到改善。此外,我们强烈建议通过使用其他监管相关的文件来重新训练这些先进的基于transformer的LMs,以加强它们在监管过程中的应用。此外,新颖的模型架构,如GPT-3,在处理下游任务时显示出潜力,而没有与任务相关的微调数据集。如果获得了有利的性能,应该对生物医学应用进行进一步的调研,这可以扩大在药物发现和开发方面的效用。

能够解释AI驱动的LM如何用于药物发现和开发,对于建立信任至关重要。大型LM可以产生强大的上下文表征,推动许多NLP任务的改进。我们探索这些上下文表征的生物相关性的能力将加强在药物发现和开发过程中的采用。最初的努力,如ExBERT,已经被提出来,通过将人类指定的输入与大型注释数据集中的类似语境相匹配,来提供对语境表征意义的洞察力。

在重现性方面,AI面临挑战,因为研究人员很难重现许多重要的结果,这阻碍了它们在现实世界的应用。一些联盟的努力 (Kaggle challenge),可能是一个合适的平台,可以对AI驱动的LMs与生物医学数据 (如EHR或PubMed文献) 的重现性进行全面评估。

人工智能驱动的LMs已被应用于生物医学的许多不同领域。AI驱动的模型在药物发现和医疗保健的所有领域的影响已经很明显了,特别是在改变临床试验设计方面。传统的NLP以及基于规则的匹配策略也被广泛地应用于药物发现和开发。我们认为基于AI的LM可以作为传统方法的补充,促进药物发现和开发。在此,我们总结了AI驱动的LM所带来的挑战和机遇,以激发业界的努力,进行进一步的评估,并在药物发现和开发中更好地定位和促进AI驱动的LM。 

作者传记

Zhichao Liu(刘智超)

Zhichao Liu是FDA/NCTR生物信息学和生物统计学部门的人工智能研究团队 (AIRForce) 的技术负责人。刘博士的背景跨越了化学、生物学和计算机科学领域。在过去的十年中,他通过设计、实施和部署AI/ML解决方案,领导了许多监管科学的前沿项目。具体而言,刘博士为人工智能驱动的药物重定向开发了一个标准管线,从先进监管科学的角度,帮助业界寻求加速药物开发的最佳途径。此外,刘博士还开发了用于促进预测性毒理学的AI/ML解决方案,其成功模式被业界和监管机构采用。刘博士获得了5个FDA范围内的奖项,9个NCTR级别的奖项,2个科学社区级别的奖项,以及100多篇同行评议的出版物。

Weida Tong(童伟达)

Weida Tong是FDA/NCTR的生物信息学和生物统计学部门的主任。他监督和领导FDA引领的微阵列和测序质量控制 (MAQC/SEQC) 联盟,分析新兴基因组技术的性能和实际效用,强调监管应用和精准医疗方面的作用,发表了300多篇同行评审的论文。为数字健康和药物重定向开发ML和AI方法;对各种毒理学终点 (如致癌性)进行分子建模和QSARs。
参考资料
Liu Z, Roberts RA, Lal-Nag M,Chen X, Huang R, Tong W. AI-based language models powering drug discovery anddevelopment. Drug Discov Today. 2021 Jun 30:S1359-6446(21)00281-6.

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


FDA发布人工智能/机器学习行动计划
美国FDA如何监管医疗AI:监管框架和当前获批产品
国家药监局关于发布人工智能医用软件产品分类界定指导原则的通告
苏安|人工智能在药物合成设计中的应用
Nat Biotech|北京大学谢正伟:利用深度学习从转录谱中预测药效
郭天南|人工智能+蛋白质组学:药物研发的生物学底层变革
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态
利用人工智能和自动化改造药物发现
Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存