经纬行研 | 凤凰台上凤凰游:AI技术在小分子药物筛选中的应用
前言
近年来,AI辅助新药研发领域大潮迭起,融资市场也频频传来捷报,多家企业完成了高额融资。2020年9月,AI驱动药物研发公司晶泰科技宣布超额完成3.188亿美元C轮融资,创下全球AI药物研发领域融资额的最高纪录。同月,AI临床阶段药物研发公司Recursion Pharmaceuticals也完成了2.39亿美元D轮融资。2021年6月22日,AI制药公司英矽智能获得2.55亿美元巨额融资轰动医药界。资本市场的热捧折射出对AI在制药领域的热切期待。本期我们将介绍AI技术在小分子药物临床前筛选中的应用。
-一-
研究背景
20世纪发现的大多数药物都是化学合成的小分子药物,它们占已经上市药物的90%。小分子药物的优势包括简单的生产和管理路线、特异性低、保质期稳定。传统的药物研发中,当某种疾病的靶点确定后 ,我们会先找到一个先导化合物。接下来我们会针对先导化合物的活性或类药性(诸如水溶性不好、吸收性差、毒性以及代谢性问题)等方面的不足进行改进,比如对先导化合物的结构进行改造,或针对该药物的靶点继续探索新的药物分子结构。经过临床前研究拿到合适的候选药物分子,进入临床一二三期研究,最终成功上市。
然而,现代小分子药物的发现仍然是一个漫长、昂贵且往往不容易成功的过程。把一个分子推向上市的平均时间是10-12年。德勤去年发布的报告指出,大型药企在新药研发上的投入产出比越来越低,排名前12位的制药公司在新药研发上的内部回报率IRR已从2010年的10.1%下降至2019年的1.8%(见图一)。IRR的持续走低来自于两个方面,一是不断上涨的研发成本,二是不断下降的峰值销量预期。
目前药物发现的成本约占所有开发成本的三分之一。最初的10000个分子中经过筛选,只有10个分子进入临床试验。此外,进入临床I期的化合物的成功率略低于10%,而且近10年内还没有增加。考虑到将一种药物推向市场的成本不断增加,预测准确度提高10%可以节省数十亿美元用于药物开发的费用。在药物研发的low hanging fruits即将被采摘殆尽时,药企急需在研发层面寻找突破性的方法论。
图表 1头部制药公司不断下降的IRR(德勤,2020)
寻找提高新药上市效率和成本效益的方法对该行业至关重要。实现这一目标的一个方法是提高药物发现的准确性、可预测性和速度,近年来,随着人工智能技术在无人驾驶、图像识别、辅助诊断等领域不断掀起新的热潮,药物研发界的目光也逐渐投向人工智能技术。
本期我们将介绍人工智能算法简介和分子表示形式、人工智能在靶点发现中的应用、人工智能在药物虚拟中的应用、人工智能在药物ADMET特性中的应用等方面。
-二-
药物研发中的人工智能算法
人工智能利用能够解释和学习输入数据的系统和软件,为实现特定的目标做出独立的决定。人工智能在医药领域的应用正在不断扩大,人工智能涉及多个方法领域,如推理、知识表示、解决方案搜索,其中包括了机器学习(ML)的基本范式。ML的一个子领域是深度学习(DL),它涉及人工神经网络(ANN)。它们包括一组相互关联的复杂计算元素,涉及类似于人类生物神经元的“感知”,模拟人类大脑中电脉冲的传输。
神经网络涉及各种类型,包括多层感知器(MLP)网络、递归神经网络(RNNs)、和卷积神经网络(CNNs)。以下我们将介绍几种主要的人工智能算法:
2.1人工神经网络
多个神经元相互连接就组成了神经网络,每个神经元都通过接收前一层网络传递来的信息,经过处理后,再传递给下一层。按结构来分,神经网络由:输入层、隐藏层和输出层组成。输入层即原始的特征输入。除输入层和输出层外,其他的就是隐藏层。
图表 2 神经网络示意图
2.2深度前馈网络(MLP)
从输入到输出的过程中不存在与模型自身的反馈连接。这一类典型的模型是基于化合物的一系列结构特征及理化性质预测其对特定药代动力学性质或毒性等,初始的一系列特征值经过深度神经网络一层层前馈传递,最终输出我们想要预测的某一个定性或定量的数值。
作为一种特殊的前馈神经网络,CNN的特点在于每层神经元节点只响应前一层局部区域内的神经元,而非全连接网络中的每个神经元节点响应前一层的全部节点。相较于其他网络类型,卷积操作的局部空间参数共享机制(平移等变性)使得需要优化的参数数量大幅下降,从而提高了模型的训练效率。
图表 3 DNN、CNN、RNN示意图
图是一种常见的非结构化数据结构,对药物分子和药物与靶点的相互作用也是一种自然地描述方式(例如以小分子药物中的原子为节点,化学键为边可以构成图结构)。
近年来,以图作为数据的图神经网络领域研究热情日益高涨,在网络数据分析、推荐系统、物理建模等领域都取得了突破。图神经网络由多层图卷积操作和激活函数等构成,最终得到各个节点的表示,可进行网络中节点的分类、新连接的预测、图与子图的生成等任务。在药物研发领域,以小分子图表征作为输入、活性指标作为输出的图神经网络已经有一定的探索,是热度较高的新兴研究方向。
想象一幅太极图,“两仪”好比生成器和判别器,生成器负责“生”,判别器负责“灭”;生成器用于合成“假”的样本,判别器用以判断样本是真实的还是合成的;生成器的目标是尽可能造出能迷惑判别器的、“仿真”的样本,判别器则尽可能识别出生成器制造出的假样本。在这样“互相掰手腕”的过程中,对抗不是目的,在对抗中让两方的能力都得到成长并臻于完美才是真正的目标。对应到在AI药物设计的问题中,生成器负责生成大量新结构的药物分子,而判别器则负责判断这些药物是否有活性,通过不断的对抗,以期最终得到一个可以准确预测活性的判别器和生成有效新分子的生成器。
图表 4 生成对抗网络GAN示意图
受行为心理学启发而来的一个机器学习领域,关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。与传统的监督学习不同,强化学习并不直接从数据学习,而是通过“实验”学习。在强化学习中,并不直接给决策器的输出打分,决策器只能得到一个间接的反馈,而无法获得一个正确的输入/输出对,因此需要在不断的尝试中优化自己的策略以获得更高的收益。Insilico Medicine公司开发的AI系统就是生成对抗模型与强化学习的联合,从而更高效地生成新的候选化合物。
2.7循环神经网络(RNN)
用以建模序列化数据的一种深度学习模型,RNN通过将神经元网络串行进行序列化数据的处理。不同于前面的深度前馈网络,循环神经网络更擅长于处理序列数据,而在AI辅助药物领域,一类最典型的序列数据就是化合物的SMILES结构式,也因此,循环神经网络被大量应用于以SMILES格式作为输入的化合物活性预测问题中。除此之外,文本信息也是一类非常常见的序列结构,因为文献挖掘潜在靶点的AI模型中也大量应用循环神经网络。
2.8自动编码器(AE)
AE是用于无监督学习的NN。它包含一个编码器部分,它是一个NN,用于将从输入层接收的信息转换为有限数量的隐藏单元,然后将解码器NN与具有与输入层相同数量的节点的输出层耦合。代替预测输入实例的标签,解码器NN的目的是从较少数量的隐藏单元重建其自己的输入。通常,AE的目的是为了降低非线性维数。最近,AE概念已经越来越广泛地用于从数据学习生成模型。
图表 5 AE、VAE、AAE示意图
就目前来看,智能制药这一领域仍然主要以自然语言处理技术中的RNN、CNN以及图卷积神经网络(GCN)为主。深度学习领域中,近年来最流行的卷积神经网络(CNN)在制药行业的表现和应用,并没有它在图像识别场景中那么广泛,但仍然有精彩表现。
将NLP技术应用于制药行业是和SMILES编码分不开的,每一个药物分子或者化合物都可以用一串SMILES码这一简化的化学语言表示出来。既然化学分子可以看作一种语言,专注于语言处理的各种NLP技术便自然而然地迁移到制药领域中来了。
例如在药物合成路线设计的逆合成分析里面,从产物到反应物,可以看作是一句SMILES码语言到另一句SMILES码语言的翻译,这样就可以直接利用互联网公司开发的各种AI技术来进行化合物的路线设计了。“翻译”概念的引入,使得其表现已经超过了利用化学反应模板的传统方法,足以彰显人工智能技术是制药领域不容小觑的一股新生力量。
除了NLP技术之外,图卷积神经网络(GCN)技术也是一个很强大的解决制药问题的技术。GCN是把一个化合物分子看为图的形式,将每个化合物的原子看作图的顶点,每个化学键当做是图的一个边,并把图论与卷积论结合在一起,因此,GCN便在制药领域应用开来,并显现了其强大的生命力。
此外,深度学习中的各种技术在不同的制药环节也大放异彩。比如变分自编码器(VAE)、对抗神经网络(GAN)在分子生成中的应用;蒙特卡洛树搜索技术在化合物路线设计中的应用等等。
-三-
数据的输入和输出
机器学习问题大体上分为三类,监督学习,半监督学习,强化学习。例如以药物性质预测任务来讲,我们可以把它划分一个二分类的监督学习任务。
那么此时对于模型的输出,只有两种结果(0,1),也即是否该药物具有某种性质。有则为1,无则为0。而对于模型的输入,则有多种表示方式。对于机器学习算法而言,如果该特征本身是数值变量那么可以使用它本身作为输入,对于类别变量而言,最直接的方式便是通过one-shot encoding的方式进行表示,那么同样的,对于一个化合物分子,不管是大分子还是小分子,其均有相应的结构与之依附,那么对这些结构的不同表示方式,也就决定了模型的特征表示方式。总体主要包括如下分类:
3.1 Fingerprint
其中表示药物的一种方法是分子指纹。指纹的最普遍类型是一系列二进制数字(位),代表分子中是否存在特定的子结构。因此,药物(小化合物)被描述为0和1的向量(数组)。如下图所示:
图表 6 分子指纹
这种表示方式的优点是简单快速,而且也在文献中被广泛使用1。但是,很明显,将分子编码为二进制向量不是一个可逆的过程(这是有损的转化)。即,我们可以将一个能够表示结构信息的分子式编码成分子指纹,但是却不可以从分子指纹中推断出该分子有怎样的结构。
3.2 SMILES
表示分子的另一种方法是将结构编码为文本。这是将图结构数据转换为文本内容,并在机器学习输入中使用文本(编码字符串)作为输入。Simplified Molecular-Input Line-Entry System(SMILES)是标准和最受欢迎的表示之一。转换后,我们可以使用自然语言处理(NLP)的相关算法来处理药物,例如,预测其性质,副作用甚至化合物之间的相互作用。
图表 7 SIMILES码示意图
3.3 InChIKey
尽管SMILES在化学家和机器学习研究人员中非常受欢迎,但它并不是唯一可用于表示药物的基于文本的表示形式。InChIKey是您可以在文献中找到的另一种流行的表示形式。InChI国际化合物标识是(国际化合物标识)International Chemical Identifier的缩写. InChI编码是一串由斜杠(/)隔开的有层级关系的数字组成的。每个InChI编码都是由InChI版本号开始,接着一个主层号。主层下包括含化学分子式层、原子关系层和固定氢原子子层。基于分子结构的主层后往往接着一个附加的层,如电荷层、立体化学层(和/或)同位素信息层。
以维生素C的国际化合物标识码为例:
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1
InChI Key:CIWBSHSKHKDKBQ-JLAZNSOCSA-N
InChIKey是对InChI运用 SHA-256 算法处理后得到的哈希值,它的出现是为了解决InChI长度不定的问题。与InChI相比,InChIKey具有这样几个特点:
一、长度固定,永远是27个字母;
二、与InChI几乎一一对应,但有很小的概率(1/10亿)出现两个InChi对应同一个InChIKey;
三、不可读,字符串本身没有意义,必须转换回 InChI 才能读。
在实际使用中,可以用InChIKey 作为关键字检索出对应的 InChI,再做进一步的使用。
3.4 SELFIES
为了解决SMILES的表示方法有时候不能对应有效的分子, Mario Krenn et al.提出了一种新的分子表示方法, 即SELFIES(SELF-referencIng Embedded Strings),它是基于字符串的表示形式。每个SELFIES字符串都对应一个有效分子。
3.5 Graph
深度学习盛行于图结构化数据,例如图卷积网络使直接使用图数据作为深度学习管道的输入成为可能。例如,可以将化合物视为图,其中顶点是原子,原子之间的化学键是边。图神经网络领域中,有专门用于此工作的库,如Deep Graph Library,PyTorch-Geometric,PyTorch-BigGraph
小分子靶点特征的数据来源和表示方法:
PDB结构数据库中提供了大量蛋白质的空间结构(也就是大分子中各个原子的空间坐标),进一步可以得到蛋白的理化性质;通过测序或uniprot也可以获取蛋白质的序列信息,在实际应用中序列可以转化为氨基酸构成、词嵌入向量(embedding)等形式。
PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。其内容包括生物大分子的原子坐标、参考文献、1级和2级结构信息,也包括了晶体结构因数以及NMR实验数据,等。
PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。
活性指标的数据来源和表示方法:
小分子活性指标的数据一方面可以来源于实验室自有系统的检测,另一方面也可以从公共数据库(CHEMBL, PUBCHEM等)中获取。其中常见的活性指标类型包括亲和力分析实验(来自surface plasmon resonance实验等)、酶活实验和基于细胞、动物的功能实验。公共数据库中包含的小分子、靶点和相互作用的统计量可见下表,各个数据库中的数据有不同来源、标准和标注方式,为模型的训练提供了几千到几百万量级的数据集。
图表 8 主要的公共分子化合物库
-四-
人工智能在靶点发现中的应用
靶点确认是药物开发中的关键步骤,也是最复杂的步骤之一。目前已知的药物靶点绝大多数为蛋白质,通过机器学习的方法,从蛋白质原始信息中提取特征,构建准确稳定的模型进行功能的推断、预测和分类,已经成为靶点研究的重要手段。从患者的样本中、海量的生物医学资料中提取基因组学、蛋白质组学、代谢组学等多组学数据,借助深度学习来分析非疾病和疾病状态之间的差异,也可用来发现对疾病有影响的蛋白质。
在将复杂的临床疾病抽象为标准化、有代表性的疾病模型之后,药物研发者们接下来关心的就是确认疾病治疗的分子靶点,并在细胞和动物模型的层面阐释尽可能详细的分子机制,从而为接下来的药物设计奠定扎实的基础。人工智能在这个环节中,从大量基因组和高通量实验数据中挖掘信息,可以配合实验为靶点的确证提供多层面的支持。这个环节中的人工智能也与现在的生物信息学研究领域有诸多的重合。
4.1基于GWAS的靶点发现
GWAS,顾名思义,是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
近10年来,GWAS已经被报道用于广泛且具有复杂性状的领域上,包括常见的疾病(疾病的危险因素数量性状的表型)、脑成像、基因组措施(如基因表达和DNA甲基化)、社会行为特征(如主观幸福感、教育程度)。其中,有10000多例涉及遗传变异和一个或多个复杂性状关联性的研究。候选靶基因通过关联检验确定,例如卡方检验、Fisher精确检验或t‐检测疾病的基因表达。
GWAS可以识别该疾病的相关遗传变异,然而却很难确定选定的遗传变异对基因的影响。针对这个问题,朱等提出了一种名为SMR(基于汇总数据的孟德尔随机化)的方法来 识别与人类复杂特征相关的基因。他们考虑了基因和性状之间的多效性或因果关系,定义了多效性关联,以进行改进的MR分析。通过使用SMR,他们整合了GWAS性状总结和eQTL(表达数量性状基因座)数据,并分析了复杂性状与基因表达之间的关联。
图表 9 GWAS在疾病靶点发现中的应用(Peter M. et al,2019)
生物制药公司Berghealth是一家数据驱动型生物研究公司,主要研究疾病发生时新陈代谢的改变机制,并且在神经系统疾病和代谢性疾病的研究方面有着深厚积累,其特点是借助自主研发的平台迅速将生物研究转化为可行的方案,并生成体量庞大的生物标记库。2016年10月,美国国防部宣布与Berghealth合作,利用AI开展新药研发,以寻找应对现有药物不起反应的侵入性乳腺癌治疗方案,将筛选多达25万个样本寻找早期癌症的新的生物标记。
4.2基于网络分析的靶点发现方法
基于网络的方法已被广泛用于表示各种生物元素之间的复杂联系。网络由代表生物元素的节点和代表节点之间相互作用的边组成。此外,这种方法可以通过异构网络管理多种类型的组学数据。因此,许多研究使用基于网络的方法进行靶点识别。
传统上,网络是基于靶点或疾病之间的相似性构建的。对于基因-疾病关联,已使用由基因‐基因相似性矩阵表示的基因共表达网络。该网络捕获具有相似生物过程活动的基因(基因共表达网络可用于将未知功能的基因与生物过程相关联,以确定优先级候选疾病基因或识别转录调控程序)。
随着转录组学的最新进展和下一代测序,从RNA测序数据构建的共表达网络也可以推断非编码基因和剪接变体的功能和疾病关联。尽管基因共表达网络通常不提供有关因果关系的信息,但新兴的差异共表达分析方法使鉴定各种表型背后的调控基因。例如通过(差异)共表达分析帮助找到与疾病通路相关的基因集。
使用网络分析来确定迟发性阿尔茨海默氏症的靶点,2018年8月20日,来自英美西班牙等十多家研究单位组成的研究团队发现基因和蛋白表达的改变对于研究晚发型阿尔兹海默症是至关重要的,HSPA2(heat shock protein family A member 2,热休克蛋白家族成员2)被证实为晚发型AD过程中的一个特异性关键调控因子)。他们用肽和转录本数据构建了一个共表达网络以识别基因‐蛋白质表达关系图谱,此外还构建了因果预测网络来为网络边缘提供排序或方向。
MicroRNAs(miRNAs)是一类微小的内源性非编码RNA,其长度约为22个核苷酸。它可通过诱导信使RNA降解、翻译抑制或其他形态调节机制来抑制靶基因的表达。大量研究证据显示,miRNA在许多生物进程中发挥着重要作用,它们的突变或异常表达会导致多种人类复杂疾病。
近年来,许多预测miRNA-疾病关系的计算方法被提出。这些计算方法可分为两类:基于相似性的测量方法和基于机器学习的方法,前者通过度量miRNA与疾病关联网络中节点间的强度来预测miRNA-疾病之间的关系,而后者着重于使用基于机器学习的相关算法来解决该问题。
然而这两种方法均有一定的局限性,这些局限性在于这两种方法仅考虑miRNA与疾病之间某方面信息,如网络拓扑关系、疾病相似性关系等,并且它们需要构建高质量的生物网络模型和高可信的负样本集,因此有必要设计一种能够将miRNA与疾病的多信源信息融合,能够充分表征miRNA与疾病之间的复杂关系的预测方法。
4.3基于知识图谱的靶点确认方法
知识图将实体、关系和语义信息表示为可以为机器轻松解释的图。Muhammad等提出了一种名为TriModel的知识图嵌入模型。他们从KEGG、DrugBank、InterPRo和UniPROt构建了一个药物‐靶点相互作用知识图谱。基于张量分解,知识图的实体和关系被嵌入到三个嵌入向量中,并通过最小化错误事实和最大化真实事实在迭代学习中更新。Richard等提出了潜在的COVID‐19靶点和治疗方法。他们使用了BenevoletAI的结构化知识图谱,包含了20多种生物医学实体(如疾病、基因和药物)之间的关系。他们假设2019‐nCoV受体是ACE2,并发现了AAK1(ACE2内吞调节因子之一),在其知识图中的AAK1抑制剂中,巴瑞替尼对另一种内吞作用调节剂显示出高亲和力和结合亲和力。
图表 10 知识图谱示意图(Zeng,2019)
BenevolentAI公司的JACS(JudgmentAugmented Cognition System,判断加强认知系统)技术平台利用AI从散乱无章的海量信息中提取出能够推动药物研发的知识,提出新的可以被验证的假设,从而加速药物研发的过程。
BenevolentAI核心技术平台为JACS(Judgment Augmented Cognition System),是一种判断加强认知系统,从散乱无章的海量信息中提取出能够推动药物研发的知识,提出新的可以被验证的假设,从而加速药物研发的过程。2014年6月,BenevolentAI宣布与一家美国的制药公司达成合作,并将两款经过新适应症(阿尔茨海默氏症)验证的新药卖给这家美国公司,这两款药物处于中标候选化合物评估阶段,此次交易高达8亿美。
2017年5月,BenevolentAI对一款名为bavisant的临床试验失败药物进行重定向分析,发现其对帕金森患者日间过渡嗜睡症状具有较好的治疗效果。截止到目前,BenevolentAI 完成融资总额超过2.5亿美元。
-五-
基于结构的虚拟药物筛选
Structure-based drug design,即基于结构的药物设计,从配体和靶点的三维结构出发,以分子识别为基础而进行的一种药物设计方法。根据药物与其作用的靶点如受体、酶、离子通道、核酸、抗原、病毒等来寻找和设计合理的药物分子。
基于结构的虚拟筛选(SBVS)是药物发现的常规工具,它可以通过计算从大型化合物库中富集潜在的活性分子,加速药物发现并降低成本。然而,传统的SBVS强烈依赖于对接和打分方法的力量,这远远不能令人满意。为了纠正经典评分函数的偏差,使用随机森林评分(RF‐Score)和支持向量机开发了数据驱动的机器学习评分函数(MLSF)。
图表 11 基于3DCNN的Kdeep预测配体结合亲和力(imenez,2018)
最近,开发了许多基于深度学习的评分函数(DLSF)来估计结合亲和力。例如基于3Dvoxel的方法,将3D‐CNN用于预测结合位点和亲和力的模式。通过使用连续特征、迁移学习及更复杂的CNN设计可以进一步提高预测性能。KDEEP的3D‐CNN受到AlexNet 的启发,AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。
也是在那年之后,更多的更深的神经网络被提出,比如优秀的vgg,GoogLeNet。而DenseFS受到DenseNet的启发,DenseNet的子层是密集连接的,并且优于以前的方法。
GCN的主要思想是基于分子图的方法,在图上表示蛋白质配体复合物。原子表示为节点,而它们的交互表示为节点之间的边。基于图神经网络的人工智能药物分子虚拟筛选首先在已经建立的数十亿化合物分子库的基础上构建隐空间,使用成药数据集进一步训练隐空间,从而产生包含成药性信息的分子表征。
其次,针对具体任务靶点采用2D和3D相似性、分子对接、药效团打分、形状及静电相似性、动力学模拟等手段筛选数十个结构新颖、活性高、成药性好的化合物用于后期化学合成及进一步实验验证,整个过程非常短,仅需3个月。其中代表性的PotentialNet使用GCN进行分子内相互作用和分子间非共价相互作用,性能优于RF‐Score。
图表 12 PotentialNet 使用 GCN 进行分子内相互作用和分子间非共价相互作用(Feinberg,2018)
基于深度学习的人工智能药物分子虚拟筛选与传统高通量筛选相比,具有显著的优势:速度更快,3个月即可筛选出苗头化合物;采用虚拟筛选,成本更低;通过独特的分子表征模型设计,更容易筛选出活性高、结构新颖、成药性好的药物分子。
但虚拟筛选同样也面临的问题,其需要大规模和高质量的数据用于对模型的训练,这直接决定了生成分子结果的质量,且生成分子后还需要合成化合物及活性、成药性验证。在计算速度方面,基于AI的分子对接算法一般比传统的对接算法速度更快,因此在高通量的分子对接中具有一定优势。
-六-
基于配体的虚拟筛选
基于配体的虚拟筛选(Ligand-Based Virtual Screening,LBVS)即基于药效团模型的虚拟筛选,是根据现有药物的结构、理化性质和活性关系的分析,建立定量构效关系或药效基团模型,预测筛选新化合物的活性。
基于配体的方法基于类似结构的化合物会与相同靶点相互作用的假设。化合物的许多结构和理化性质与生物活性有关,定量构效关系(QSAR)模型就是基于配体的方法中的主要方法之一,可估计结构与其生物活性之间的定量关系(权重)。例如,分配系数与疏水作用密切相关,产生与受体的结合。同样,从简单的Lipinski规则,化合物的许多定量描述都可用传统机器学习模型来预测。
2012年,默克分子活动挑战赛(MMAC)发布了用于QSAR预测的基准数据集(Kaggle datasets),包括靶向生物活性和ADME特性。近年来,基于深度学习的QSAR预测被认为优于之前的RF QSAR预测,一些结合相关辅助数据集的多任务模型也被提出。
图表 13 多任务QASR模型mtk-QSBER示意图
与基于受体结构的方法相比,AI在基于配体的方法中的应用较为广泛,因为化合物的生物活性数据往往比蛋白质的晶体结构更容易获得。此外,基于配体的虚拟筛选方法一般计算量更小,速度更快,适合大规模、高通量的虚拟筛选。
然而,必须注意的是,基于配体的筛选存在“活性悬崖问题”,即具有相似结构的化合物常常表现出明显不同的活性,这对基于配体的方法提出了挑战。因此,通过计算手段预测小分子与靶蛋白的相互作用时,可以将不同的方法互为补充,以增加预测结果的可靠性。
-七-
预测化合物的吸收、分布、代谢、排泄性质和耐受毒性(ADMET)性质
除了药效性质外,理想的药物应当具备优良的ADMET,ADMET的预测也是指导先导化合物优化工作的关键。常用于ADMET预测的AI方法包括k近邻、支持向量机和随机森林等,它们与神经网络相比具有较低复杂度和较高可解释性。而基于神经网络的AI模型则追求更高的预测准确性。
目前,一些基于AI的ADMET预测工具包括预测CYP450反应物的CypReact,预测PK性质的FAF-Drugs4,预测化合物代谢稳定性的MetStabOn,预测理化性质和药代性质的SwissADME、HitDexter,预测ADMET性质的vNN-ADMET、ADMETlab,预测化合物毒性的DeepTox、TOP,预测hERG阻断能力的hERG-Att等。
-八-
展望和挑战
小分子AI筛药的企业基本已于17到19年期间完成了入场,新入局的公司除非有非常独特的切入点或者技术创新,否则很有可能将直接面对来自国内国外大量已有的竞争对手。像晶泰科技是以晶型的预测为切入点,逐渐拓展到AI制药的各个领域;深度智耀侧重于将自然语言处理技术应用于新药的申报环节;星药科技提供端到端的临床前药物发现服务;宇道生物专注于变构药物研发。
近年来随着国内大药企对AI辅助药物的兴趣逐渐增加,以及大环境下药物创新的需求增强,他们为AI公司的付费意愿可能是在增长中的。19年9月江苏豪森与Atomwise宣布合作,是本土药企与AI公司的首次大规模合作研发;19年10月江苏正大丰海与Insilico Medicine签订了2个AI合作研发项目,进一步释放了国内药企引入AI研发的意愿增强的信号。随着本土AI公司发展的成熟,可以预见未来我们一定会看到越来越多的国内AI企业与CRO公司或知名药企合作新药研发的案例,以及产业资本支持和孵化新AI研发团队的趋势。
图表 14 AI 制药企业主要管线及融资情况
当前AI辅助药物研发目前呈现出的商业模式大致有以下两类:首先一类是嵌入各个研发环节中的to B服务公司,主要业务内容包括药物结构设计、制剂与晶型优化、数据挖掘等,以项目合作或软件服务的形式收费。另一类就是打通特色闭环的自主新药研发,结合实验和人工智能技术,将自己预测、设计出的药物推向临床。新形态的商业模式(例如to C的实验设计与生信分析服务和to VC的咨询服务等)未来也有发展的可能性,尚需等待时间的验证。
虽然机器学习和深度学习已被用于药物研发的各个领域,但是人工智能在新药研发中的应用才刚刚起步,也面临着诸多挑战。在药物研发领域,数据是人工智能的关键。因此作为一种数据挖掘技术,人工智能模型依赖于大数据的积累,并不能无中生有。用来学习的数据很大程度上会影响模型的性能,因此模型是否有效往往取决于数据的质量。若是数据质量不高,即使使用可靠的算法,也不会获得良好的结果,反而会浪费大量的资源和时间。
目前大多数预测模型来源于参差不齐的数据,因此如何获得高质量的数据是人工智能面临的一个主要问题。此外,如何学习训练数据得到泛化能力强的模型也是人工智能的难点及热点。
参考文献
(向下滑动查看完整内容)
1. Yang, Xin, et al. Concepts of artificial intelligence for computer-assisted drug discovery. Chemical reviews,119.18 (2019): 10520-10594.
2. Chan, H. S., Shan, H., Dahoun, T., Vogel, H., & Yuan, S. (2019). Advancing drug discovery via artificial intelligence. Trends in pharmacological sciences, 40(8), 592-604.
3. Schneider, P., Walters, W. P., Plowright, A. T., Sieroka, N., Listgarten, J., Goodnow, R. A., ... & Schneider, G. (2020). Rethinking drug design in the artificial intelligence era. Nature Reviews Drug Discovery, 19(5), 353-364.
4. Kim, H., Kim, E., Lee, I., Bae, B., Park, M., & Nam, H. (2020). Artificial Intelligence in Drug Discovery: A Comprehensive Review of Data-driven and Machine Learning Approaches. Biotechnology and Bioprocess Engineering, 25(6), 895-930.
5. Jiménez, J., Skalic, M., Martinez-Rosell, G., & De Fabritiis, G. (2018). K deep: protein–ligand absolute binding affinity prediction via 3d-convolutional neural networks. Journal of chemical information and modeling, 58(2), 287-296.
6. Lim, J., Ryu, S., Park, K., Choe, Y. J., Ham, J., & Kim, W. Y. (2019). Predicting drug–target interaction using a novel graph neural network with 3D structure-embedded graph representation. Journal of chemical information and modeling, 59(9), 3981-3988.
7. Van Dam, S., Vosa, U., van der Graaf, A., Franke, L., & de Magalhaes, J. P. (2018). Gene co-expression analysis for functional classification and gene–disease predictions. Briefings in bioinformatics, 19(4), 575-592.
8. Visscher, P. M., Wray, N. R., Zhang, Q., Sklar, P., McCarthy, M. I., Brown, M. A., & Yang, J. (2017). 10 years of GWAS discovery: biology, function, and translation. The American Journal of Human Genetics, 101(1), 5-22.
9. Imrie, F., A. R. Bradley, M. van der Schaar, and C. M. Deane (2018) Protein family-specific models using deep neural networks and transfer learning improve virtual screening and highlight the need for more data. J. Chem. Inf. Model. 58: 2319- 2330.
10. Jimenez, J., M. Skalic, G. Martinez-Rosell, and G. De Fabritiis (2018) K : Protein-ligand absolute binding affinity prediction via 3D-convolutional neural networks. J. Chem. Inf. Model. 58: 287-296
11. Stepniewska-Dziubinska, M. M., P. Zielenkiewicz, and P. Siedlecki (2018) Development and evaluation of a deep learning model for protein-ligand binding affinity prediction. Bioinformatics. 34: 3666-3674.
12. Tian, K., M. Shao, Y. Wang, J. Guan, and S. Zhou (2016) Boosting compound-protein interaction prediction by deep learning. Methods. 110: 64-72.
13. Feinberg, E. N., D. Sur, Z. Wu, B. E. Husic, H. Mai, Y. Li, S. Sun, J. Yang, B. Ramsundar, and V. S. Pande (2018) PotentialNet for molecular property prediction. ACS Cent. Sci. 4: 1520-1530.
14. Lim, J., S. Ryu, K. Park, Y. J. Choe, J. Ham, and W. Y. Kim (2019) Predicting drug–target interaction using a novel graph neural network with 3D structure-embedded graph representation. J. Chem. Inf. Model. 59: 3981-3988.
15. O’Boyle, N. M., M. Banck, C. A. James, C. Morley, T. Vandermeersch, and G. R. Hutchison (2011) Open Babel: An open chemical toolbox. J. Cheminform. 3: 33.
16. Willighagen, E. L., J. W. Mayfield, J. Alvarsson, A. Berg, L. Carlsson, N. Jeliazkova, S. Kuhn, T. Pluskal, M. Rojas-Cherto, O. Spjuth, G. Torrance, C. T. Evelo, R. Guha, and C. Steinbeck (2017) Erratum to: The Chemistry Development Kit (CDK) v2.0: atom typing, depiction, molecular formulas, and substructure searching. J. Cheminform. 9: 53.
往期回顾
经纬行研 | 病树前头万木春:PROTAC研究进展及产业现状
经纬行研 | 柳暗花明又一村:siRNA药物的诞生之路(下)
经纬行研 | 柳暗花明又一村:siRNA药物的诞生之路(上)
经纬行研 | 千呼万唤始出来-KRAS靶向疗法进展沿革(下)
经纬行研 | 千呼万唤始出来-KRAS靶向疗法进展沿革(上)
图文编辑 | 彭庶文
文章撰写 | 高超、吴昊、刘啸波、焦瑞、程遥、王盼、魏欣