JMC|用于从头药物设计的生成模型
2021年9月17日,中科院上海药物所的蒋华良和郑明月以及华为健康智能实验室的乔楠等人在Journal of Medicinal Chemistry杂志发表文章,对用于从头药物设计的多个生成模型进行了总结和分析。
1.研究背景
新药研发是一个复杂的过程,成本高、风险大、周期长。目前有一些化合物及其生物活性的开放可访问资源,如ChEMBL、PubChem、ChemSpider等,这些数据库的化合物数量一般都在几百万的水平。然而,潜在的类药化合物的化学空间要大得多,估计范围从 1023 到 1060。因此如何更有效地探索如此巨大的空间并寻找具有特殊性质的新分子是极具挑战性的。
随着计算机科学的快速发展,人工智能(AI)方法在图像处理、模式识别和自然语言处理等领域取得了成功。机器学习,尤其是深度学习也被应用于药物发现,例如预测化合物的性质和活性以及它们与蛋白质靶标的相互作用。近年来,深度生成模型越来越受到关注,它通过学习训练数据的概率分布,提取代表性特征,产生低维连续表示,最终从学习到的数据分布中采样生成新数据。
生成模型的发展为解决药物设计难题带来了新的思路。本文专注于生成模型在从头药物设计中的应用,首先简要介绍了常用的生成模型,例如循环神经网络(RNN)、自动编码器(AE)、生成对抗网络(GAN)、Transformer以及深度强化学习模型(RL);其次,全面回顾了各种生成模型在药物设计中应用的最新进展,以及评估其性能的基准和指标。最后,本文讨论了药物设计生成模型的前景。
2.生成模型的原理
生成模型大致分为四类,包括基于循环神经网络(RNN)、自动编码器(AE)、生成对抗网络(GAN)的模型、transformer以及深度强化学习模型(RL)。这些流行的生成模型的基本原理和最近的发展描述如下。
2.1 基于RNN的生成模型
图1A展示了RNN的基本网络结构,其中,通过隐藏层上的环路连接,当前时刻可以接收到前一时刻网络的当前状态,并且可以进一步得到当前时刻的网络状态传送到下一时刻。即作为图 1B 中展开的 RNN,隐藏单元在时间 t 从两个方面接收数据,分别是网络前一时刻的隐藏单元值 ht−1 和当前输入数据 xt,通过计算得到两个输出隐藏单元的值,输出向量和更新的隐藏单元,通过时间算法的反向传播更新网络中的参数。
为了避免 RNN 模型中的“梯度爆炸”和“梯度消失”现象,长短期记忆(LSTM) 单元使用更可控的信息流来确定哪些信息可以保留,哪些可以丢弃,实现了更精细的内部处理,可以保持其内部状态以延长RNN中顺序输入的时间,从而提高RNN的性能。
进一步的研究表明,GRU 是 LSTM 架构的简化实现,可以以较低的计算成本缓解梯度消失和爆炸的问题。当 RNN 模型应用于从头药物设计时,分子可以表示为序列(例如使用 SMILES),在用大量的SMILES字符串训练后,RNN模型可以用来生成一个新的、原始数据集中不包含的有效SMILES,因此可以认为是一个分子结构生成模型。
图1:RNN的结构:(A)RNN的基本网络结构;(B) 一个展开的 RNN 结构;(C) 基本 RNN、LSTM 和 GRU 的内部结构。
2.2 基于AE的生成模型
自动编码器(Autoencoder, AE)由两个网络组成:编码器将高维数据映射到低维表示,解码器将原始输入重构为给定低维表示的输出。自动编码器反复训练以最小化重构输出与原始输入之间的偏差,其目标是找到更紧凑的样本表示。变分自动编码器 (variational autoencoder, VAE) 和对抗自动编码器 (adversarial autoencoder, AAE) 使用一些附加约束修改AE,以从输入数据中学习潜在表示。与AE的目的不同,这些模型旨在学习数据集的概率分布,从而生成与数据集相似但不同的样本。 图2比较了VAE和AAE的结构。
图2:VAE、AAE 的结构及其相应的条件生成模型。(A) VAE 的结构。(B) 带有所有标记分子的ContidionalVAE 的结构。(C) ContidionalVAE 的结构与未标记分子的预测因子相结合。(D) AAE 的结构。(E) 带有所有标记分子的CAAE 的简化版本。
用于新药设计的条件变分自动编码器(ContidionalVAE)是由半监督变分自动编码器(semisupervised variational autoencoder, SSVAE)衍生而来的。具体地说,引入条件有两种不同的场景。当被视为条件的分子属性可以直接计算出所有的分子时,这些条件就可以合并到编码器和解码器的输入中(图2B);在另一个场景中,如果条件不能直接标记所有分子,如针对特定目标的生物活性,VAE应该与预测器网络相结合来预测那些未标记的分子的性质,条件向量被认为是预测器的潜在变量(图2C)。
对抗性自动编码器(AAE)(图2D)类似于VAE,但它的特点是在结构中增加了一个判别神经网络,该神经网络是从GAN模型衍生而来的。AAE使用带有鉴别器D的对抗性训练,可以区分生成器的潜在分布和先验分布,从而避免使用KL发散。该模型的编码器可以看作一个生成器G,G(X)的输出模仿先验的任意分布p(Z)来欺骗鉴别器D。同时,训练鉴别器D来区分来自编码器的潜在分布和先前的p(Z)。AAE的有条件扩展包括有监督的AAE和半监督的AAE。对于有监督的AAE,解码器从潜伏向量和条件向量重建分子(图2e)。在半监督AAE中,由于需要产生未标记分子的条件,因此增加了一个对抗性网络,以确保后验分布与预先定义的分类分布相匹配。
2.3 基于GAN的生成模型
生成对抗网络(generative adversarial network, GAN)的概念由Goodfellow于 2014 年首次提出,其灵感来自两人零和博弈的博弈论。GAN包括一个生成器 G 和一个判别器 D(图 3A)。通常,生成器学习将随机噪声映射到需要接近数据分布的特定分布,而判别器确定输入是真实数据还是生成器生成的样本,通常是二元分类器。一旦模型经过良好训练,就可以从生成器中获取新样本。
图3:GAN结构(A);CGAN结构(B)
具体来说,在对抗过程中,同时训练generatorG和discriminatorD两个神经网络模型,使得D可以找到输入数据中的隐藏模式,准确区分真实数据和G生成的数据,G会通过优化权重进行迭代矩阵乘法数据采样学习欺骗训练有素的D。
总的来说,GAN模型的本质是D和G相互竞争的零和游戏。条件生成对抗网络 (CGAN)是 GAN 的一种变体,它通过在生成器和鉴别器中添加额外信息来调节结果(图 3B)。
2.4 Transformer模型
Transformer是最近提出的一种新模型,在自然语言处理(NLP)中表现出良好的性能。原始版本的Transformer由encoder和decoder组成(图4)。
图4:Transformer结构
这个模型的关键是attention机制,可以考虑序列中的长程依赖。通过学习现有化合物数据库中大量分子的隐含连接规则来建立生成模型,训练好的模型可根据给定的起始分子片段结构和自定义的连接段(Linker)约束条件,自动生成大量符合约束条件且结构多样的分子。
3.生成模型在药物设计中的应用
3.1 生成化合物并扩展化合物库
有研究者应用基于RNN的生成模型来发现小鼠白血病病毒激酶1(Pim1)和细胞周期蛋白依赖性激酶4(CDK4)的潜在抑制剂。他们根据CDK4抑制剂和Pim1抑制剂的随机序列对模型进行训练,并根据合成可及性选择三种分子。这三个分子含有一些难以附着的片段,因此在合成之前进一步简化,从而得到MJ-4、MJ-115和MJ-1055。这些分子证实了对Pim1和CDK4的抑制活性。其中,MJ-1055对Pim1具有较强的抑制活性,IC50值为9.6nm,发现它与相关Markush专利中保护的类似分子不同。相比之下,MJ-4对CDK4的抑制活性较弱,与结构相似的已知抑制剂相比,MJ-115的活性也显著降低。总的来说,这些结果很好地支持了基于RNN的生成模型在实际任务中的适用性和潜力,也表明仅由基于RNN的模型生成的分子可能无法维持所需的活性。
GAN作为一种特殊的生成模型,也被应用于基于SMILES的分子生成。GAN在分子生成中的第一个成功应用是目标增强生成对抗网络(ORGANIC)及其改进版本,即反设计化学目标增强生成对抗网络(ORGANIC)。Guimares等人提出了一种基于SeqGAN的具有RL的GAN框架,它可以优化生成分子的性质。总的来说,这些模型可以生成学习原始数据分布的分子,显示所需度量的改进,并保持样本的多样性。是化学方向上的ORGAN的一种实现。
如前所述,ORGANIC 的主要缺点是大量无效分子,有效分子中可能有许多重复。这可能是由化学空间的粗糙度引起的,化学空间的微小变化会对分子结构产生显著影响。Prykhodko等人将自动编码器与生成性对抗性神经网络相结合,以产生用于从头分子设计的新基因。在该模型中,分子的SMILES不直接用于GAN,而是首先通过heterencoder策略转化为潜在载体。这一过程减轻了具有相似结构的分子所造成的复杂性,这些分子可能具有不同的规范SMILES,并减少了由同一分子的多个表示所造成的过度拟合问题。
除了AE和GAN的结合,VAE和GAN的结合是新提出的,因为这两种方法是互补的。结合这两种方案的模型有两个优点。首先,它可以避免VAE中后验分布的近似不够灵活,这可能导致非自然分子甚至无效输出。其次,它可以避免处理GAN中离散变量的困难,这可能导致低多样性问题和重复生成分子。
3.2 条件分子设计
大多数分子设计任务需要生成满足特定要求的化合物。除了通过使用诸如微调、迁移学习和强化学习等方法来优化生成的新分子外,人们还做出了许多努力来修改先前的生成模型,以建立条件生成模型。这类模型直接结合了分子性质信息和分子结构信息,可以指导分子生成到与特定条件相关的化学空间的特定区域。因此,条件分子设计从条件生成分布中抽取新分子,而无需任何额外的优化过程。此外,条件模型可以更容易适应同时考虑多个目标属性。
先前有报道提出了一种基于条件变分自动编码器的分子生成模型(CVAE),该模型可以对潜在空间施加一定的条件,例如添加类药五原则。在训练期间,这些目标属性被形成为预定义的条件向量,并与潜在向量连接。可以在不改变其他参数的情况下调整LogP,并生成具有超出训练集范围的特定性质的分子。然而,该模型显示生成所需分子的成功率较低,这可能是由性质之间的强相关性造成的。Kang和Cho等人建立了一个模型,使用半监督变分自动编码器(SSVAE)的回归版本有条件地生成分子。Hong等人提出了基于ARAE的条件生成模型CARAE,在该模型中,他们采用了变分互信息最小化框架来生成具有特定目标性质的分子。利用预测网络对原始分子性质进行预测,通过最小化变分互信息,将分子性质从潜在向量中分离出来。在解码阶段,根据潜在向量和分离的目标属性信息重构分子结构。
由于新冠病毒大流行,Chentamarakshan等人提出了一种称为受控分子生成(CogMol)的生成模型,通过在VAE模型中引入多属性受控采样方案,设计具有一组期望属性的靶向新型病毒蛋白的分子。他们使用CogMol为三种SARS-CoV-2靶蛋白、主要蛋白酶、棘突蛋白的受体结合域和非结构蛋白复制酶生成新分子,受靶亲和力和选择性、药物相似性、合成可行性和毒性的限制。结果表明,生成的分子能够很好地结合到靶点结构的相关口袋中,并显示出较低的预测代谢物毒性和较高的合成可行性。
4.生成模型的基准和指标
有两个主要的新分子设计基准,即molecular sets(MOSES)和GuacaMol,它们涵盖了常用的生成模型和评估生成模型性能的各种指标。
MOSES主要关注评估生成分子的分布问题。它针对五个基于神经网络的基准模型,即CharRNN、VAE、AAE、JT-VAE和LatentGAN,以及三个非神经网络的基准,即n-gram生成模型、隐马尔科夫模型和组合生成器。
在MOSES中,"有效性"、"独特性"和 "新颖性"是评价各种模型所生成的分子质量的三个最广泛使用的指标。"有效性"描述了生成的分子中能被RDCit识别的SMILES的百分比,"独特性"代表了有效分子中非冗余分子的比例,而"新颖性"是生成的分子中不在训练集中的部分。MOSES中使用的其他指标见表4。
表4. 分子生成模型的性能指标列表
相应地,还考虑了这两个方面的指标。对于分布学习基准,评估"有效性"、"唯一性"和 "新颖性"这三个通用指标,"FCD"也被用于GuacaMol中(表4)。此外,"KL分歧"被用来比较训练分子和生成分子的物理化学描述符的概率分布(表4)。对于目标导向的基准,有几类不同的优化目标,例如重新发现目标分子、生成与目标分子相似的分子、生成与目标分子式对应的异构体等。
5.总结
从头药物设计是一个长周期、高投资的过程。随着AI的快速发展,越来越多的相关方法被提出。研究人员已经提出了在其他领域(如图像或文本生成)成功的不同架构,以生成具有预期生物和化学性质的新先导化合物。从这个视角,本文主要总结了最近报道的生成建模技术,并展示了它们在从头药物设计领域中的应用。
尽管已经有很多关于分子生成模型的研究,但生成模型在药物设计中的应用仍处于起步阶段,还有许多挑战需要进一步解决。
为了扩展现有化合物库,出现了许多包含有效和新颖化学结构的虚拟库,包括GDB、ZINC、REAL、DrugspaceX等等。这些库要么由预定义的基于规则的转换生成,要么由数学图生成。已经有一些通过虚拟筛选从这些化合物库中成功发现新活性配体的例子。深度生成模型的一个明显的优势是它可以训练学习分子表征和相关性质的联合概率分布,这使我们能够更有效地对满足特定性质的新分子进行取样。有一些报道的工作试图探索化学空间,以获得满足分子某些物理化学性质的分子,这是一个需要进一步探索的新兴方向。
在生成模型的分子表征方面,许多人致力于研究分子拓扑图,但由于使用的数据集和指标不同,他们的表现往往缺乏可比性。随着方法的改进,不同生成模型之间的比较将变得更加规范和客观。此外,一些研究正在尝试添加有关三维化学结构的信息,旨在更准确地描述分子的结构,从而使模型生成的分子更可靠,便于进一步研究。
目前广泛用于生成模型的性能指标也需要改进。常用的“可成药性”和“可合成性”指标也有其自身的问题。因此,尽管提供了不同的生成模型的评估和比较指标,但这些指标对不同研究的作用和重要性仍不清楚。如何评估模型的质量和生成的分子仍然是一个悬而未决的问题,这需要共同努力以更好地改进基准评估方法并评估已发布的生成模型的能力。
现有研究的另一个明显缺点是缺乏实验验证。虽然已经有很多关于使用生成模型生成新化合物的报道,但生成的化合物被合成和实验评估的例子较少。Zhavoronkov 等使用分子 GENTRL 在 21 天内发现有效的 DDR1 抑制剂。他们在不到2个月的时间内设计、合成并实验验证了靶向DDR1激酶的分子,最终获得了在实验动物中具有良好药代动力学特性的候选药物。这个成功案例说明了快速药物设计生成模型的可行性,但我们也需要谨慎,因为生成的分子仍处于药物开发的早期阶段,可能需要进一步评估其在人体中的有效性和安全性。此外,在将生成模型应用于药物设计时,需要严格评估生成分子的新颖性。
总的来说,我们才刚刚开始使用生成模型来设计分子,这种模型还有很多方面需要进一步改进,需要更多的计算和实验验证以及基准测试。尽管如此,我们相信它会在不久的将来成为从头药物设计领域的重要支柱,帮助药物化学家产生新的想法并加速药物发现的周期。
参考资料
Xiaochu Tong, Xiaohong Liu, Xiaoqin Tan, Xutong Li, Jiaxin Jiang, Zhaoping Xiong, Tingyang Xu, Hualiang Jiang, Nan Qiao, and Mingyue Zheng , Generative Models for De Novo Drug Design , Journal of Medicinal Chemistry.
https://doi.org/10.1021/acs.jmedchem.1c00927
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【药物设计】
●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学
●Drug Discov Today|用于从头药物设计的图神经网络GNN
●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
●Drug Discov Today综述|分子从头设计和生成模型
●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展
【靶点发现】
●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
●AI+临床数据助力新药靶点发现,天坛医院院长王拥军谈【神农计划】
【临床试验】
●NPJ Digit Med|多种数字健康技术在去中心化的世界中赋能临床研究
●Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
【产业进展】
●20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
●AI药物研发公司Insilico Medicine的理念、技术与特点
【算法开发】
【机器学习质量】
【隐私计算】
●Science China|用增强的联邦学习应对药物发现数据小和偏的困境
●Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例
●AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
【AlphaFold】
●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测
●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs
●Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?
【量子计算】
●Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态
【机器人实验室】
【监管】
●Nat Mach Intell|美国和欧洲如何监管医学领域的人工智能
●Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力