查看原文
其他

使用数据驱动的分子连续表示进行自动化学设计

吴叶鉴 智药邦 2022-06-15


今天给大家介绍的是ACS central science上一篇分子生成的文章 " Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules"

作者报告了一种将分子的离散表示与多维连续表示转换的方法。该模型能够通过化合物的开放空间产生新的分子,以获得高效的勘探和优化。深度神经网络在数十万现有化学结构下进行训练,以构建三个耦合功能:编码器,解码器和预测器。编码器将分子的离散表示转换成真实值的连续向量,解码器将这些连续向量转换回离散的分子表示。预测器预测分子的连续潜在向量表示的化学性质

分子的连续表示允许通过在潜在空间中进行简单的操作来自动产生新的化学结构,例如解码随机载体,扰动已知的化学结构,或在分子之间插值。连续表示还允许使用强大的基于梯度的优化,以有效地指导搜索优化的功能化合物。作者在类药分子和一组重原子数少于9的分子中的结构领域中证明了该方法。

1.研究背景

药物设计的目标是识别具有某些理想特性的新分子。作者认为这是一个优化问题,即寻找最大程度上满足我们量化需求的分子。因为搜索空间大、离散、无结构,分子空间的优化是极具挑战性的。合成和测试新化合物既昂贵又耗时,潜在候选分子的数量又非常多。目前仅合成了大约108种物质,而潜在的类药分子的数量估计在1023到1060之间。

计算分子设计受到用于探索化学空间的搜索策略的限制。目前的方法要么穷尽地搜索一个固定的文库,要么使用离散的局部搜索方法,如遗传算法或类似的离散内插技术。尽管这些技术已经产生了有用的新分子,但这些方法仍然面临着巨大的挑战。固定的文库是单一的,完全探索的成本很高,而且需要手工制定规则来避免不切实际的化学问题。化合物的遗传生成需要手动指定突变和交叉规则的启发式规则。离散优化方法无法用梯度指导搜索,因此很难有效地搜索大面积的化学空间。

分子表示方法是连续的,数据驱动的,并且可以很容易地转换成机器可读的分子,它有几个优点。首先,手工指定的变异规则是不必要的,因为新的化合物可以通过修改矢量表示然后解码来自动生成。其次,如果开发一个从分子表示映射到所需性质的可微模型,可以使用基于梯度的优化来在化学空间中实现更大的跳跃。基于梯度的优化可以与贝叶斯推理方法相结合,以选择可能提供关于全局最优的信息的化合物。第三,数据驱动表示可以利用大量未标记化合物来自动构建更大的隐式库,然后使用较小的已标记示例集来构建从连续表示到所需属性的回归模型。这样可以利用包含数百万分子的大型化学数据库,即使大多数化合物的许多性质都是未知的。

机器学习的最新进展产生了强大的概率生成模型,这些模型在对真实示例进行训练后,能够产生真实的合成样本。将这种生成模型应用于化学设计,使用一对被训练为自动编码器的深层网络,将以SMILES表示的分子转换为连续的向量表示。作者对联合自动编码器进行了一项属性预测任务的训练:添加了一个多层感知器,它从编码器生成的连续表示中预测属性值,并将回归误差包含的损失函数中。然后,检查了联合训练对潜在空间的影响,并在这个潜在空间中测试了对新分子的优化。

2.模型
表示和自动编码器框架

自动编码器由两个深层网络组成:用于将每个字符串转换为固定维向量的编码器网络和用于将向量转换回字符串的解码器网络(图1A)。对自动编码器进行训练,以使再现原始字符串时的误差最小化。自动解码器的关键在于用信息瓶颈(固定长度向量)来映射字符串,引导网络学习捕获数据中最显著的统计信息的压缩表示。作者称矢量编码的分子即为该分子的潜在表示。为了使潜在空间中的无约束优化起作用,潜在空间中的点必须解码为有效的SMILES字符串,以捕捉训练数据的化学本质。如果没有这种限制,自动编码器学习到的潜在空间可能是稀疏的,并且可能包含大的“死区”,这将解码成无效的SMILES字符串。为了确保潜在空间中的点对应于有效的现实分子,作者选择使用可变自动编码器(VAE)框架。VAEs是作为潜变量模型的一种原则性近似推断方法发展起来的,在潜变量模型中,每个数据都有一个对应的但未知的潜在表示。VAEs推广了自动编码器,为编码器增加了随机性,与惩罚项相结合,鼓励潜在空间的所有区域与有效解码相对应。在编码的分子中添加噪音迫使解码器学习如何解码更多种类的潜在点。Bowman等人提出了递归神经网络编码/解码的变分自动编码器。为了利用序列到序列自动编码器的来建模,作者使用了SMILES表示法,这是一种常用的有机分子编码文本。作者还测试了InChI作为另一种字符串表示形式,但发现它的性能要比SMILES差得多,这可能是由于包括计数和算术在内的更复杂的语法所致。

SMILES表示的逐个字符的性质及其内部语法的脆弱性(开始和结束循环和分支、允许的价位等)使即使有变分约束,仍会导致解码器输出无效分子。当将分子从潜在表示转换为分子时,解码器模型从其最后一层生成的每个位置的字符的概率分布中采样字符串。因此,单个潜在空间表示中可以有多个SMILES字符串。作者利用开源的化学信息学套件RDKit来验证输出分子的化学结构,并去掉无效的分子。虽然将自动编码器限制为仅生成有效字符串会更有效,但此后处理步骤是轻量级的,并允许自动编码器更灵活地学习SMILES的体系结构。为了实现分子设计,在自动编码器的连续表示中编码的化学结构需要与作者正在寻求优化的目标属性相关联。因此,作者在自动编码器中添加了一个多层感知器(MLP)被用来从编码分子的潜在向量中预测属性。然后,该自动编码器在重构任务和属性预测任务上进行联合训练。为了生成有希望的新候选分子,作者可以从编码分子的潜在载体开始,然后朝着最有可能改善所需属性的方向移动。由此产生新候选载体然后可以被解码成相应的分子(图1b)。

作者训练了两个自动编码器系统:一个有108000个分子,来自QM9分子数据集,分子中重原子数小于9。另一种是从ZINC数据库中随机提取的25万种可用于商业用途的类药物分子。作者对指定深度自动编码器体系结构和训练的超参数进行了随机优化,例如在递归或卷积编码器之间的选择、隐藏层的数量、层大小、正则化和学习率。QM9和ZINE数据集的潜在空间表示分别为156维和196维。

图1:(A)用于分子设计的自动编码器的示意图,包括联合属性预测模型。从一个离散的分子表示(如SMILES串)开始,编码器网络将每个分子转换为潜在空间中的一个向量,这实际上是一个连续的分子表示。给定潜在空间中的一个点,解码器网络产生相应的SMILES串。多层感知器网络预测与每个分子相关的目标属性的值。(B)基于连续潜在空间的梯度优化。在训练代理模型f(Z)以基于其潜在表示z来预测分子的性质之后,可以相对于z来优化f(Z)以找到预期具有较高所需属性值的新的潜在表示。然后,这些新的潜在表征可以被解码成SMILES串,在这一点上,它们的特性可以进行经验测试。

3.结果和讨论
3.1分子在潜在空间中的表示

图2:可变自动编码器的采样结果表示。(A)自动编码器的每个潜在维度的核密度估计(KDE),即编码分子在潜在空间表示的每个维度上的分布;(B)潜在空间中单个点的采样分子的直方图;分子与原始查询的距离由与右轴对应的坐标表示;(C)在潜在空间中布洛芬位置附近采样的分子。分子下面的值是从解码的分子到潜在空间中布洛芬所在点的的距离;(D)在潜在空间中的两个分子之间使用六步等距离的slerp插值。


首先,分析自动编码器的保真度和潜在空间捕捉结构分子特征的能力,图2a显示了对训练集以外的5000个随机选择的ZINC分子进行编码时每个维度的核密度估计。核密度估计表示数据点沿潜在空间的每一维的分布。虽然数据点在每个单独维度上的分布显示出略有不同的平均值和标准差,但可通过变分正则化使所有的分布都是正态分布。

变分自动编码器是一个双概率模型。除了添加到编码器的高斯噪声之外,因为字符串输出是从解码器的最后一层采样的,故解码过程也是不确定的。这意味着解码潜在空间中的单个点返回到字符串表示是随机的。图2b显示了将FDA批准的样本药物分子的潜在表示解码为几种不同分子的可能性。对于大多数潜在点,一个最有可能的分子将被解码,而其他许多细微的变化则以较低的频率出现。当将这些生成的SMILES重新编码到潜在空间中时,解码次数最多的也往往是到原始点的欧式距离最小的点,这表明潜在空间的确捕获了与分子相关的特征。

图2c显示了潜伏空间中一些接近布洛芬的分子。随着潜在空间中距离的增加,这些结构与布洛芬变得不那么相似。当距离接近训练集中分子的平均距离时,变化会更加明显,最终类似于可能从训练集中抽样的随机分子。从潜在空间中的一个点解码的概率取决于该点与其他分子的潜在表示的距离;作者观察到,对于接近已知分子的点,解码率为73−79%,对于随机选择的潜伏点,解码率为4%。

连续的潜在空间允许分子按照其潜在表示之间的最短欧几里得路径进行内插。在探索高维空间时,重要的是要注意,欧几里得距离可能不会直接映射到分子的相似性概念。在高维空间中,大多数独立的正态分布随机变量的质量不在平均值附近,而是在平均值周围的环形空间中。两点之间的线性插值可能会经过一个低概率的区域,为了保持对高概率区域的采样,作者使用了球面内插(Slerp)。使用slerp时,两点之间的路径是位于N维球体表面上的圆弧。图2d显示了两个随机药物分子之间的球面内插,显示了其间的平滑过渡。

a描述分子的来源:Data指的是原始数据集,GA指的是遗传算法基线,VAE指的是在没有属性预测的情况下训练的变分自动编码器。b显示使用的数据集:ZINC或QM9。c显示生成用于比较的样本数,对于数据,此值仅反映数据集的大小。d−f显示生成的分子的选定属性的平均值和标准偏差(在括号中),并将其与原始数据集中的属性的平均值和标准偏差进行比较。从0到1,检查了在两种主要的分子数据库(gZINC;hE-molecules)发现了每种方法产生的分子数量,并将这些值与原始数据集进行了比较。


表1将训练集中的化学性质分布与使用基线遗传算法生成的分子和由变分自动编码器生成的分子进行了比较。在遗传算法中,分子是用手工设计的规则列表生成的。这个过程使用1000个来自ZINC数据集的随机分子,并产生了超过10次的迭代。对于使用变分自动编码器生成的分子,作者收集了来自由相同的1000个分子所编码的潜在空间中400次解码后生成的所有分子的集合。作者比较了水−辛醇分配系数(LogP)、合成可及性分数(SAs)和类药物定量估计值(QED)(取值范围在0到1之间),数值越高,表明该分子更像药物。尽管VAE的训练完全是在SMILES串上进行的,与化学特性无关,但它能够生成外观逼真的分子,其特征遵循训练数据的内在分布。

使用VAE生成的分子显示出与原始数据集更相似的化学性质。VAE生成的分子遵循训练数据的属性分布,但由于组合空间非常大并且训练集是任意子样本,所以生成的分子新的。手工选择的突变产生新化合物的能力较差,同时使集合分子的性质偏向于更高的化学复杂性和更低的药物相似性。对于QM9数据集,由于组合空间较小,因此训练集具有更大的覆盖范围,并且VAE生成分子的总体统计信息与训练数据基本相同。


3.2分子的性质预测

图3:变分自动编码器潜在空间的二维PCA分析。这两个轴是从PCA分析中选择的主分量;颜色条显示所选属性的值。第一列显示了使用没有联合特性预测的自动编码器训练的来自所列数据集中的所有分子的表示。第二列显示了使用联合特性预测训练的自动编码器来表示分子。第三列显示用联合特性预测训练的自动编码器的潜在空间中的随机点的表示;使用特性预测器网络预测为这些点预测的特性值。前三行显示了针对logP、QED和SAS属性的ZINC数据集上的分子训练结果;后两行显示了针对LUMO能量和电子空间范围(R2)的QM9数据集上的训练结果。


人们对发现新分子的兴趣通常与最大化某些理想的性质有关。为此,作者扩展了纯生成模型,使其也能从潜在表示中预测属性值。作者训练了一个多层感知器和自动编码器,以根据每个分子的潜在表示来预测性质。通过性质预测的联合训练,分子在潜在空间中的分布按属性值组织。图3显示了使用PCA将属性值映射到分子的潜在空间。由自动编码器与属性预测任务共同训练而产生的潜在空间在分子分布中通过属性值显示了一个梯度。具有高值的分子位于一个区域中,而具有低值的分子位于另一个区域中。在没有属性预测任务的情况下接受训练的自动编码器不会在最终的潜在表示分布中显示出关于属性值的可识别模式。

4.结论
作者提出了一系列基于分子连续编码的探索化学空间的新方法。这些方法消除了手工制作化合物库的需要,并允许在化学空间中进行一种新型的基于梯度的定向搜索。在自动编码器模型中,作者观察到SMILES重建的高保真度,以及捕捉分子训练集的特征特征的能力。当与属性预测任务联合训练时,自动编码器显示出良好的预测能力,并且能够在得到的平滑潜在空间中执行基于梯度的分子优化。这项工作报告的结果,以及它在优化分子性质目标函数方面的应用,将继续影响分子设计的新途径。


参考资料

Rafael Gómez-Bombarelli, Jennifer N. Wei, David Duvenaud, José Miguel Hernández-Lobato, Benjamín Sánchez-Lengeling, Dennis Sheberla, Jorge Aguilera-Iparraguirre, Timothy D. Hirzel, Ryan P. Adams, and Alán Aspuru-Guzik, ACS Central Science 2018 4 (2), 268-276,DOI: 10.1021/acscentsci.7b00572.


----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
远程机器人实验室在AI药物发现中的应用价值与前景
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
利用人工智能增强表型药物发现
FDA发布人工智能/机器学习行动计划
CDE关于发布《模型引导的药物研发技术指导原则》的通告(2020年第59号)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存