JCI|基于子结构的神经机器翻译预测逆合成反应
2021年4月13日,Neves BJ等人在Journal of Cheminformatics杂志发表文章,文章使用分子指纹将分子表示为一段基于子结构的"句子",通过学习子结构水平上的化学变化来预测逆合成反应。
以下是全文主要内容。
1.摘要
随着机器翻译的发展,神经机器翻译开始在逆合成规划中发挥重要作用。
以往的研究表明,利用神经机器翻译的序列到序列框架是一种很有前途的逆合成预测方法。在这项工作中,作者使用无模板的序列到序列模型,将逆合成规划问题重新定义为语言翻译问题,模型以端到端和完全数据驱动的方式进行训练。
不同于以往的将反应物和产物转化为SMILES的方法,作者引入了一种基于分子子结构片段表征化学反应的新方法。
结果表明,与目前最先进的计算方法相比,该方法具有更好的预测效果。新方法解决了现有逆合成方法的主要缺点,如生成无效的SMILES字符串。该方法在预测高度相似的反应物分子的准确率为57.7%,此外,该方法比现有方法产生更稳健的预测。
2.研究背景
尽管有机化学的知识已经积累了几十年,但为目标分子设计有效的合成路线仍然是有机合成中的一项关键任务。
Cadeddu等人将语言语料库中的句子与化合物库中的分子进行类比,发现语言学分析的概念适用于解决正向和反向反应预测的问题,于是,机器翻译的序列到序列框架被应用于逆合成预测。
在以往的研究中SMILES是基于序列到序列的模型的典型输入,然而,以SMILES作为模型输入并没有关注分子子结构层次上变化。
这项研究通过使用分子描述符MACCS keys将一个分子表示为一个句子,该句子基于分子的子结构,通过在子结构水平上学习化学变化来预测逆合成反应。该研究还提出了一种独特的令牌化(tokenization)方案,可以适当地消除源自基于SMILES的令牌化的问题。
3.方法
数据集
该研究使用经过过滤的美国专利反应数据集USPTO中的单产品反应。
SMILES表示法用字母、数字和符号的线性序列表示分子结构。因此,从语言学的角度来看,SMILES是一种具有语法规范的语言。
然而,该研究采用一种分子描述符的方法,使用由166个预先定义的子结构组成的MACCS keys将分子表示为一组片段。这种基于二进制位的分子描述符将一个分子转换为一个166位的向量,其中每一位都表示从预定义的SMARTS中提取的特征。
描述符管理
作者先调查了USPTO数据集中每个MACCS key的出现情况。然后从9.75亿个分子组成的生成数据库 (GDB-13)中抽出一个100万个随机抽样的类药物小分子的子集查询MACCS keys的出现情况。图1:基于出现率的描述符管理。通过比较筛选的美国专利反应数据集和作为枚举数据库(GDB-13)子集的100万个随机抽样的类药物小分子,研究MACCS密钥概率分布概况
图1显示了两个数据库上的MACCS keys的规范化频率分布。通过比较,合理地删减不必要的MACCS keys。该研究最终省略了USPTO数据库中从未出现过的5个和不经常观察到的9个MACCS keys。另外26个在GDB-13数据库中从未或几乎从未观察到的MACCS keys也被排除在外。
因为这些分子属于不同的化合物数据库,如类药物或天然产物,所以其指纹图谱表现出不同的特征。为了将分析范围缩小到类药物分子,作者比较了两组数据库并修改了指纹表示。最终,每个分子用126个MACCS keys来表示。
反应的预处理
将英文字母按照频率的排列顺序分配给排序非零的MACCS keys,形成独特的人工“单词”。这种进一步的编码将产物和反应物转换为基于频率的字母键的排序版本,使方案适合于使用序列到序列的体系结构。
单字母单词是由英语中最常见的21个字母的大写和小写产生的。双字母单词是通过为每42个单个字母添加“x”和“z”来构建的,这就可以覆盖所有126个MACCS keys。因此,字母片段词汇表的固定长度为126。产生的反应物-产物对如图2所示。
图2:逆合成预测任务获取生成物和反应物语句的数据准备程序
MACCS非零索引可以作为LSTM模型的良好标记和输入。该模型通过将一个或两个字母分配给MACCS keys中的每个索引,进一步将产物和反应物编码成“语言表示”。
反应数据集管理
在翻译机器处理之前,对产物-反应物对数据集进行筛选。在用126个截断的MACCS keys代表每个分子后,使用一系列过滤器去除产物-反应物相同的5748个反应,此外,还排除了与三个或三个以上反应物的反应,最长的一对的长度被设置为100,以避免冗长的片段序列。然后将生成物-反应物对放入一个内射映射生成器中,以保证生成物和反应物句之间的一对一对应。如果一个反应物句子由两个反应物组成,就将它们按照其序列长度降序排列。反应物被“-”号分开。
该数据集共包含352,546个生成物-反应物对,根据每对反应物分子的数量进一步细分为两个不相交的子集:单反应物和双反应物数据集。图3总结了数据集大小和管理步骤。
图3:数据集管理过程和获取训练/测试对。P产物,R反应物。
模型构架
模型为序列到序列神经网络包括两个双向LSTM:一个用于编码器,另一个用于解码器。此外,该研究使用单向LSTM来量化使用双向LSTM对模型性能的改善。编码器和解码器层通过全局注意机制连接,该机制捕获源序列中所有元素之间的非局部关系。注意机制允许神经网络关注源句的不同部分,并在训练过程中考虑单词之间的非线性关系。
本研究使用的全局注意机制在本质上与Bahdanau等人提出的机器翻译任务的第一注意机制相似。全局方法将“注意力”集中在源句子上的所有单词上,在解码器中的每个时间步长为每个目标单词计算一个全局上下文向量。因此,全局上下文向量表示所有源隐藏状态的加权和,这种上下文信息可以提高预测的准确性。
训练细节
数据集被随机分成9:1来生成训练和测试集,验证集从训练集中随机抽取(10%)。单词嵌入被用来代表词汇中的字母片段。创建嵌入层后,随机初始化包含126维定长密集向量的可训练张量。嵌入类的方法通过查找张量来获取每个单词的嵌入。使用随机梯度下降算法训练编码器-解码器模型的所有参数,用互熵函数作为损失函数。
对于每个数据集,文章在超参数空间范围内执行了一系列测试,以获得最佳性能。在初步实验的基础上,生成了包含两个Bi-LSTM层的编码器和解码器,每层包含2000个隐藏单元。为了避免过拟合,在隐层后面加入一个退出率为0.1的退出层。为了避免潜在的爆炸性梯度问题,引入了梯度剪切,以确保在反向传播期间梯度的规范不超过阈值(0.25)。初始学习率设置为4.0,每三个周期衰减0.85倍。使用这些超参数,平均训练速度约为每秒3300字,单个NVIDIA RTX 2080Ti GPU卡上的批处理大小为64。
由于内存限制,没有测试较大的批处理大小,这同样适用于隐藏层的大小。作者对模型进行了至少30个epoch的训练,对于由320 K个句子对组成的精选数据集,每个epoch大约需要2小时。
评估过程
作者选择了Tanimoto系数作为相似性度量。两种化学结构之间的Tanimoto系数(Tc)的值在0到1之间。定义了三个阈值(0.50、0.70和0.85)来评估翻译实验的质量。使用Tanimoto相似度(Eq. 1),在验证集中每个epoch结束时,计算预测片段的和真实片段之间的相似性。
由于所有的反应都包含在合并的数据集中,该研究的机器可以用一个或两个反应物进行预测。因此,有多种可能性来比较预测序列和真实序列。表1列出了反应物数量的潜在评估对。计算了所有可能的预测序列和地面真理之间的Tanimoto相似性。然后,基于越相似的结构越有可能被匹配的假设,选择相似性最高的一对。
表1:预测序列与真实序列
4.结果与讨论
预测精度
模型的性能是基于三个数据集:单反应物、双反应物和组合测试集。对测试集的评价结果汇总如表2所示。表2:在三个测试数据集上分子的成功率
每个测试数据集的预测质量用两种Tanimoto相似值表示。引入了三个标准来评估翻译模型的成功率:(1)精确匹配的数量(Tc=1.0),(2)生物活性相似匹配的数量(0.85<tc<1.00)和(3)总体成功率表现为预测序列和真实序列(一系列片段)之间的平均tanimoto相似性。
对于单一反应物反应,双向LSTM模型在结合前两个标准的基础上取得了57.7%的准确率。预测序列与真实序列之间的平均Tc值为0.84。这些结果表明,机器预测单一反应具有较高的准确性。双反应物反应的精确匹配成功率(27.9%)与单反应物反应的精确匹配成功率基本相同。但是,非常相似的预测的成功率从28.5%下降到了10.5%。同样,对于包含双反应物和组合反应物的数据集,平均Tc值从0.84降至0.66和0.68。
结果表明,基于双向LSTM的模型优于基于单向LSTM的模型,对于所有数据集,精确匹配的成功率降低了约6%。这可能是因为MACCS keys基于分子表示不依赖于keys的顺序。
全局注意力VS局部注意力
该研究分析了模型在具有全局和局部注意机制的长序列上的性能。为了研究局部注意力是否可以提高预测质量,作者使用更复杂的分子来增加数据集,并通过应用局部和全局注意力机制进行实验。
表3:组和数据基于不同注意力机制的模型精度比较
如表3所示,对于包含100个以上片段的长序列,局部注意机制的结果略好于全局注意机制。然而,使用局部注意机制训练的100个片段序列模型的性能并没有提高。
与现有模型比较
由于模型没有预先提供反应类信息,因此作者将该方法与其他不考虑反应类标记的逆合成预测方法进行了比较。根据Lin等人重现的结果,Top-1精度范围为28.3%到54.1%。最近的报告中,一个增强的Transformer模型在100倍增强的USPTO-50 K数据集的训练下,Top-1准确率达到了53.5%。Tetko等人也使用五倍增强过滤的uspto完整训练集来训练他们的模型,Top-1准确率报告为46.2%。这些结果优于模型的预测准确率29%,但如果考虑高度相似的预测,整体的预测准确率为57.7%。作为一种替代方法,Coley的基于相似性的模型在USPTO 50 K数据集上实现了37.3%的Top-1精度。
分子指纹比较
研究使用扩展连接指纹(ECFP)对Bi-LSTM模型进行训练,选择了四种类型的ECFP,其固定长度折叠为1024和2048位(nBits),半径为1和2。与基于MACCS keys的模型相比,使用半径为1的ECFP训练的模型显示出更高的精确匹配百分比(见表4)。
表4:使用ECFP和macs键比较单个反应物反应数据集的模型精度
使用半径为1的ECFP和nBits 2048模型的精确匹配百分比最高。与基于MACCS keys的模型相比,该百分比增加了8.6%。然而,生物活性相似反应的百分比(Tc≥0.85,52%)仍可与基于MACCS keys的模型(57.7%)相媲美。这些结果表明,半径为1的ECFP提供了比MACCS键更好的分辨率。然而,用半径为2的ECFP训练的模型,精确匹配的准确率分别下降了9.1%和10.1%。
逆合成预测的例子
在这项研究中,假设具有Tc>0.85的候选反应物与它们真正的对应物足够相似。为了验证这个假设,该研究通过将候选反应物与真实反应物进行比较来评估它们的质量,图5给出了随机选择的预测示例。如反应1得到的反应物主链由8个碳组成,正确位置的α、β不饱和醛基被准确地推导出来(图5)。
图5:使用Morgan指纹和Tanimoto度量的相似度计算和相似图。颜色表示原子级对整体相似性的贡献(绿色:增加相似性得分,红色:减少相似性得分,无颜色:没有影响
虽然预期的是酯而不是醛,但醛还原也可以提供相同的目标醇。这表明预测正确地识别了官能团的相互转换。另一方面,缺少了一个烯烃,4个甲基中有2个甲基的位置和数量被错误解释。上述评估的量化总结见表5。
模型的特点
与基于字符的SMILES方法相比,该研究基于单词的MACCS keys模型的关键优势在于,网络需要学习的语法规则相对简单。在基于SMILE的方法中,网络不仅要理解SMILE的复杂语法,还要理解其规范表示,才能综合预测正确序列。学习SMILES符号的句法结构的困难可能会导致一些问题的结果,比如无效的SMILES字符串。通过将一个分子结构的SMILES表示投影到一个子结构域来避免这个问题。
5.总结
该研究建立了一个序列到序列的NMT模型,通过学习子结构层次上的关系来自动提取化学反应的反应规则。通过构建一个包含MACCS keys非零元素的固定长度词汇表的抽象语言,解决了三个概念问题:(1)不稳定的预测:基于SMILES的表示方式使模型结果容易出错。(2)综合可用性:预测的分子可能不是综合可及的。(3)top-N精度度量:模型提出的建议可能因模型运行而不同。
比较和质量检验表明,该方法成功地在0.90 < Tc ≤ 1.00的区域内生成候选反应物,实现了高水平的总体准确性,特别是在官能团相互转换或键断开和活性官能团。该方法在有机化学领域具有广阔的应用前景,对于未来的版本,开发一个更好定义的适合反应预测目的的结构键是必要的。
参考资料
Neves BJ, Braga RC, Melo-Filho CC,and Juyong Lee,Substructure-based neural machine translation for retrosynthetic prediction,Journal of Cheminformatics.
https://doi.org/10.1186/s13321-020-00482-z
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
JMC|用于从头药物设计的生成模型
BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测
JCIM|基于图卷积神经网络的逆合成反应预测和可解释性可视化
Nat Biotechnol|深度学习快速识别有效的DDR1激酶抑制剂
CHEM SCI|在不对称催化中,用AI优化溶剂的选择
JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用
BIB|Mol2Context-vec:从情境感知中学习分子表征用于药物发现
BRIEF BIOINFORM|基于BAN的策略,来改善基于SMILES字符串的分子表征学习
JCIM|结合AI与Docking的基于结构的分子从头生成模型
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图