查看原文
其他

JCIM|EHreact:用于酶促反应模板提取和评分的扩展Hasse图

翟思龙 段宏亮 智药邦 2022-06-15

2021年9月29日,JCIM上发表了有关酶促反应模板提取和评分的文章:"EHreact: Extended Hasse Diagrams for the Extraction and Scoring of Enzymatic Reaction Templates"。

作者开发了一个纯数据驱动的开源软件工具EHreact,该工具可以从已知的反应中提取规则并进行打分。EHreact基于虚构的过渡结构(imaginary transition structures)中共同的子结构,提取反应规则并分组,生成具有树状结构的Hasse图。每个图可以用来输出一个或一组反应规则(酶反应模板)。此外,它还可以计算出在给定酶的情况下该酶催化新底物的概率(预测其在非天然底物上的适用性)。EHreact通过从已知酶反应和模板树的分组情况中可以推断有关酶活性位点的信息。EHreact采用启发式预测给定的酶在底物上的活性,其准确性和功能性优于现有方法。

1.研究背景

科学家们开发了大量的工具从大型数据库中的有机或生物催化反应中提取、应用和评分具有一般性的反应模板。其中,酶反应的反应规则的生成尤其具有挑战性,因为酶之间的底物混杂性差别很大,这导致了规则特异性的最佳水平和包含的原子的最佳数量在不同酶之间差别巨大。从另一方看,从数据库中自动提取酶反应的数据的困难促进了手工管理反应规则集的创建。

大多数酶在某种程度具有混杂性,换句话说,它们可以被改造以接受新底物。

在反应途径设计的实践中,适度混杂的酶是首选。因为定向进化可为其增加一定程度的活性。酶既能表现底物混杂性,也能表现反应混杂性,但在生物逆合成中,通常只有底物混杂性被利用。底物混杂性是指在非原生底物上催化原生反应的能力,而反应混杂性则是指催化非原生反应的能力。需要指明的是:本文的混杂性均指底物的混杂性。

酶合成路径规划领域的工具一般通过识别反应中心,将原子和键的变化编码成反应规则,并根据一组标准对新底物进行相同转化的可行性进行评分,从而从已知的反应中提取催化转化模板。其中,最重要的是提高评分函数的准确度,从而正确地对预期可行的反应进行排序。然而,依赖于相似性或反应规则特异性的方法无法区分通用酶和专用酶,即它们缺少对酶的混杂性的描述。

因此,我们需要一种数据驱动的方法来提取不同特异性水平的酶反应模板,以及在指纹相似度以外的标准上对新的查询进行评分。这个标准需要考虑到酶的估计混杂性和从已知底物推断反应中心周围化学结构的多样性。

EHreact 软件提供了一个有价值的工具来描述和预测酶的反应,这个工具可以在GitHub上免费获得(https://github.com/hesther/ehreact)。

2.方法

2.1格式的输入和转换,生成伪过渡结构(ITS)

EHreact可以运行在两种不同的模板树生成模式:以反应作为输入(默认,推荐)或仅反应物(单一底物)为输入。

在标准设置下,即在反应模式下,EHreact采用一个平衡的、原子映射的反应SMILES作为输入,它必须包括显式的氢原子。如果原子映射未知,则通过反应解码器(RDT)自动计算,这是一种最先进的酶反应原子映射工具。在这种情况下,非原子映射的SMILES反应既可以有氢也可以没有氢。

EHreact中提取的模板没有考虑手性,而是在评分算法中处理。在单底物模式下,EHreact以SMILES字符串作为输入(例如,“CC(O)C(=O)[O-]”为乳酸盐),可以输入氢原子或不输入氢原子。由于在此模式中没有指定产物,因此可以另外输入一个种子(seed),以SMILES格式进行最大公共子结构搜索,以帮助算法聚焦于分子的相关部分。对于乳酸的氧化(图1),一个有意义的种子是“C([H])O[H]”,即乳酸氧化酶转化为酮的仲醇。如果没有指定种子,则算法使用所有输入底物中的最大公共子结构作为种子。

图1:EHreact处理一个输入的原子映射的SMILES串(a,上框),产生三个输出(下框),即各自的伪过渡结构(b),键变化表(c),以及仅由发生变化的原子和键或发生变化的原子间键组成的反应中心(d)。

2.2模板树的生成

在确定反应中心(或底物模式下的种子的原子构成)后,根据已知反应或底物的结构,逐步展开模板。在单底物模式下,结构是真实的分子,即输入底物,种子可以手动给出,也可以从最大共同子结构中自动推断出来。图2给出了模板树生成的概述。

图2:模板树生成的原理图工作流:对于每一种酶,一个已知反应的列表被转换成它们各自的伪过渡结构(ITS,白色方块),并传递给模板树生成算法。该算法输出反应中心周围常见的子结构(反应模板、灰圈)和已知反应的Hasse图,并保存到文件中。

该算法迭代地向模板添加信息,创建一个新的、更具体的模板。

图3:当前模板允许原子1、7和8被扩展(还没有指定所有的邻居)。通过将模板与每个伪分子匹配,并确定其邻居,来比较模板中每个候选原子的邻居。该算法选择所有伪分子中相邻原子相同的原子,这里是原子1和原子8(用灰色突出显示),用于扩展模板,生成一个新的、更大的、更特定的模板

3示例了模板树的生成过程。模板与伪分子可能会有多个匹配,在这种情况下,将探索所有选项,并保持导致所有伪分子中最大可相互扩展原子的匹配。生成的模板保存在一个模板树中,其中每个新模板都附加到它的父模板。每个模板只能有一个父模板,但可以有一个或多个子模板。树中没有子节点的节点只是一个输入的伪分子,其中所有的原子都包含在模板中,在短列表中不留下任何原子,因此没有更具体的模板可以作为子节点附加。在数学上,这样的图称为Hasse图,它是一种使用部分顺序对一组对象进行排序和描述的方法。由于作者不仅将父节点和子节点的信息保存到图中,而且还将大量的附加特性保存到图中,所以我们将生成的模板树称为“扩展的Hasse图”。

综上所述,给定一个反应,则从反应中心提取不同直径的模板,创建一个没有分支的线性Hasse图。但如果已知多个反应,则算法利用它们之间的相互结构信息。在这两种情况下,模板树及其叶子节点的许多属性都被预先计算,以加快查询反应或底物的后续评分。这种方法的创新点是在反应中心加入原子和化学键,利用所有已知反应中保守的子结构,而不是预先设定的反应中心半径。

2.3在模板树上的查寻

图4描述了如何在扩展的Hasse图上查询和评分新的底物或反应。

图4:为了对查询分子Q是否能被酶N处理的概率进行评分,将加载相应的模板树,并将Q转换为一个可能的伪过渡结构列表(白色方块,只显示了一种可能性)。然后将Q的ITS与树中的模板(灰色圆圈)进行迭代匹配,直到找到最具体的(最右边的)匹配,用红色突出显示。然后,通过对Q与当前分支(Y和Z)中已知基板的各种比较,以及模板在树中的位置,以及树的整体形状和多样性,得出分数。

2.4打分函数

SS是查询底物与当前分支内已知底物之间的摩根指纹最大谷本相似度(半径2,无特征)。

SP是模板树中所有底物对之间谷本相似性的平均值,是酶特异性的度量。

1−SP是酶混杂的量度。

SM是查询与所有已知底物(在整个树中,而不仅仅是当前的分支)之间的谷本相似度平均值。

SL是到最近的叶节点的最小边数。

2.5数据准备

作者从文献中手工提取了一系列关于各种酶的底物范围的实验研究,以及有机偶联反应的研究,来测试EHreact对有机、非酶促反应的性能。

每项研究都报告了在整个研究中一致的反应条件下,特定底物上酶/催化剂的产率或活性。通过手动指定一个阈值,每个数据集产生大约10-40%的活性反应,将每个反应分为活性反应和非活性反应(阈值列于表1)。对于有机偶联反应,由于数据集的大小,选择较大的阈值来限制活性反应的数量。剩余底物和酶的数量也列在表1中。所有的反应都通过RDT进行原子映射,并通过对每个类的所有反应运行EHreact进行校正,用一个偏差的反应中心标记反应,并手动校正原子映射。

表1:实验数据摘要

(参考文献,底物数量,酶的数量/反应类,活性/非活性阈值(活性 If >阈值))

3.结果和讨论

3.1示例模板树构建

输入的反应如何转变为ITS,以及如何围绕反应中心的共同子结构进行迭代搜索?作者以4-羟基-2-氧戊二酸裂解酶(EC 4.1.3.42)为例进行讨论。从BRENDA列出3种已知底物:4-羟基-2-氧戊二酸、4-羟基-2-牛丁醛和草酰乙酸。底物和4-羟基-2-氧戊二酸裂解酶催化的反应如图5a所示。

图5:4-羟基-2-氧戊二酸裂解酶的三个已知反应的标准模板和Hasse图(EC 4.1.3.42)。原子的映射对于不在反应中心的原子是不显示的。输入的反应(a)被转换为它们各自的ITS(c)。迭代的子结构搜索生成所有模板的Hasse图(d),该图由EHreact绘制(添加了两个反应模板图)重新打印。反应中心用灰色突出显示。模板(ITS伪分子的子结构)用红色框起来,叶节点(已知反应的全部ITS)用黑色框起来。第一个模板对应于反应中心。第四个模板是最具体、最大的模板,它描述了所有输入的反应,对应于4-羟基-2-氧戊二酸裂解酶手工制作的反应规则。相比之下,标准模板提取程序(b),这里显示的是包括离反应中心最多一个键的原子的共同选择,导致三种不同的模板,它们不能很好地表征系统。

这种酶使靠近羟基的碳-碳键分裂。这三种情况下的产品分别是丙酮酸、乙醛酸、甲醛和二氧化碳。例如,用文献方法提取反应模板,包括离反应中心一个键以下的所有原子(一种常见的选择),将创建三种不同的模板(图5b),它们都缺少从已知反应传递而来的互信息。

反应的ITS显示大的公共子结构(图5c)。底物一侧是高度保守的,即形成丙酮酸侧(连接在C:10上),而另一边(连接在C:4上)在结构和大小上是不同的。这表明丙酮酸侧是必需的,因为它适应酶的活性口袋,参与了反应机理。事实上,对4-羟基-2-氧戊二酸裂解酶的机理研究表明,活性袋中的氨基酸与底物的丙酮酸侧存在特定的相互作用,以及同侧的体积限制。

EHreact利用已知反应之间的互信息,以迭代的方式将保守子结构中的原子添加到最小反应模板中(图5d中的第一个模板)。在每一步中,算法只添加原子及其对应的键,这些原子在所有的反应中都是守恒的,是模板中当前原子直接相邻的原子,最终得到图5d中的第四个模板,它适用于所有输入反应。它标识4-羟基-2-氧化戊二酸裂解酶作用于底物表现出重要的丙酮酸C−C键旁边的一部分的分割,没有指定另一边的分子。因此,完美地对应专家知识模板制作的活性口袋和机制系统。

将原子进一步添加到模板之后,图分为三个分支,其中两个分支直接指向叶节点(完全反应的ITS),一个分支在结束于叶节点之前生成一个额外的模板。如果用户对单模板感兴趣,那么提取最具体的相互模板(图5d中的第四个模板)就足够了,并且与传统的模板提取方法相比具有优势。

如图5所示,EHreact为所有反应生成一个模板,而不是其他方法提取的三个不同模板。众所周知,提取模板的数量随着数据库中反应的数量而变化,而且即使在大型数据集中,大部分模板也只出现一次。在Hasse图中,如果缺少与最通用模板的匹配,则立即取消反应类型的资格,从而使计算机辅助合成计划更容易、更快。

3.2酶反应数据集的构建

EHreact模板的质量和评分直接取决于反应的数量。反应的数量决定了每个模板树的大小和多样性,从而决定了它创建有意义的模板和分数的能力。

图6:不同数据库中每个EC类的反应数量(左)和每个酶的反应数量(右)。

3.3实验数据验证

作者比较了EHreact评分的能力,以识别在实验筛选研究中观察到的有希望的底物/酶组合,根据不同的相似性指标。为了达到这个目的,从文献中选择了9个最近的数据集(反应物和产物都是已知的)

作者采用留一实验法(Leave-one-out experiments),在计算模板树(每个酶一棵树)的过程中,对每个反应(底物/产物/酶组合)的可行性进行评估,然后根据之前评分方案计算得分。使用EHreact和传统的相似度度量(Tanimoto, radius:2, len:2048, features:None)。

表2:曲线下面积AUC和分类准确的Acc.(阈值为0.5)通过相似度或EHreact获得的分数

表2列出了反应模式下活性/非活性底物分类的AUC和准确性。一般来说,EHreact可以得到类似的AUC,但准确率更高,在羧基-甲基转移酶、转氨酶、色氨酸合成酶和酰胺转移酶中差异尤其明显。在这些分析中,底物之间有很高的相似性分数,但酶只对底物起作用的范围很窄,也就是说,酶是相当有选择性的。(较高的相似性分数并不一定保证酶对新底物具有活性)

图7:通过相似度(左)、EHreact(中)和它们的差异(右)计算出的相似性评分SS和混杂性评分SP之间的关系。这些线连接每个系统的SS和SP值。新的EHreact方法对于非混杂酶或如果新的底物与训练集中的底物非常相似,则更加准确。

简单相似度指标的分类精度随着相似度分数的增加而显著降低(图7左图),因为已知底物之间的相似度也增加了,这表明酶非常特定。

由于没有考虑到酶的特异性/混杂性,较高的相似性分数导致了分类中大量的假阳性。相比之下,EHreact得分的准确性(中间面板)并不显示出对个体相似性和特异性的依赖。

图7的右图显示了通过EHreact的准确率和相似性评分的差异,在个体相似性和特异性较高的例子中差异最大。

这一观察结果与所使用的阈值无关,但在相似性度量方面存在根本缺陷,无法区分通才酶(generalist)和专才酶(specialist),因此需要为每种酶设置不同的阈值。

EHreact评分与相似性的评分相比,在AUC和准确性方面较好。作者推测这种改提升也适用于其他一些有机反应,即当反应中心周围的结构对反应结果或产量有显著贡献时。虽然本实验不是一般有机反应的情况,但它证明了EHreact至少对某些反应类是一个有用的工具。

作者还研究了在只知道一种酶的底物的情况下,EHreact是否仍然比基于相似性的方法更具优势。然而,作者发现基于相似度和EHreact的得分之间的AUC没有明显的差距。作者推测基于位置分数的惩罚的增益效果视系统而定。这表明基于直径的模板得分并不一定优于整体相似性得分。

3.4区域选择性和辅底物建议

图8:EHreact评分与相似度评分的比较。用于对基质组合是否可能进行分类的ROC−AUC的箱线图(左)、建议的底物的top-1准确度(中)和正确的辅底物的平均等级(右)。

为了评估EHreact在多底物反应中提出有意义的共底物的能力,作者从BRENDA中选择了EC类(两个底物的反应,每个反应都有超过10个已知的反应)在所有反应中最常见的底物的发生率低于70%,单个底物的分子质量小于200g/mol。对于每个EC类中的反应,作者对EHreact和相似性得分的辨别能力进行了分析。作者计算受试者-操作者特征的AUC,来分析在多大程度上能够区分真实和人工底物组合(图8,左面板)。

EHreact的平均AUC为0.69,相似度得分则为0.59。平均排名如图8右面板所示,其中EHreact的平均排名为2.5,高于相似度得分的排名(平均排名3.6)。在反应中,在 rank 1 (top-1-accuracy) 识别出正确 partner 的比例为64%(EHreact)和41%(相似性)。

在区域选择性方面,作者从BRENDA选择了13个EC类,其中一些反应有多个可能的转化位点。作者使用EHreact计算每个反应位点的分数,或使用相同EC类内的非区域选择性反应作为训练反应的相似分数。EHreact和相似度得分均为100%(top-1-accuracy)。

3.5局限性

一个明显的缺点是它的平衡反应需要原子映射,因此,在数据的预处理有额外负担。这些反应通常是不平衡的,而且并不总有原子映射,有时甚至是不正确的原子映射。事实上,在有机和生物催化合成中,错误的原子映射是所有基于模板的反应预测的一个主要限制。不正确的原子映射通常会导致唯一的、没有意义的ITS,这些ITS在模板的Hasse图的开头分支。

当每个酶有多个反应时,EHreact的效果较好。如果只有一个反应,评分方案仍然从多个模板中提取不同特异性水平的信息,形成一个线性模板树。

评分算法也有局限性。虽然EHreact的评分方案不是简单的化学相似性度量,但它仍然基于常见结构及其相似性。

4.总结

作者介绍了一种新的方法:从一组已知的反应中提取多个反应模板,并利用互信息预测非天然底物的活性。因此,作者开发了开源软件EHreact,它能从模板提取、归类、保存为ITS,并构建过渡态分子片段的Hasse图。

参考资料

Heid, E.; Goldman, S.; Sankaranarayanan, K.; Coley, C. W.; Flamm, C.; Green, W. H. EHreact: Extended Hasse Diagrams for the Extraction and Scoring of Enzymatic Reaction Templates. J. Chem. Inf. Model. 2021, 61(10), 4949-4961. https://doi.org/10.1021/acs.jcim.1c00921.


----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向







历史文章推荐    


浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战Mol Inform|基于生成对抗网络的从头分子设计
Chem Sci | 用机器学习策略对逆合成途径进行评估和聚类
JCIM|用Transformer-decoder模型进行分子生成
JCI|基于子结构的神经机器翻译预测逆合成反应
JMC|用于从头药物设计的生成模型
BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测
JCIM|基于图卷积神经网络的逆合成反应预测和可解释性可视化
Nat Biotechnol|深度学习快速识别有效的DDR1激酶抑制剂
CHEM SCI|在不对称催化中,用AI优化溶剂的选择
JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用
BIB|Mol2Context-vec:从情境感知中学习分子表征用于药物发现
BRIEF BIOINFORM|基于BAN的策略,来改善基于SMILES字符串的分子表征学习
JCIM|结合AI与Docking的基于结构的分子从头生成模型
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存