Chem Sci | 用机器学习策略对逆合成途径进行评估和聚类
2021年10月23日,浙江大学化学工程与生物工程学院的莫一鸣等人在Chemical Science杂志发表文章,介绍了对逆合成途径进行评估和聚类的机器学习策略。
以下是全文主要内容。
摘要
随着数据科学和机器学习在计算机辅助合成规划(CASP)方面的发展,现代CASP程序已经可以快速识别出给定目标分子的数千种潜在合成路线。然而,除了使用一些简单的启发式方法之外,整体评估机制的缺乏使得系统地确定合成路径的优先级具有挑战性。在此,本文引入一种数据驱动的方法,利用动态树结构的长短期记忆(tree-LSTM)模型来评估合成路线策略的相对水平。
1.研究背景
计算机辅助合成规划(Computer-aided synthesis planning, CASP),最初由Corey提出,最近随着数据科学和机器学习的实施被广泛研究和改进。CASP的目的是将目标分子一步一步地分解成商业上可用的化合物或容易合成的简单前体。但是现在CASP项目提出的大量合成途径遇到了两个挑战:
(1)逆合成途径的优先策略。尽管人们努力提高单步逆合成的质量,但即使每个单步反应都是有效和有选择性的,所发现的最终的逆合成途径并不一定有用。
(2)相似的逆合成途径的聚类。大多数研究提出的逆合成途径仅在一个小层面上有所不同,使得化学家被大量相似的逆合成途径所淹没,从而难以关注在战略上有较大不同的途径。
在这项工作中,本文尝试通过数据驱动的方法来解决这两个挑战。首先,建立了一个包含从商业专利反应数据库(Pistachio)中提取的逆合成路线数据库,以及使用ASKCOS程序构建的计算机设计的合成路线数据库。由于缺乏现成的模型来编码整个路线的信息,本文建立了一个动态树结构的LSTM模型,用于对具有相同目标分子的不同路线进行排序,以及用于对在战略上相似的路线进行聚类。
2.方法
逆合成路线数据库
本文认为将单步反应转化为反应网络(即有向图)有助于识别反应网络中的反应路线。然而,整个数据库的反应网络将包含各种文献来源的单步反应,其中产物和反应物的相互作用可以逆转,从而创造循环反应路线的可能性。因此,很难从算法上定义一个有意义的逆合成途径。同时,药物或精细化学专利通常以制备为导向,与从单个专利中提取的单步反应高度相关的循环模式会较少。
图1、(a)从专利US10011604B2中提取的反应网络。每一个绿点代表一个连接产物和反应物的反应节点,删除了每个反应中的试剂。有红色标签的化合物是根节点。从这个反应网络中提取的逆合成路线包括:(1)[1]→[5,6,10]→[14]→[16,17]→[19,20];(2) [2]→[6,7,11]→[15]→(17,18)→(19,20);(3) [3]→[4,11]→[15]→(17,18)→(19,20);(4) [9]→[8,11]→[15]→(17,18)→(19,20);(5) [13]→[11,12]→[15]→[17,18]→[19,20]。(b)每个专利提取的逆合成路线数量的柱状图。(c)提取的逆合成路线深度的柱状图。(d) 5万个随机选择的目标分子在逆合成路线中成对谷本相似性的分布。
如图1所示,反应网络是根据最近的专利(US10011604B2)构建的。从根节点开始,用完整的深度优先搜索(DFS)算法遍历网络,将得到嵌入网络中的所有逆合成途径。同时,在反应网络中删去了试剂,使神经模型集中于评估逆合成设计策略,即目标分子是如何一步步分解成商业上可用的前体,而不是取决于特定转化过程中试剂选择的微小差异。为了提高数据质量,本文使用了最先进的原子映射算法(RXNmapper),用于反应验证以及准确区分反应物和试剂。
利用该路线管理算法,本文从Pistachio单步反应专利数据库中提取深度为2-20的逆合成路线907209条,提取过程将在其他包含反应源标识符的单步反应数据库上类似地工作(例如带有专利号的USPTO数据库和带有文献标识符的Reaxys数据库)。85%的专利提供的路线不超过10条(图1b)。路线深度分布如图1c所示。
因为这项工作的目的是学习多步逆合成路线的设计策略,所以他们专注于深度在4到10之间的路线,排除反映战略设计信息较少的非常短的路线(深度2和3),以及通常在实践中不希望看到的长路线(深度>10)。他们还利用这些途径检测了目标化合物的相似性,以确保所使用的逆合成路线的多样性。图1d为随机选取的5万个目标化合物的谷本相似度(Tanimoto similarity)对比,其中98%的分子对的相似度在0 ~ 0.2之间,说明研究了不同的逆合成路线的目标分子数据。
接下来,对于每个专利提取的路线,本文使用ASKCOS程序生成一组与相应专利提取路线具有相同目标化合物的人造逆合成路线。从ASKCOS生成的前3000条路线中随机选择300条人造逆合成路线。最终,共选择了238379条深度在4 ~ 10之间的专利逆合成路线,每条路线有5-300条人造逆合成路线。该路线数据库被随机分为80%的训练数据、10%的验证数据和10%的测试数据,用于后续研究,同时确保不存在同一专利的路线出现在两个不同的数据组中的情况。
树结构的LSTM模型
由于每个逆合成路线都有不同的树形结构,因此Tree-LSTM(Tree-structured LSTM model)结构是动态构建的(图2)。Tree-LSTM模型是为了理解多步反应的设计策略,因此将通路中的每个反应视为一个节点,反应节点通过中间化合物作为边连接起来。
本文使用RDKit实现的2048位、半径为2的产物和反应的Morgan指纹,对反应节点信息进行编码。同时使用反应指纹图谱和产物指纹图谱作为输入,使模型得到反应核心和未改变片段的完整图像。然后将编码后的反应表示输入到反应嵌入神经网络中。
图2、(a)从专利US20140155396A1中提取的卡博替尼具有代表性的合成途径。将每个反应及其对应的产物转换为半径为2的2048位Morgan指纹,作为Tree-LSTM模型的输入。(b) Tree-LSTM网络的结构和工作流程。每个反应节点信息通过前馈神经网络(FFNN)将反应信息嵌入到一个潜向量中,作为LSTM节点的输入。计算从树上的叶节点(Rxn2和Rxn5)开始,并沿着树连接向根节点(Rxn1)传播。当一个节点有多个子节点时,子节点的信息通过隐藏状态的直接和以及带有遗忘门的神经元状态的加权和进行聚合。潜在向量可以通过评分器神经网络传递,以得到代表路线设计策略的策略水平评分(SLScore),或者直接作为路线的数值表示,用于聚类。
Tree-LSTM网络的结构与路线树(pathway tree)的结构相同,每个LSTM节点都将相应的习得反应节点嵌入作为输入(图2b)。根节点的隐藏状态是Tree-LSTM模型的输出,它是整个通路中所有反应的潜在向量表示。
这个潜在的向量可以通过前馈神经网络(FFNN)评分器来给出一个相对的战略水平得分(SLScore),用于比较同一目标分子的路线,相同的目标分子, 或通过无监督学习算法, 它可以用于将具有相同目标分子的路线聚类为具有相似逆向合成设计的子类。
3.结果
逆合成路线排序
本文尝试使用Tree-LSTM理解路线信息。第一个任务是根据路线的战略水平对其进行排名,这需要考虑路线设计的各个方面,比如路线设计的复杂性等。
简而言之,战略层面衡量的是化学家在实践中实施该路线的可能性。在排序时,每个专利路线都有多达300个与专利路线具有相同的目标化合物的人造路线与之相比较。这些专利路线是由化学家设计并在实践中进行评估的,而目前的人造路线质量与专利路线差别很大,因为目前最先进的逆合成程序仍然只检验单步可行性,而没有评估路线级设计策略。
因而在这里,作者假设在相同的目标中,专利路线比人造路线更有可能具有战略意义。在这种训练过程中,SLScore仅仅作为一个相对数据,其仅用于比较同一目标分子的路劲,因为单个路线的SLScore绝对值本身并没有什么有意义的信息,或者在比较不同目标分子的不同通路时也没有意义。训练Tree-LSTM路线排序模型对上述测试数据集的top-1精度为79.1%(表1)。
表1、在提供的测试数据集上测试的路线排名的总体top-k准确率。Top-k准确率表示专利提取的路线在得分最高的路线中所占的数据百分比。
a同样深度的路线被赋予了独特的排名位置。在括号外和括号内分别表示最坏情况和最好情况下的准确率
聚类类似的路线
作者选择vadadustat作为目标分子。在使用ASKCOS搜索路线45秒后,他们选择了前2000条路线进行以下分析。图3a显示了这2000条路线的反应网络图,每个节点和边分别代表一个唯一的化合物和一个反应连接。
图3、(a)从ASKCOS生成vadadustat的2000条逆合成路线的反应网络图。每个圆形节点代表一个独特的化合物,在2000条路线中,节点大小与其出现次数呈线性相关。来自一个示例集群的化合物和连接用蓝色突出显示。(b) 突出显示的示例集群的反应网络子图。节点大小与其在该集群中的出现次数呈线性相关。(c) 从2000条途径中选择了三条具有代表性的路线。路线1和2来自图3b所示的范例聚类,路线3来自不同的聚类。
尽管有2000条路线,但总共只有142个独特的化合物,这表明许多途径有共同的中间体。聚类之后,图3a中蓝色突出显示的节点和边缘为路线聚类,图3b放大该聚类,显示该聚类中共有三个主要中间体化合物。我们从这个簇中选择了两条途径(图3c中的途径1和途径2),它们在策略上是相似的,只是酰胺生成反应和Suzuki-Miyaura C-C偶联反应顺序相反而已。相比之下,不同集群的途径(图3c中的途径3)是一个从根本上不同的逆合成设计。
这表明,尽管Tree-LSTM模型经过了路线排序的训练,但它可以从逆向合成设计的角度对路线进行编码,从而有机会将这种学习到的路线编码用于聚类目的。
4.结论
该工作实现了用Tree-LSTM神经网络结构来编码逆合成路线设计信息。为了方便了解化学家如何在实践中设计合成路线,作者从单步专利反应数据库中策划了一个逆合成路线数据库。同时,利用此数据库训练并测试,表明Tree-LSTM模型能够识别策略性的合成路线,并惩罚非生产性或非选择性的合成路线。
经过训练的Tree-LSTM模型还可以作为一种工具,对策略相似的路线进行聚类,这样用户就可以专注于逆合成程序提出的在策略上不同的路线。
参考资料
Yiming Mo, Yanfei Guan, Pritha Verma, et al. Evaluating and clustering retrosynthesis pathways with learned strategy[J]. Chemical Science, 2021
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
JCIM|用Transformer-decoder模型进行分子生成
JCI|基于子结构的神经机器翻译预测逆合成反应
JMC|用于从头药物设计的生成模型
BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测
JCIM|基于图卷积神经网络的逆合成反应预测和可解释性可视化
Nat Biotechnol|深度学习快速识别有效的DDR1激酶抑制剂
CHEM SCI|在不对称催化中,用AI优化溶剂的选择
JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用
BIB|Mol2Context-vec:从情境感知中学习分子表征用于药物发现
BRIEF BIOINFORM|基于BAN的策略,来改善基于SMILES字符串的分子表征学习
JCIM|结合AI与Docking的基于结构的分子从头生成模型
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图