JCIM｜基于图注意机制的有机化合物合成可及性预测

Original 智药邦智药邦 2022-12-15

2022年6月8日，浙江大学药学院的侯廷军和中南大学湘雅药学院的曹东升等人在J Chem Inf Model杂志发表文章，文章提出了一个名为GASA的基于图注意机制的预测模型，用于有机化合物的合成可及性评估。

摘要

在药物发现的许多阶段，都需要对小分子的合成可及性进行准确的估计。一些专家设计的评分方法和基于描述符的定量结构-活性关系（QSAR）模型已经被开发出来用于合成可及性评估，但由于预测精度相对较低和模型可解释性差，在药物发现中的实际应用仍然相当有限。

在这项研究中，我们提出了一个数据驱动的可解释的预测架构，称为GASA，通过区分易合成（ES）或难合成（HS）的化合物来评估小分子的合成可及性。GASA是一个图神经网络（GNN）架构，通过应用注意力机制自动捕捉与合成可及性有关的最重要的结构特征，进行自我特征推断。

我们的分析表明，与其他方法相比，GASA在区分相似分子方面取得了显著的性能，并具有更广泛的适用领域。此外，我们展示了GASA如何通过给不同的原子分配注意力权重来学习影响分子合成可及性的重要特征。

1 简介

合成可及性评估在药物发现工作流程中至关重要，其评估方法大致可分为两类：基于逆合成的方法和基于片段的方法。

逆合成的方法需要大量的化学反应知识或反应数据，而且很耗时。此外，超出现有反应规则范围的新反应的不可预测性通常限制了其应用。

基于片段的打分方法提供了另一种快速评估合成可行性的方法。然而，基于片段的方法只能捕捉到单个片段的信息，缺乏对分子整体环境的精确描述。例如，使用这些方法，基团之间的联系和片段之间的相互作用会被忽略。

在过去的几年里，深度学习（DL）算法在不同的药物发现相关任务上表现出了实现高预测准确率的优势，因为它们具有捕捉结构和特性之间复杂关系的非凡能力。用DL算法开发的基于图形的定量结构-活性关系（QSAR）模型为上述挑战提供了一个解决方案。

首先，基于图的DL模型可以进行自我特征推导，而不需要在训练过程中进行特征选择，因此可以自动捕捉与合成可行性相关的最重要的结构特征。其次，对于任意大小和复杂拓扑结构的分子，图表示可以提供每个分子的基本画像，因此，它可以更清楚地描述原子和键的属性，并有效地捕捉任何节点之间的关键联系。

近年来，图神经网络（GNN）已经成功地应用于分子特性的预测、配体与蛋白的相互作用以及逆合成反应的预测。

在这项研究中，我们提出了一种快速的基于图的分子合成可及性预测方法，命名为GASA（Graph Attention-based assessment of Synthetic Accessibility, 基于图注意的合成可及性评估）。其中假设的决策边界周围的采样被用来提高GASA区分结构相似分子的能力。GASA不仅通过应用注意机制从邻居那里传播节点信息来表征原子的局部环境，而且还通过结合键特征来丰富训练过程中的全局信息。GASA在学习过程中可以进行自我特征推导，自动捕捉与合成可及性相关的最重要的结构特征。

我们将GASA与两种常用的基于不同描述符的ML方法（随机森林和XGBoost）和四种基线方法（SYBA、SAscore、RAscore、和SCScore）进行比较。计算结果表明，与其他方法相比，GASA在区分相似分子方面取得了显著的性能，并具有更广泛的适用领域。此外，原子贡献的可视化揭开了GASA学到的隐藏环境信息。最后，我们为基于GASA的合成可及性预测开发了一个免费的在线服务。

GASA在https://github.com/cadd-synthetic/GASA，供公众使用。

2 方法和材料

2.1 数据集的收集

为了训练二元分类器，ES化合物被视为正面例子，HS化合物被标记为负面例子。由于合成可及性的定义比较敏感，我们用两种策略在决策边界附近仔细取样。首先，从ChEMBL和GDBChEMBL数据库中收集SAscore在3.5和6之间的小分子。然后，用Retro*（一种预测目标分子合成路线的多步骤逆向合成规划算法）预测分子的潜在合成路线。其次，除了通过逆合成分析取样，我们的研究还使用了SYBA中使用的数据集。最后，根据分层抽样，以8:1:1的比例将由80万个化合物组成的数据集随机分成训练集、验证集和测试集。

2.2 用于建立GNN模型的分子的图表示法

在本研究中，通过使用Deep Graph Library（DGL）软件包，将分子转化为分子图G=（V，E），其中一组节点（V）代表原子，一组边（E）代表键，分子图被作为GASA的输入。为了执行图层面的预测任务，原子特征矩阵F存储了由一维特征向量编码的每个原子的特征，由邻接矩阵A编码的相邻原子之间的依赖关系存储了键特征。

2.3 GASA模型

GASA 使用分子图作为输入，并实施一种注意力机制来关注输入中最相关的部分，以实现更好的预测。该模型包含三个用于表征原子局部环境的图注意力层、一个用于组合键特征以丰富用于更新网络中隐藏状态的信息的全局嵌入层、一个图读出层和一个分类层。

GASA模型的整体架构显示在图1中。

图1. GASA架构的概述。

2.4 由ML、SYBA、SCScore、RAscore和SAscore开发的基于描述符的模型

RF和XGBoost是两种有代表性的集合学习方法，已被广泛用于各种化学信息学应用。在这项研究中，半径为2的1024比特长的摩根指纹（对应于直径为4的扩展连接性指纹，ECFP4）和RDCit计算的二维分子描述符被用来开发RF和XGBoost模型。

此外，四个现有的合成可及性评估评分方案（即SYBA、SCScore、RAscore和SAscore）被用作基线方法，与三个外部测试集上的基于描述符和基于图的模型进行比较。建立基于不同方法的分类模型进行合成可及性预测的整体工作流程如图2所示。

图2. 合成可及性预测的模型建立的整体工作流程。

2.5 模型训练和超参数优化

为了更准确地评估模型的性能和模型的稳定性，我们根据分层抽样将原始数据集按8:1:1的比例随机分成训练集、验证集和测试集，并在此基础上重复分割五次。结果，得到了五个不同的训练集（训练集1-5）、验证集（验证集1-5）和测试集（测试集1-5）。所有的分类模型都是通过监督学习在训练集上训练的。基于验证集的AUC-ROC的贝叶斯优化法被用来寻找最佳超参数，然后在测试集上评估最佳模型的性能。

此外，每个分类器的泛化能力也通过对三个外部测试集的预测得到进一步验证。

2.6 模型评估和分类阈值

模型评估是分类任务的一个重要部分。由于不同评估指标的侧重点不同，每个模型的分类能力由四个参数评估：准确度（Acc），灵敏度（Se），特异性（Sp），以及操作特征曲线下的面积（AUC-ROC）。对于二元分类问题，分类器（即GASA、RF、XGBoost和RAscore）将根据0.5的阈值计算出一个化合物属于阳性或阴性类的概率值。

3 结果和讨论

3.1 决策边界周围所产生的标签的统计

我们使用逆向合成规划算法（Retro*）对决策边界周围的150,000个化合物（50,000个ES和100,000个HS）进行采样。

首先，我们估计了逆转合成路线的预测长度与基线方法（SAscore、SCScore、SYBA和RAscore）的预测之间的相关性。如图3a,b所示，可以发现启发式评分（SAscore和SCScore）随着路径长度的增加呈现出上升趋势。在区分可合成和不可合成的化合物方面，SAscore的趋势比较明显，而我们只在SCScore的易合成区域观察到明显的趋势，而且分数往往跨度较大，比较分散。

对于SYBA，我们观察到由Retro*标记的ES化合物的中位数为正值（Q2，白点），而HS化合物为负值。从图3d中可以看出，由Retro*标注的两类化合物的RAscore得分也显示出明显的差异。随着途径长度的增加，中值呈现出明显的下降趋势。此外，我们可以观察到，RAscore在ES和HS分子中都表现出较高的预测置信度，而且概率的分布密度高于其他三种方法。因此，我们得出结论，Retro*的逆向合成分析在很大程度上符合我们对决策边界周围取样的预期。

图3. Retro*预测的逆合成路线长度与基线方法预测的相关性：（a）SAscore，（b）SCScore，（c）SYBA，和（d）Rascore

3.2 基于不同方法的分类模型的比较

首先将GASA与基于二维描述符和摩根指纹的两种集合学习方法（即RF和XGBoost）进行比较。每个分类器的预测能力由五个不同的测试集来评估，泛化能力由三个外部测试集的预测结果来验证。

3.3 分类模型泛化能力的比较

三个外部测试集（即TS1、TS2和TS3）被用来验证每个分类器的泛化能力。

表4. 三个外部测试集上的分类模型的性能比较

如表4所示，在测试集TS1上，最准确的分类器是GASA（ACC = 0.985），其次是基于ECFP4的XGBoost模型（ACC = 0.977）和SYBA（ACC = 0.962）。除SCScore和SAscore外，所有的分类模型对HS化合物的预测精度都表现出强大的预测能力（Sp接近1）。这些模型之间的主要差异是对ES类的预测能力。显然，SAscore显示出最高的灵敏度（Se=0.999，99.9%的ES化合物被平均预测为ES），其次是GASA（Se=0.973），明显优于其他模型。然而，Se的增加是以极低的特异性为代价的。

对TS2和TS3中的化合物的预测为这些模型之间的差异提供了更有力的证据。根据对TS2的统计性能，GASA取得了最好的性能（ACC = 0.801），其次是SYBA（78.7%）和基于ECFP4的XGBoost模型（78.3%）。最差的模型，SCScore（AUC=0.487）。

总的来说，考虑到三个测试集的总体统计数据，GASA在预测合成可及性方面取得了优异的成绩，在区分不同数据资源中结构相似的分子方面表现出强大的能力，表明GASA具有更广泛的适用领域。

3.4 实例：GASA在区分结构相似分子方面的能力

判断学到的知识是否合理，并对模型有更深入的了解是评价QSAR模型的重要方法。GASA是一个基于图形注意力的模型，它自然继承了建立在图形表示上的方法的可解释性。因此，不同分子的原子权重被用来解释我们的GASA模型。

这里，我们展示了GASA如何学习结构相似的分子的特征。图5显示了三对化合物作为例子。在每一对化合物中，一个是ES，另一个是HS，个别原子对预测的贡献被突出显示。

如图5a所示，左边的化合物（利巴韦林）可以通过三个步骤从市售的l-核糖直接合成，因为核糖在该位置有利于替代，而右边的类似物则是一个巨大的挑战，在合成数据库中找不到合成路线。GASA能够捕捉到这种微小的变化。

图5. 由GASA和基线方法预测的三对结构相似的化合物的例子

在GASA的解释中，每个原子的贡献可以投射到相应的根原子上，这种投射可以用来快速分析子结构对单个分子的合成可及性的影响。这些例子表明，GASA在区分具有相似结构的分子方面表现出色。此外，引入注意力权重来解释基于图形注意力的DL模型可以解开复杂的GNN方法的学习过程，帮助化学家提取埋藏在复杂数据中的有价值的信息，正如GASA所处理的那样。

4 结论

在这项研究中，我们提出了一个名为GASA的基于图形注意力的预测模型，用于有机化合物的合成可及性评估。GASA是一个GNN结构，通过对原子和键的特征应用注意机制进行自我特征推断，从而自动学习与合成可及性相关的最重要的结构特征。我们专注于在假设的边界线周围取样，因此，GASA能够有效区分类似的结构。

统计结果表明，GASA明显优于ML模型和基线方法，特别是在区分结构相似的分子方面。我们进一步分析了现有方法中使用的测试集的适用性。然后，个别原子权重的可视化被用来展示我们的GASA模型如何学习相似结构之间的差异。

此外，我们为GASA提供了一个免费的在线服务，以帮助制药研究人员快速预测目标分子的合成可行性。我们相信，我们的模型有望成为构建高质量数据驱动的合成可及性预测方法的基石。

参考资料

Yu J, Wang J, Zhao H, Gao J, Kang Y, Cao D, Wang Z, Hou T. Organic Compound Synthetic Accessibility Prediction Based on the Graph Attention Mechanism. J Chem Inf Model. 2022 Jun 27;62(12):2973-2986. doi: 10.1021/acs.jcim.2c00038

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。

- 历史文章推荐 -

【AI与化学】

●JCIM｜药物发现的超大型化合物数据集概述

●AstraZeneca iLab｜阿斯利康的未来全自动化实验室简介

●未来已来：合成化学迈进智能化时代

●Nat Chem｜让化学的集体知识公开化和机器可操作化

●AI提高从头设计的新化合物的可合成性

●人工智能改变化学领域，机器学习范式加速化学物质发现

●IBM｜基于云服务与AI驱动的自动化有机合成实验室（上）

●IBM｜基于云服务与AI驱动的自动化有机合成实验室（下）