今天给大家介绍的是Journal of Chemical Information and Modeling上的文章 "Prediction and Interpretable Visualization of Retrosynthetic Reactions Using Graph Convolutional Networks"。
当前,机器学习和深度学习不断发展,化学家逐渐将机器学习和深度学习应用于反应预测。本文作者使用图卷积神经网络(GCN)完成了两个具有挑战性的任务:改进逆合成反应预测和逆合成反应预测的可解释性。在本文中,作者提出了一个可解释的预测框架,使用图卷积网络(GCN)来进行逆合成反应预测、使用积分梯度(IG)来实现预测的可视化。此外,基于积分梯度(IG)的图卷积神经网络(GCN)预测可视化成功地挑选出了与反应相关的原子。逆合成分析是一种规划合成路线的常见方法。当前逆合成分析主要分为两种研究方式:基于规则和基于数据驱动。由于深度学习(DL)的不断发展,研究人员将视线聚焦于用数据驱动的方法来设计逆合成路线,这样的方法已经取得了极佳的成果。深度学习在医学、翻译系统、农业等各个领域也取得了显著的成就。单步逆合成反应预测是在数据驱动方法中实现逆合成分析的必要步骤。因此,逆合成反应的预测很大程度上会影响由数据驱动方法设计的合成路线,预测误差会由于多重预测而不断积累。为了解决逆合成反应预测,基于深度学习的方法已经被开发,并取得了优异的成果。深度学习(DL)方法比传统的机器学习(ML)方法具有更高的预测精度。但黑盒问题导致预测原因难以解释。因此,黑盒问题会使深度学习(DL)的预测不太被化学家所接受。尽管存在这样的问题,数据驱动的方法已经取得了极好的成果。为了使化学家更好地接受数据驱动方法,解决黑盒问题是一件至关重要的事。因此,本文研究旨在解决上述两个问题:(1)提高逆合成反应预测的精度,(2)开发一个可解释的可视化系统来解决黑盒问题。在本文的研究中,作者通过使用美国专利数据集结合图卷积神经网络(GCN)和积分梯度(IG)来证明模型的有效性。本文的目的是从一个分子(产物)的反应中预测反应模板。作者建立了两个模型:一个使用分子图(GCN模型)作为输入,另一个使用ECFP(ECFP模型)作为输入的模型进行比较,如图1所示。对于预测性能进行评估,使用了5倍交叉验证。数据集被分成三组:65%的数据集用于训练数据,15%用于验证数据,20%用于测试数据。为了确认分子的哪些特征影响了预测结果,本文开发了一个使用积分梯度(IG)的可视化系统。在学习了逆合成反应预测模型后,可以将预测结果可视化。作者定量评估了10000个分子的IGs。进行逆合成反应预测。GCN模型在平衡精度方面的效果优于ECFP模型,如图2所示。图2: GCN(蓝色)和ECFP(橙色)模型之间的平衡精度的比较。为了阐明GCN模型和ECFP模型之间的差异,本文展示了详细的预测结果。本文比较了最佳GCN和ECFP模型的前10个平衡精度中每个反应模板的准确性。GCN模型正确率在0.7~1.0之间比ECFP更多,如图3所示。图3: GCN(蓝色)和ECFP(橙色)模型的正确率。本文可视化了一个分子中的原子对逆合成反应预测的贡献。在下图中展示了几个典型的示例。图4a展示了反应中心与对反应预测有贡献原子匹配的例子,图4b展示了反应中心与对反应预测有贡献原子不匹配的例子。图4c展示了错误预测的示例。红色表示对预测的正贡献,蓝色表示对预测的负贡献。图4:可视化分子中原子对逆合成反应预测的贡献。分子中浅绿色的原子部分对应于反应模板中的反应中心。颜色条表示IGs的值。(a)对反应预测有贡献的原子和反应中心匹配的案例。(b)对反应预测有贡献的原子和反应中心不匹配的案例。(c)不正确预测的例子。浅绿色和浅紫色的原子部分分别代表正确的反应中心和预测的反应中心。GCN模型在逆合成反应预测方面的预测效果好于ECFP模型。在分子预测任务中结合以前的各种研究结果表明,基于图的方法效果超越了传统的机器学习方法。在本研究中,与传统的ECFP神经网络方法相比,基于图的方法在逆合成反应预测中也展示出了更好的效果。此外,GCN模型能正确预测多类别的反应模板。作者推测这是由于基于图的方法通常很难过拟合数据集造成的。一般来说,这种优势在逆合成分析中很重要。IGs成功识别出了逆合成反应预测的反应中心,如图4所示。为了确认GCN模型对天然产物的预测效果,作者对四种不同结构复杂度的天然产物进行了逆合成反应预测:苄青霉素、红霉素A、吗啡和前列腺素E1。对苄青霉素的预测被认为是合理的。然而,其他的预测结果被认为是不合理的。无法预测的原因是该模型不能很好地学习天然产物的重要特性。本文成功地开发了基于GCN的可解释逆合成反应预测的方法。并将基于GCN的模型与传统ECFP模型的预测效果进行了比较。结果表明,GCN模型的预测精度高于ECFP模型,而GCN的预测受数据集的影响较小。此外,使用IG的GCN预测可视化成功地显示了分子中的各原子对逆合成反应预测的贡献。通过对这些原子对反应预测贡献的可视化,我们可以推测逆合成反应预测的原理,这有望有助于化学家理解基于数据驱动方法的逆合成反应预测。本文中的模型有望成为构建逆合成反应预测的高质量模型的基石,并对探索逆合成反应具有重要意义。在未来的工作中,将重点通过以下三点来提高模型的性能。第一个是对正确率较低的反应模板进行过采样。第二种方法是用IGs设置一个过滤参数,对预测的反应模板进行重新排序。最后是开发一种方法来表示分子的局部电荷和化学结构信息。这些方法有望提高平衡精度,改进的模型将更适合逆合成分析。文中作者计划将改进后的GCN模型与其他先进的深度学习模型进行比较,包括transformer模型等。