今天给大家介绍一篇由上海交通大学Xiao-Shuang Li博士发表在Briefings in Bioinformatics的文章。本文提出了一种基于特定尺度和特定原子分子图的多物理图神经网络模型。模型用于蛋白质-配体亲和力预测,在PDBbind数据集上取得了优越的效果。另外,作者将模型在新冠肺炎病毒蛋白靶点-抑制剂数据集进行测试,效果超过了该数据集上常用的MathML方法,可以为新冠病毒的药物设计提供助力。
1.摘要
图形神经网络(GNN)是十分具有前景的深度学习模型,可以用于非欧氏数据分析的方法。然而,GNN潜力受限于表现不佳的分子图和特征。本文提出了一种基于多物理分子图表示和特征化的多物理图形神经网络(MP-GNN)模型用来改善分子图构建以提高GNN性能。不同原子类型和不同尺度下的各种分子相互作用都由一系列具有距离相关节点特征的特定尺度和特定元素的图系统地表示。从这些图中,用专门设计的权重共享结构构造图卷积网络(GCN)模型。基础学习器由不同尺度的不同元素的GCN模型构建,并使用单尺度和多尺度集成学习方案进一步整合在一起,对最后的结果进行预测。MP-GNN在PDBbind的广泛使用的基准测试数据集上进行了广泛验证,包括PDBbind-v2007、PDBbink-v2013和PDBbind-v2016。实验结果,模型基本超越所有现有模型。此外, MP-GNN用于2019年冠状病毒病药物设计。基于包含185个严重急性呼吸综合征冠状病毒(SARS-CoV/SARS-CoV-2)抑制剂复合物的数据集,使用MP-GNN评估了它们的结合亲和力。已经发现MP-GNN具有高精度。这表明了MP-GNN在筛选SARS-CoV-2潜在药物方面的巨大潜力。2.研究背景
到本文发表时间为止,2019冠状病毒病(COVID-19)大流行导致新型严重急性呼吸系统综合征冠状病毒(SARS-CoV-2)感染2.62亿人,席卷213个国家和地区。设计高效的COVID-19抗体和药物具有十分重要的意义,而基于人工智能的模型在药物设计的各个步骤中都显示出了巨大的威力。这些模型包括图神经网络(GNN)模型,GNN是端到端学习模型,采用分子图表示作为输入可以用于预测任务。最初,GNN是用于分析大规模网络(比如社交网络和通信网络等)数据的,主要重点是预测网络内新节点或边缘的属性。近年来,GNN已被用于生物分子数据分析,并在药物设计和发现的各个步骤中取得了良好的性能。目前,大多数生物分子GNN模型使用基于共价键的图表示法,即将分子建模为以原子表示为节点、共价键表示为边的图。然后根据不同类型的物理、化学和生物特性生成节点和边缘特征。然而,这些基于共价键的分子拓扑无法有效地表征非共价相互作用,而这对于生物分子复合物(包括蛋白质复合物、蛋白质配体复合物、蛋白-DNA复合物等)来说非常重要。因此,有效分子GNN模型设计的瓶颈是描述生物分子多物理特性的合适拓扑表示和特征化。本文提出了基于多物理分子图的表示和特征化。在此基础上,作者构造了一种多物理图形神经网络(MP-GNN)模型。MP-GNN采用集成学习方案,将特定尺度GNN模型和特定元素GNN模型结合起来。研究发现,MP-GNN模型可以为蛋白质-配体结合亲和力预测提供最先进的结果,并在SARS-CoV BA数据集中达到极高的精度。3.模型介绍
本文的模型思想针对分子中和分子间影响原子相互作用的因素,从特定尺度和特定元素去衡量相互作用的类型,并建立了一系列表示相互作用的图表示。然后,在这些图上使用GNN去进行特征学习训练,得到不同尺度下复合物中蛋白质和配体相互作用的表示,并进行亲和力预测。最后采用集成学习策略对不同模型分配权重,获得最终的预测结果。模型的整体流程如图1所示,具体架构如图2所示。
图1.模型整体流程
3.1特定尺度下原子相互作用
物理上,分子内和分子间的原子相互作用有多种类型,从强的共价键、二硫键、离子键、氢键到相对较弱的范德华力、静电相互作用、疏水和亲水效应。这些相互作用在数学上,可以用基于原子间欧几里得距离的函数来形式化描述,引入一个尺度参数n,n取值较小时,函数表示原子间的强相互作用;取值较大时,表示原子间的弱相互作用。基于此,考虑复合物中的原子为节点,原子间相互作用表示为边,本文可以构造不同尺度下原子间的相互作用图。3.2特定元素间原子相互作用
原子间的相互作用除了需要考虑不同尺度的影响,还由原子的类型所决定。例如,碳原子通常与疏水相互作用有关,而氮原子和氧原子则与亲水相互作用或氢键有关。一般来说,一个蛋白质分子大约由5个最重要的元素组成,记为EP = [C,N,O,S,H]。一个DNA或RNA也有五个最重要的元素,分别表示为ED = [C,N,O,P,H]。考虑到蛋白质-配体复合物中原子的相互作用,本文考虑建立特定原子的二分图,二分图的两个顶点集分别来自蛋白质和配体中的特定原子。从而表示复合物中特定原子的相互作用。3.3MP-GNN
在MP-GNN模型中,根据分子生成了一系列特定尺度和元素的图,用来表示不同尺度和不同原子间的作用。根据每个图,构建GNN体系结构。MP-GNN中的GNN由两部分组成。头部分将每个二分图中的节点矢量信息转换为隐藏的特征矢量。尾部分是全连接神经网络,从隐藏的特征向量学习预测蛋白质-配置亲和力。头部分的图卷积层使用的是基于频域的图卷积。尾部分包含两个部分,即特征融合部分和基于编码器的预测部分。特征融合部分,先将单个图所有节点特征向量进行sum聚合为单个特征向量,再把不同特定原子图的向量相连构成最后特征。最后将特征输入编码器预测部分。集成学习方法是同时使用多个学习模型来提高性能。每个学习模型都被称为基础学习者(base learner),可以单独给出预测。集成学习通过将每个基础学习者按照一定的组合策略组合在一起,提高了它们的预测精度。常用的组合方法包括bagging、boosting和stacking。MP-GNN中主要关注stacking集成模型。其基本思想是为每个基础学习者分配一个可学习的权重,并将加权结果用作最终预测。 模型将n个基本学习者的预测表示为Y1、Y2、…、Yn,最终预测表示为Ystacking,训练集的基本真值表示为Y。每个基本学习者在训练集上的权重与其预测精度线性相关。例如,可以使用Rp(Yi,Y),即预测值Yi和真值Y之间的皮尔逊相关系数Rp,作为模型精度的评价值。则第i个基础学习者的权重表示为其Rp与所有预测值和真值Rp和的比值,最终预测值则表示为所有基础学习者与各自权重乘积的和。
图2.模型具体架构图
4.验证实验
4.1PDBbind数据集上模型性能实验
图3.PDBbind数据集上模型性能比较
在三个数据集与PDBbind数据集上的近期工作进行比较,包括基于拓扑的方法、基于图像的方法和传统的基于分子描述符的方法,结果如图3所示。其中,图的上半部分是总体比较。下半部分是三个数据集上皮尔森系数Rp高于0.6的模型的效果具体排名,所有结果均以Rp测量。可以看出,本文提出的方法除了在PDBbind-v2016中仅次于TopBP方法外,在所有三个数据集上都领先于其他所有工作。
4.2 集成学习验证实验
图4.集成学习效果图
图4左侧和中间的箱型图描述了两种Stacking方案的性能。可以看出两种Stacking集成学习方案可以提高模型最终的预测结果。右边的折线图显示了学习率的衰减规律,以及指数核参数η=10的PDBbind-v2007数据集上第一次重复实验的训练和测试的Rp曲线。4.3 SARS-CoV BA数据集模型验证实验
近期研究表明在SARS-CoV-2的不同药物靶点中,主蛋白酶是冠状病毒最具特征的靶标之一。而且SARS-CoV-2的Mpro与SARS-CoV的序列同源性为96.08%,这为药物重利用提供了机会。
SARS-CoV BA数据集是185个具有实验结合亲和力的SARS-CoV/SARSCoV-2 Mpro抑制剂数据集。本文在该数据集上测试MP-GNN模型,并与MathDL作比较。MathDL是在SARS-CoV BA数据集上进行绑定亲和力预测的主要方法,比较时使用相同的数据集分区方案和交叉验证策略。结果表明MP-GNN模型的平均皮尔森和肯德尔相似系数分别为0.855和0.654,优于MathDL的0.729和0.540。
5.总结展望
总结来看,本模型的创新点有:
1.首次提出多物理分子图表示法。不同原子类型和不同尺度下的各种分子相互作用都由一系列具有距离相关节点特征的特定尺度和特定元素图系统地表示。2.基于多物理分子图开发了多物理图形神经网络(MP-GNN)模型。MP-GNN中使用了集成学习策略,将一系列特定尺度和特定元素的图形信息合并到一个统一模型中,提高了最终的预测效果。