BIB｜基于图卷积网络和深度神经网络识别药物-靶点相互作用

智药邦 2022-12-15

The following article is from AI in Graph Author AI in Graph

今天给大家介绍的是由哈尔滨工业大学臧天仪老师和西北工业大学彭佳杰老师联合发表在BIB的文章 “Identifying drug–target interactions based on graph convolutional network and deep neural network”。本文提出了一种新颖的药物靶点相互作用预测方法GCN-DTI，其考虑药物-蛋白质对信息并进行网络建模，之后使用GCN进行网络节点特征学习，并最终使用DNN进行关联的分类。大量的实验分析表明该模型优于现有的最新方法。

摘要

识别新的药物靶点相互作用 (DTI) 是药物发现中一个重要但耗时且成本高的步骤。近年来，为了缓解这一状况，研究人员尝试使用计算方法来识别 DTI。然而，大多数现有方法分别构建药物网络和靶点网络，然后根据药物和靶点之间的已知关联预测新的 DTI，而没有考虑药物-蛋白质对 (DPP) 之间的关联。

为了将 DPP 之间的关联纳入 DTI 建模，作者构建了一个基于多种药物和蛋白质的 DPP 网络，其中 DPP 是节点，DPP 之间的关联是网络的边。然后作者提出了一种新的基于学习的框架“GCN-DTI”，用于 DTI 识别。该模型首先使用图卷积网络来学习每个 DPP 的特征。之后使用特征表示作为输入，它使用深度神经网络来预测最终标签。作者的分析结果表明，所提出的框架在很大程度上优于一些最先进的方法。

方法

1. 构造DPP网络

DPP网络基于已知的药物与蛋白质之间的作用。这些从药物-药物相互作用网络和蛋白质-蛋白质相互作用网络中获得的关联表示 DPP 网络中的边。每个 DPP 包含一个药物和一个蛋白质，代表 DPP 网络的一个节点。作者还针对DPP关联的强弱进行了定义：如果两个 DPP 共享一种共同的药物或蛋白质，则将它们定义为强关联；如果两个 DPP 中的药物或蛋白质之间存在关联，则将它们定义为弱关联；如果两个 DPP 没有共同的药物或蛋白质，并且它们的药物或蛋白质也不能相互作用，则将它们定义为非关联。DPP关联可以被表示为如下的邻接矩阵A：

其中表示计算DPP关联的函数，定义如下：

其中表示第i个药物和第k个药物之间的相互作用，表示第j个蛋白质和第l个蛋白质之间的相互作用。

作者还提取了DPP网络的节点特征。每个 DPP 节点的特征由其药物和蛋白质分子的组合特征组成。其中药物特征由化学类别定义，蛋白质特征由其序列信息和氨基酸的化学性质定义。

2. 基于GCN的特征表示

由于作者定义了三种类别的DPP关联，因此DPP网络可以表示为一个有权图。其中强关联的边权值设为1，弱关联的边权值设为0.5，非关联的边权值设为0。通过对邻接矩阵A进行拉普拉斯正则化，最终通过GCN提取DPP网络中的节点特征：

其中X是节点的特征向量，通过组合对应的药物特征和蛋白质特征得到：

通过GCN 编码，每个节点都包含其对应的药物和蛋白质相关的所有信息，以及其在网络中的位置信息。

3. 使用DNN进行分类

通过 GCN 提取 DPP 网络的特征后，使用DNN 模型作为监督学习模型来确定 DPP 的真实性。具体DNN架构如上图所示。作者选择二元交叉熵作为损失函数，使用RMSProp作为优化器进行优化求解。

实验

1. 实验设置

为了全面评估算法，作者在三个任务上测试方法的性能:(1) 识别与已知靶标的新药物相互作用，称为 SD; (2) 识别与已知药物的新靶标相互作用，称为 ST；以及 (3) 识别已知药物和靶标之间的未知 DTI，称为 SP。作者在这三个任务上都进行了十折交叉验证，并将结果重复5次以获得平均结果。

2.方法比较

作者将自己的方法与其他6种已有的DTI预测方法在DrugBank数据集上进行比较。实验结果如下图所示。

与其他方法相比，GCN-DTI 在 AUPR 上有显着改善，在 AUC 方面也表现良好。由于现有方法产生的 AUC 已经非常好，GCN-DTI 在这个指标上只显示出轻微的改进。GCN-DTI 在 AUC 和 AUPR 方面在 SP 任务中表现最佳。这说明在不同 DTI 之间建立连接可以有效提高算法区分真假 DTI 的能力。在 SD 和 ST 任务中，某些药物或靶点未在阳性集中找到，因此结果不如 SP。

3.药物与蛋白质关联类别分析

药物与受体相互作用的方式有很多种，不同类型的结合会导致不同的生化反应。由于药物和蛋白质之间关联类型的重要性，作者还测试了GCN-DTI 根据 DrugBank 中已知的 DTI 对关联类型进行分类的能力。作者主要关注DrugBank中大多数的几种类别，并将关联识别问题作为一个多分类任务进行实验。需要将DNN模型中的激活函数改为Softmax，以及将损失函数替换为分类交叉熵。

实验结果如上图所示，GCN-DTI 以 94.53% 的准确度对拮抗剂进行了最佳分类。3026个DTI分类的平均准确率为89.76%，证明了GCN-DTI在分类不同类型关联方面的有效性。

更多实验结果与分析请参考原文。

结论

本文作者提出了一种新的DTI预测方法GCN-DTI，其构建了一个DPP网络，其中每个节点都包含来自其相应药物和蛋白质子网络的信息。不同DPP之间的关系也可以从DPP网络的对应边上得到。GCN-DTI通过使用一个 GCN 层提取每个 DPP 的特征，之后使用一个 DNN 层来区分真假 DPP 特征。然而当网络规模较大时，邻接矩阵无法作为一个整体处理，因此也存在计算资源要求高、耗时长的缺点。与其他方法相比，GCN-DTI 大大提高了识别药物和蛋白质之间相互作用的准确性。