查看原文
其他

BIB | 整合多尺度邻近拓扑和跨模态相似性预测药物-蛋白相互作用

智药邦 2022-12-15

The following article is from AI in Graph Author AI in Graph

今天给大家介绍的是北京建筑大学郭茂祖老师课题组2021年发表在BIB上的一篇文章“Integrating multi-scale neighbouring topologies and cross-modal similarities for drug–protein interaction prediction”。该文章提出了一个药物-蛋白相互作用预测方法DTIP,通过编码和整合药物和蛋白的多种相似度和关联,邻域拓扑信息以提取更有效的特征来预测药物-蛋白相互作用。最终实验结果表明了该方法的有效性。

摘要


目的: 识别与药物相互作用的蛋白质可以减少药物开发的成本和时间。现有的计算机方法主要集中于整合多个来源的药物相关和蛋白质相关数据来预测候选药物-靶点相互作用 (DTIs)。然而,多尺度的邻居节点序列以及各种药物和蛋白质的相似性在决策中没有得到充分的挖掘和考虑。

结果: 作者提出了一个药物-靶点相互作用预测方法DTIP,用于编码和整合与药物和蛋白质相关的多尺度邻近拓扑、多种相似度和关联。首先作者构建了一个三层异构网络来表示药物、蛋白质和疾病节点之间的关联。然后作者提出了一个全连接自编码器的学习框架来学习异构网络中节点的低维特征表示。其次,作者采用随机游走的方法构造药物和蛋白质节点的多尺度邻居序列;设计了一个基于双向门控循环单元的模块,用于学习相邻序列信息并融合节点的低维特征。最后,作者提出了特征层、邻近拓扑层和相似度层的注意力机制,以学习更有效的特征表示、拓扑和相似度,并利用多层CNN结合邻近拓扑、相似度和特征属性得到预测结果。在公共数据集上的实验结果证明了DTIP的有效性。与其他最先进方法的比较结果,以及案例研究进一步验证了DTIP在发现潜在候选药物相关蛋白上的能力。

模型

DTIP模型由两个分支组成,如下图所示。在第一个分支中,模型学习了基于全连接自编码器的药物、蛋白质和疾病节点的低维表示。然后将各节点的特征表示与异构药物-蛋白-疾病拓扑相结合,学习药物和蛋白节点的邻近拓扑表示。在第二分支中,作者提出了一种新的相似性层注意力机制以整合药物与目标节点对的属性嵌入。最后,通过卷积层和全连通层整合药物-蛋白质对的拓扑表示和属性嵌入,将输出概率作为药物-蛋白质相互作用得分。

1 数据集

作者从公共数据库和发表的文章中提取药物相似性、药物-疾病关联、药物-蛋白质相互作用、蛋白质-疾病关联和蛋白质相似性以预测DTIs。包括708个药物,1,512个蛋白,5,603个疾病对应的1,923个药物-蛋白质相互作用,199,214个药物-疾病关联以及1,596,745个蛋白质-疾病关联。并且作者通过化学亚结构和序列分别计算药物相似性和蛋白质相似性。
2 多源数据表示和计算
Nr个药物的相似度矩阵由谷本系数计算得到,表示Nr个药物和Np个蛋白相互作用矩阵,若=1表示药物ri和蛋白pj存在关联,表示Nr个药物和Nd个疾病关联矩阵。整合上述三个矩阵(表示药物不同维度的特征)以得到药物的特征矩阵
同样的,对于蛋白质,表示Np个蛋白和Nr个药物的相互作用矩阵,表示蛋白的序列相似性,通过Smith–Waterman算法计算得到,表示Np个蛋白和Nd个疾病的关联矩阵,整合这些矩阵得到蛋白质的特征矩阵:
最后,对于疾病,表示疾病和药物的关联,表示疾病和蛋白关联,整合可以得到疾病的特征矩阵:
3 特征层注意力提取
对于上述得到的药物、蛋白、疾病特征矩阵,以药物为例,特征矩阵中包含相似性、药物-蛋白相互作用、药物-疾病关联信息,每种特征对DTI的预测可能有不同的贡献。所以作者在特征层面使用注意力机制提取有效特征,每个特征的注意力打分是:
其中是每个特征的分数向量,W是训练过程中的权重参数,然后对每个特征的注意力打分归一化:
最终,每个潜在特征可以表示为:,由此得到药物、蛋白、疾病的新特征矩阵:
4 基于全连接自编码器的药物,蛋白质和疾病特征表示和编码
由于提取的特征矩阵维度较高,作者使用全连接自编码器对特征进行降维,以获得药物、蛋白和疾病的高密度低维特征表示:,全连接自编码器包含两部分,编码和解码,编码器和解码器都由两个隐藏层组成,特征矩阵作为第一层的输入,编码器的输出作为解码器第一层的输入:

自编码器的优化目标是使得解码器的输出与初始输入尽可能保持一致,损失函数定义为:
其中Tr表示训练集样本的数量,损失函数由adam优化器优化,最终得到药物,蛋白,疾病的低维特征矩阵:
5 邻近拓扑表示
作者构建了一个三层的异构网络如下图所示,包含三类节点:药物、蛋白和疾病,边包含三类:药物-蛋白相互作用、药物-疾病关联、蛋白-疾病关联。对于网络中未知的药物-蛋白对,如果药物和蛋白质连接到一个共同的药物,蛋白质或疾病节点,则它们之间存在相互作用的概率会很高,所以为了提取这类关系,作者采用重启动随机游走来构建每个药物和蛋白质节点的邻居节点序列。
从异构网络中任何一个药物或和蛋白质节点开始,比如以ri为起始点,随机生成一个重启概率p,若p大于阈值0.5,则选择网络中与ri直接相连的节点作为ri的邻居节点,并将rneigh设置为新的起始节点,否则返回初始节点,重复上述过程直到收敛,得到Nh个药物邻居节点、Nh个蛋白邻居节点和Nh个疾病邻居节点。然后根据出现频率对得到的邻居节点排序,保留排名前Ns个节点作为ri的最终邻居节点序列,从而形成ri的多尺度邻居节点序列。药物、蛋白和疾病的多尺度邻居节点序列分别表示为TR,TP ,TD。
然后作者使用Bi-GRU以有效整合异构网络中的节点特征和网络拓扑结构:
其中,NF是药物邻居向量的维度,分别表示ri的蛋白邻居和疾病邻居的表示。
这些邻居表示可能对于DTI的预测有不同的贡献,所以作者在邻居拓扑层使用注意力机制以获取ri的新表示:
最终整合得到ri-pj的邻居拓扑表示:
6 多种相似度的属性嵌入
本文构建了一个CNN模块以学习药物-蛋白对的属性嵌入。在基于相似的药物更可能与相似的蛋白存在相互作用的前提下,通过相互作用的蛋白质来衡量两种药物的相似性:
其中是药物相似性矩阵,类似的,其他两个药物相似性矩阵由药物化学亚结构和药物相关疾病计算得到:。对于蛋白节点,基于蛋白-药物关联、蛋白序列相似性和蛋白-疾病关联计算得到蛋白的相似性矩阵:。多种类型的药物或蛋白相似性可视为药物或疾病的多模态相似性。
这些相似性可能对节点的属性嵌入有不同的贡献,因此作者在相似性层面使用注意力机制获取ri的属性嵌入:
同样的,可以获得pj的属性嵌入向量vj,如果ri和pj与共同的药物具有相似性和相互作用联系,则它们相互作用的可能性更大。因此作者整合gi和以获得矩阵,整合和vj以获得矩阵,同时拼接以获得ri-pj的嵌入矩阵:

7 基于CNN整合邻近拓扑表示和属性嵌入

将第一个分支学到的ri-pj的邻近拓扑表示和第二分支的属性嵌入整合得到最终ri-pj的成对表示:,然后通过卷积神经网络(CNN)获得关联对的打分。CNN包含两层卷积,两层最大池化和一个全连接层,使用交叉熵损失函数。

实验


1‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍与现有方法比较

作者将DTIP与六种药物-蛋白相互作用预测方法进行比较。比较结果表明结合多种药物和蛋白质属性信息提高了预测的准确性。

2 案例研究
为了进一步证明DTIP预测药物靶点的能力,作者对Clozapine, Aripiprazole, Ziprasidone, Amitriptyline和Asenapine进行了案例研究。每种药物的候选蛋白相互作用得分排名前10的结果证明了DTIP在挖掘潜在药物-靶标相互作用上的能力。

总结

作者提出了一个预测方法DTIP,通过融合多源数据之间和内部的相似性、相互作用和关联,以及多尺度邻居序列以预测药物-蛋白相互作用。基于全连接自编码器、双向GRU和多层卷积神经网络的框架用于对邻域拓扑表示和属性表示进行了编码和整合。三种注意机制可以对更重要的特征、拓扑和药物相似度类型赋予更高的权重。在交叉验证中,DTIP的top-k候选通常包含更多真实的药物-蛋白相互作用。交叉验证和案例研究都证实了DTIP强大的预测能力。

参考文献

https://doi.org/10.1093/bib/bbab119
作者 | 李梦露

审核 | 刘  旋

--------- End ---------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向




- 历史文章推荐 -


药物设计

CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估

JMC|用于从头药物设计的生成模型

●用机器学习预测药物在靶点上的停留时间

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN

●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

●BioRxiv|基于表型和化学结构预测化合物活性

●Drug Discov Today综述|分子从头设计和生成模型

●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存