查看原文
其他

Brief Bioinform | CoaDTI:预测药物-靶点相互作用的多模态协同注意力框架

智药邦 智药邦 2023-01-26
2022年10月23日,香港城市大学黄家骏团队在Briefings in Bioinformatics上发表文章。作者提出了CoaDTI,一种使用多模态协同注意力(co-attention)框架进行药物-靶标蛋白相互作用预测的新型算法。CoaDTI结合了协同注意力机制,对药物模式和蛋白质模式的相互作用信息进行建模。CoaDTI结合了Transformer从原始氨基酸序列中学习蛋白质表示,以及GraphSAGE从SMILES中提取分子图特征的方法。此外,作者采用迁移学习策略,通过预训练的Transformer对蛋白质特征进行编码,以解决标记数据稀缺的问题。

背景

药物-靶标相互作用(DTI)的识别对于药物的发现起着至关重要的作用,其中药物是化学分子,靶标是结合袋中的蛋白质残基。手动DTI注释方法仍然可靠,然而,要彻底测试每一对药物靶点是非常费力和耗时的。最近,标记的DTI数据的快速增长促进了对人们对高通量DTI预测的兴趣的增加。不幸的是,这些方法高度依赖于人工表示的手动特性,从而导致错误。在本文中,作者开发了一个名为CoaDTI的端到端深度学习框架,以显著提高药物靶点注释的效率和可解释性。

方法

如图1所示,基于多模式共同注意力的框架CoaDTI以药物SMILES序列为输入,首先将线性序列转换为基于R半径子图(R-radius subgraph)算法的分子图,图数据被送到GraphSAGE模型,进行邻域聚合。

图1. CoaDTI模型图

考虑到残基位置信息对于提取蛋白质特征至关重要,CoaDTI使用两个嵌入层来获得蛋白质的词嵌入(Word embedding)向量,并使用正弦和余弦函数进行位置编码(position embedding)定位不同位置频率下的嵌入。CoaDTI集成了Transformer编码器用于捕获蛋白质序列中隐藏的全局信息。Transformer更进一步被替换为预训练的版本。如此,CoaDTI得以融合来自药物和蛋白质的多模态信息以执行预测。

为了映射异构表示到一个公共空间,并估计药物化合物的哪一部分的贡献影响靶蛋白,CoaDTI结合了深度学习中使用协同注意力处理多模态特征的机制。CoaDTI利用自注意力(self-attention,SA)来编码药物特征和蛋白质特征。然后两个特征向量通过两个协同注意力层,即DPA(drug-protein attention)和PDA(protein-drug attention):DPA层建模药物对蛋白质的影响,而PDA层则估计药物的蛋白质注意力权重。对于所有注意力单元,输出均加以dropout,同时将残差连接与层归一化结合在一起,以进一步改进模块的鲁棒性。

图2给出了注意力层的三个版本。自注意力(SA):输入来自一种模态(药物或蛋白质),以得到查询向量(query,Q),键向量(key,K)和值向量(value,V)。蛋白质-药物注意(PDA):查询Q是蛋白质特征的嵌入,键值对(K, V)是药物特征嵌入。药物-蛋白质关注(DPA):查询Q是药物特征嵌入,键值对(K, V)是蛋白质特征嵌入。为了从不同的特征子空间学习信息,多头注意力(multi-head attention,MHA)被纳入深度协同注意力模块。多头注意力由多个注意力块拼接组成。

图2. 三种注意力模块

作者构建了深度协同注意力模块的不同级联方式,如图3所示。

图3. 注意力层的三种组合方式

堆叠方式(stack)堆叠SA和PDA的组合。编码器-解码器方式(encoder-decoder)借用了序列-序列模型的思想,这直观地适用于蛋白质和药物序列特征融合。编码层通过堆叠SA层学习药物序列特征,解码层通过堆叠SA 和PDA层将药物模态信息融合进入蛋白质模态信息。交叉方式(interaction)旨在利用药物表征之间的相关性、相互作用和蛋白质表达。

蛋白质和药物输入首先由SA层嵌入特征。然后,蛋白质特征由考虑药物作用的PDA层更新,药物特征由考虑蛋白质作用的DPA层更新。协同注意力模块分别输出所得到的药物表示向量和靶标蛋白表示向量,并拼接为药物-靶标蛋白特征向量。在分类块,交互向量被输入具有激活函数Tanh的线性层。

结果

作者对比了CoaDTI和多种先进算法的有效性。CoaDTI-stack是具有stack协同注意力模块的模型。CoaDTI-encoder是带有encoder-decoder协同注意力模块的模型。CoaDTI-inter是具有interaction协同注意力模块的模型。CoaDTI-pro利用预训练Transformer以编码蛋白质特征并结合interaction协同注意力模块。

其结果如表1所示,可见CoaDTI的表现超越了现有模型。在几种CoaDTI中,CoaDTI-pro取得了最佳结果。

表1:不同方法的对比

总结

在本研究中,作者提出了一个端到端的深度学习框架CoaDTI,通过融合多模态信息来预测DTI。由于蛋白质输入和药物输入具有不同的特征,CoaDTI结合了最合适的特征提取来获得特征表示。对于蛋白质模态,Transformer用于对输入进行编码,因为它可以通过关注残基在蛋白质上不同的位置来获取全局信息。对于药物模态,GraphSAGE可以学习图输入的结构信息,并聚合邻域信息,该邻域信息可应用于隐藏的图特征。

为了整合多模态信息,作者提出协同注意力模块以充分利用跨模态互补性。针对标记的DTI数据往往欠缺,而未标记的DTI数据则爆炸式增长,作者利用预训练的Transformer进行迁移学习,获得外部知识,以解决这一问题。

参考资料

Huang et al., CoaDTI: multi-modal co-attention based framework for drug–target interaction annotation, Brief Bioinform, 2022


--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向


- 历史文章推荐 -

相互作用预测

J Biosci|分子相互作用网络:机遇、挑战和前景

●Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用

●Bioinformatics | MGPLI:多粒度表示模型预测蛋白质-配体相互作用

●BMC Bioinform|CNN-DDI:基于卷积神经网络预测药物相互作用

●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现

●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法

●Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测

●Nat Commun|提升AlphaFold2蛋白-蛋白相互作用的预测能力

●BIB | 整合多尺度邻近拓扑和跨模态相似性预测药物-蛋白相互作用

●BIB|基于图卷积网络和深度神经网络识别药物-靶点相互作用

●JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存