查看原文
其他

Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力

智药邦 智药邦 2022-12-15

2022年7月14日,韩国全北国立大学电子与信息工程系的Kil To Chong研究团队和美国得克萨斯大学达拉斯分校生物科学系的Zhenyu Xuan研究团队在期刊International Journal of Molecular Sciences上合作发表一篇论文《CSatDTA: Prediction of Drug–Target Binding Affinity Using Convolution Model with Self-Attention》。本论文仅使用药物的SMILES和蛋白质的序列信息、借助注意力机制增强的卷积网络来预测药物-靶标亲和力,得到了较好的效果。作者还提供了一个Web服务器供研究者使用。

1 摘要

在药物开发的早期阶段,预测药物-靶标的亲和力 (Drug-Target Affinity, DTA) 是至关重要的。本文所提出的模型,即带自注意力机制的卷积模型 (a Convolution model with Self-attention) 预测药物-靶标亲和力 (CSatDTA),将基于卷积的自注意力机制应用于分子药物和靶标序列,以有效地预测药物-靶标亲和力(DTA),而不像以前的卷积方法那样,在这方面表现出明显的局限。卷积神经网络(CNN)只对某一特定区域的信息起作用,不包括全面的细节。另一方面,自注意力机制是一种相对较新的捕捉远程相互作用的技术,主要用于序列建模任务。

对比实验的结果表明,CSatDTA超过了以前基于序列或其他的方法。

2 材料与方法


2.1 材料


本文利用了公开的KiBA和Davis两个数据集,用于评估模型,数据的统计情况如表1所示。

表1 数据集的详情


2.2 药物和靶标的表示


作者用SMILES字符串序列表示药物,并将每个字符通过一个标签表示方法编码为唯一的整数,一共包括64个整数。SMILES序列长度限制为100个字符。

作者将蛋白用one-hot编码表示,并将蛋白序列长度通过截断或者补齐限制为1000个氨基酸残基。

作者还分别统计了两个数据集中药物和蛋白的序列长度,如图1所示。

图1 KiBA和Davis数据集的分析:(a)KiBA数据集中SMILES长度的分布,(b)KiBA数据集中蛋白序列长度的分布,(c)Davis数据集中SMILES长度的分布,(d)Davis数据集中蛋白序列长度的分布。


2.3 模型:CSatDTA


图2 本文所提模型CSatDTA的框架

仅基于CNN的模型不能捕获原子间远程交互的信息,本文利用自注意力技术来克服这个问题,具体的模型框架如图2所示。具体细节如下所述。

注意力机制

作者首先通过多头注意力机制来学习特征。对于输入特征维度为,将第一、二维展平为,得到单头注意力:

将单头注意力输出拼起来,再做线性变换:

为了与之前的维度相对应,作者亦将此维度重新调整为。 

注意力机制特征和卷积特征结合

作者将两者学到的表示拼接起来,成为注意力增强的卷积,即

之后,作者将学到的药物和蛋白表示,对应拼接起来,通过MLP,即可得到对应的预测值。

3 结果


3.1 超参数设置


表2总结了实验中所用的超参数。

表2 CSatDTA模型的参数


3.2 模型的比较


表3和表4分别展示了对比模型与CSatDTA在KiBA和Davis数据集上的表现。作者采用了三个指标来综合评价模型的表现,分别是均方差(Mean-Squared Error, MSE)、均方根差(Root-Mean-Squared Error, RMSE)和一致性指标(Concordance Index, CI)。可以看到,本文所提出的模型CSatDTA在两个数据集上均取得了较好的表现。

表3 模型在KiBA数据集上的预测表现

表4 模型在Davis数据集上的预测表现

作者还将CSatDTA模型对KiBA和Davis数据集上的预测值和真实值进行了可视化,分别展示在了图3和图4中。

图3 Davis数据集上的CSatDTA模型预测值与实际的结合亲和力值

图4 KiBA数据集上的CSatDTA模型预测值与实际的结合亲和力值


3.3 Web服务器


作者建立了web服务器实现CSatDTA模型,供研究者使用,截图如图5所示。该工具接受药物的SMILES和靶标的蛋白质序列作为输入,以计算亲和度得分,网址是:http://nsclbio.jbnu.ac.kr/tools/CSatDTA/。

图5 结合亲和力预测的Web服务器示例

4 讨论

本研究中,作者用自注意力机制增强的卷积网络建立回归模型。本文提出了一种新的2D相对自注意力回归技术,其允许使用序列数据训练具有竞争力的自注意力亲和力预测模型。作者证明了这种自注意力机制优于其他的注意力机制方案,并将其作为卷积算子的补充。此外,广泛的验证表明,注意力的增强系统性地改进了以前的卷积神经网络方法。

结果显示,具有注意力机制的深度学习方法明显优于基线方法或以前的方法。该研究通过提出一个独特的基于深度学习的模型,可以预测药物与靶标的亲和力,该模型仅简单地采用了蛋白质和药物的字符串表示,而做出了重大贡献。对于药物和靶标,作者取得了与基线方法相当或更好的结果,基线方法依赖于各种技术和策略来从原始序列数据中提取特性。本文的实验预测了已知药物和靶标之间新的相互作用。未来的研究将专注于为新药物预测现有的靶标。此外,作者打算将这一方法扩展到预测已知药物的新靶标的应用中去。
参考资料
Ghimire A, Tayara H, Xuan Z, Chong KT. CSatDTA: Prediction of Drug-Target Binding Affinity Using Convolution Model with Self-Attention. Int J Mol Sci. 2022 Jul 30;23(15):8453. doi: 10.3390/ijms23158453.


--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向


- 历史文章推荐 -


AI药物设计

J Med Chem|静电互补在基于结构的药物设计中的应用

●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法

●JCIM|基于图注意机制的有机化合物合成可及性预测

●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战

●JCIM|利用深度学习进行基于结构的从头药物设计

●Drug Discov Today|辉瑞:如何成功的设计小分子药物

诺华:技术时代的药物设计艺术

CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估

JMC|用于从头药物设计的生成模型

●用机器学习预测药物在靶点上的停留时间

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN

●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物

●BioRxiv|基于表型和化学结构预测化合物活性

●Drug Discov Today综述|分子从头设计和生成模型

●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存