Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力
2022年7月14日,韩国全北国立大学电子与信息工程系的Kil To Chong研究团队和美国得克萨斯大学达拉斯分校生物科学系的Zhenyu Xuan研究团队在期刊International Journal of Molecular Sciences上合作发表一篇论文《CSatDTA: Prediction of Drug–Target Binding Affinity Using Convolution Model with Self-Attention》。本论文仅使用药物的SMILES和蛋白质的序列信息、借助注意力机制增强的卷积网络来预测药物-靶标亲和力,得到了较好的效果。作者还提供了一个Web服务器供研究者使用。
1 摘要
在药物开发的早期阶段,预测药物-靶标的亲和力 (Drug-Target Affinity, DTA) 是至关重要的。本文所提出的模型,即带自注意力机制的卷积模型 (a Convolution model with Self-attention) 预测药物-靶标亲和力 (CSatDTA),将基于卷积的自注意力机制应用于分子药物和靶标序列,以有效地预测药物-靶标亲和力(DTA),而不像以前的卷积方法那样,在这方面表现出明显的局限。卷积神经网络(CNN)只对某一特定区域的信息起作用,不包括全面的细节。另一方面,自注意力机制是一种相对较新的捕捉远程相互作用的技术,主要用于序列建模任务。
对比实验的结果表明,CSatDTA超过了以前基于序列或其他的方法。
2 材料与方法
2.1 材料
本文利用了公开的KiBA和Davis两个数据集,用于评估模型,数据的统计情况如表1所示。
表1 数据集的详情
2.2 药物和靶标的表示
作者用SMILES字符串序列表示药物,并将每个字符通过一个标签表示方法编码为唯一的整数,一共包括64个整数。SMILES序列长度限制为100个字符。
作者将蛋白用one-hot编码表示,并将蛋白序列长度通过截断或者补齐限制为1000个氨基酸残基。
作者还分别统计了两个数据集中药物和蛋白的序列长度,如图1所示。
图1 KiBA和Davis数据集的分析:(a)KiBA数据集中SMILES长度的分布,(b)KiBA数据集中蛋白序列长度的分布,(c)Davis数据集中SMILES长度的分布,(d)Davis数据集中蛋白序列长度的分布。
2.3 模型:CSatDTA
图2 本文所提模型CSatDTA的框架
仅基于CNN的模型不能捕获原子间远程交互的信息,本文利用自注意力技术来克服这个问题,具体的模型框架如图2所示。具体细节如下所述。
注意力机制
作者首先通过多头注意力机制来学习特征。对于输入特征维度为
将单头注意力输出拼起来,再做线性变换:
为了与之前的维度相对应,作者亦将此维度重新调整为
注意力机制特征和卷积特征结合
作者将两者学到的表示拼接起来,成为注意力增强的卷积,即
之后,作者将学到的药物和蛋白表示,对应拼接起来,通过MLP,即可得到对应的预测值。
3 结果
3.1 超参数设置
表2总结了实验中所用的超参数。
表2 CSatDTA模型的参数
3.2 模型的比较
表3和表4分别展示了对比模型与CSatDTA在KiBA和Davis数据集上的表现。作者采用了三个指标来综合评价模型的表现,分别是均方差(Mean-Squared Error, MSE)、均方根差(Root-Mean-Squared Error, RMSE)和一致性指标(Concordance Index, CI)。可以看到,本文所提出的模型CSatDTA在两个数据集上均取得了较好的表现。
表3 模型在KiBA数据集上的预测表现
表4 模型在Davis数据集上的预测表现
作者还将CSatDTA模型对KiBA和Davis数据集上的预测值和真实值进行了可视化,分别展示在了图3和图4中。
图3 Davis数据集上的CSatDTA模型预测值与实际的结合亲和力值
图4 KiBA数据集上的CSatDTA模型预测值与实际的结合亲和力值
3.3 Web服务器
作者建立了web服务器实现CSatDTA模型,供研究者使用,截图如图5所示。该工具接受药物的SMILES和靶标的蛋白质序列作为输入,以计算亲和度得分,网址是:http://nsclbio.jbnu.ac.kr/tools/CSatDTA/。
图5 结合亲和力预测的Web服务器示例
4 讨论
本研究中,作者用自注意力机制增强的卷积网络建立回归模型。本文提出了一种新的2D相对自注意力回归技术,其允许使用序列数据训练具有竞争力的自注意力亲和力预测模型。作者证明了这种自注意力机制优于其他的注意力机制方案,并将其作为卷积算子的补充。此外,广泛的验证表明,注意力的增强系统性地改进了以前的卷积神经网络方法。
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AI药物设计】
●J Med Chem|静电互补在基于结构的药物设计中的应用
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法
●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
●Drug Discov Today|辉瑞:如何成功的设计小分子药物
●CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估
●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学
●Drug Discov Today|用于从头药物设计的图神经网络GNN
●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
●Drug Discov Today综述|分子从头设计和生成模型
●Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展