Bioinformatics | MGPLI:多粒度表示模型预测蛋白质-配体相互作用
2022年9月12日,哈尔滨医科大学生物信息科学与技术学院程亮教授团队和南京医科大学生物医学工程与信息学院刘云教授团队合作在Bioinformatics上发表文章《MGPLI: Exploring multigranular representations for protein-ligand interaction prediction》。作者提出了一个多粒度的蛋白-配体相互作用预测模型MGPLI。模型利用Transformer和CNN网络分别提取了蛋白和药物的子序列级和字符级信息,并将两者融合用于预测蛋白-配体相互作用。模型在不同的数据集上进行了评估,性能表现优秀。
1 摘要
目标:预测针对蛋白质-靶标的潜在药物结合亲和力的能力一直是计算药物发现的基本挑战。传统的体外和体内实验成本高且耗时,需要在大的化合物空间上进行搜索。近年来,基于深度学习的药物-靶标结合亲和力(drug-target binding affinity, DTA)预测模型取得了显著成功。
结果:随着Transformer模型最近的成功,作者提出了一种多粒度蛋白质-配体相互作用(Multi-Granularity Protein Ligand Interaction, MGPLI)预测模型,该模型采用Transformer编码器来表示字符级(character-level)特征和片段级(fragment-level)特征,建模残基和原子或其片段之间可能的相互作用。此外,作者使用卷积神经网络(CNN)提取基于transformer编码器输出的高级特征,并使用highway层融合蛋白质和药物特征。作者在不同的蛋白质-配体相互作用数据集上评估MGPLI,与最先进的基线相比,本模型表现出更好的预测性能。
2 问题形式化
3 方法
Tokenization:划分SMILES和氨基酸序列为字符级别和子序列级别的token序列。 Token Embedding + Position Embedding,将1中划分的token嵌入向量,且为每个token添加位置嵌入,将两者之和作为token的最终嵌入。 Transformer:利用Transformer对Token的嵌入进行编码,分别学习到药物和靶标蛋白不同粒度的高级特征。 CNN:将3中的高级特征进行全局最大池化(global max pooling)进一步提炼特征,得到不同粒度的特征向量(Multi-grained feature vectors)。 HighWay Layer:采用highway层融合4中得到的特征。 Multi-Layer Perceptron:使用三个全连接层来预测结合亲和力。
下面详细介绍部分模块。
3.1 Tokenization
作者将药物和蛋白分别进行子序列化和字符化,这是两种不同粒度的特征,可以互补。
3.2 多粒度嵌入(Multigranular embedding)
和dropout技术。
3.4 蛋白-配体预测结构亲和力预测
最后作者采用均方差(Mean square error, MSE)作为loss函数,即
作者也给出了详细的参数设置情况,如表1所示。
4 数据和结果
4.1 数据
4.2 评估指标
4.3 模型比较
如图3所示,作者将MGPLI与其他基准模型进行了比较。作者也进行了消减实验、药物的靶标选择性(target selectivity)、PDBBind数据集上的性能评估和比较等分析。
5 总结
在本文中,作者提出了一种新的深度学习模型MGPLI,用于DTA预测任务。MGPLI使用来自药物和蛋白质序列的多粒度信息;也就是说,它整合了SMILES和氨基酸序列中的原子级和子序列级信息。利用这种多粒度信息,MGPLI通过使用transformer编码器和CNN学习原子级和子序列级的表示。为了有效地融合这些表示,MGPLI采用highway层来调节连续训练周期中的信息流。在三个公共数据集上的实验结果表明,MGPLI在随机划分和盲划分场景中都显著优于最先进的模型。尽管MGPLI在PDBbind数据集上的表现并不优于最先进的方法,但本方法仍然是对蛋白质-配体相互作用预测任务上的有效贡献,并可能在未来的工作中进一步增强。
参考资料
Junjie Wang, Jie Hu, Huiting Sun, MengDie Xu, Yun Yu, Yun Liu, Liang Cheng, MGPLI: Exploring Multigranular Representations for Protein-Ligand Interaction Prediction, Bioinformatics, 2022;, btac597,
https://doi.org/10.1093/bioinformatics/btac597
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AI药物设计】
●Front Pharmacol|基于图片段分子表示和深度进化学习的多目标药物设计
●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现
●Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力
●J Med Chem|静电互补在基于结构的药物设计中的应用
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法
●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
●Drug Discov Today|辉瑞:如何成功的设计小分子药物
●CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估
●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学
●Drug Discov Today|用于从头药物设计的图神经网络GNN
●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物