查看原文
其他

国家超算长沙中心自研人工智能蛋白质语言大模型ESM-DBP,在DNA-蛋白质相互作用研究中取得重要进展

测序中国
2024-11-07

近日,湖南大学国家超算长沙中心副主任、信息科学与工程学院彭绍亮教授课题组在国际顶级期刊Nature Communications发表了题为“Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein”的研究论文。该研究提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP,系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题,探索发现了基于大型蛋白质语言模型的高质量表征学习技术,为研究复杂的DNA-蛋白质相互作用机制提供了新的研究思路。


蛋白质和DNA相互作用在大多数生命活动中起到基础性的作用。传统的基于生物湿实验研究蛋白质-DNA相互作用的方法周期长、费用高,成功率低。在过去的十年中,基于深度学习的技术已广泛应用于蛋白质-DNA相互作用预测的研究中,但这些方法大多严重依赖于训练数据集中有限的初级序列和高质量的多序列比对信息,从而限制了它们的泛化性和准确性。

大规模蛋白质语言模型的出现为克服上述限制提供了一个重要的机会。然而,研究团队经过调研发现国内外研究者使用的通用蛋白质语言模型没有特别关注特定功能领域(比如DNA结合蛋白质)的知识且通常缺乏可解释性。为了缓解这些痛点,研究团队提出了DNA结合蛋白质领域自适应蛋白质语言模型ESM-DBP,主要通过在通用蛋白质语言模型的基础上使用海量的DNA结合蛋白质序列进行掩码预训练,并在DNA结合蛋白质相关的四个下游任务上系统地评估了ESM-DBP的预测性能。

在多个基准测试集上和现有预测方法的比较展示了ESM-DBP优异的预测精度ESM-DBP还展现了在只有少量相似的同源序列的蛋白质序列上较好的预测性能,远超通用蛋白质语言模型和国内外其他预测方法,为解决在机器学习在低同源蛋白上的功能预测精度低这一痛点提供了新的视角。

ESM-DBP在四个下游任务上优于现有的预测方法

此外,研究团队通过对预测模型的可解释性分析发现神经网络对于DNA结合域的高度关注,从而导致了ESM-DBP在DNA结合蛋白质预测任务上的高准确率,大大提升了蛋白质语言模型黑箱的可解释性。最后,在两个由ESM-DBP预测的DNA结合蛋白质(UniProt ID: E5RK24, K7EK85)上的CHIP-seq实验揭示了这两个蛋白质存在广泛的DNA结合作用,GO和KEGG分析表明这两个蛋白质参与了广泛的调控机制,进一步验证了ESM-DBP的有效性
可解释性分析揭示了ESM-DBP对天然的DNA结合域的高度关注

湖南大学博士研究生曾文武为该研究论文第一作者,彭绍亮教授为论文通讯作者,湖南大学为该论文唯一完成单位。该研究受到国家自然科学基金、科技部重点研发计划、湖南省创新群体等项目的支持。

论文链接:(或点击下方“阅读原文”)

https://www.nature.com/articles/s41467-024-52293-7

·END·


热文推荐

衰老时钟:204种血浆蛋白预测常见年龄相关疾病的死亡率及风险

蒋庆华/季勇/许召春联合提出单细胞分辨率下解码细胞通讯的新方法

陈克终/杨帆:基于液体活检的肺癌综合管理系统

基于多组学整合分析鉴定7种癌症风险相关的组织特异性甲基化标志物


快点亮"在看”吧

继续滑动看下一个
测序中国
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存