国家超算长沙中心自研人工智能蛋白质语言大模型ESM-DBP,在DNA-蛋白质相互作用研究中取得重要进展
近日,湖南大学国家超算长沙中心副主任、信息科学与工程学院彭绍亮教授课题组在国际顶级期刊Nature Communications发表了题为“Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein”的研究论文。该研究提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP,系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题,探索发现了基于大型蛋白质语言模型的高质量表征学习技术,为研究复杂的DNA-蛋白质相互作用机制提供了新的研究思路。
蛋白质和DNA相互作用在大多数生命活动中起到基础性的作用。传统的基于生物湿实验研究蛋白质-DNA相互作用的方法周期长、费用高,成功率低。在过去的十年中,基于深度学习的技术已广泛应用于蛋白质-DNA相互作用预测的研究中,但这些方法大多严重依赖于训练数据集中有限的初级序列和高质量的多序列比对信息,从而限制了它们的泛化性和准确性。
大规模蛋白质语言模型的出现为克服上述限制提供了一个重要的机会。然而,研究团队经过调研发现国内外研究者使用的通用蛋白质语言模型没有特别关注特定功能领域(比如DNA结合蛋白质)的知识且通常缺乏可解释性。为了缓解这些痛点,研究团队提出了DNA结合蛋白质领域自适应蛋白质语言模型ESM-DBP,主要通过在通用蛋白质语言模型的基础上使用海量的DNA结合蛋白质序列进行掩码预训练,并在DNA结合蛋白质相关的四个下游任务上系统地评估了ESM-DBP的预测性能。
在多个基准测试集上和现有预测方法的比较展示了ESM-DBP优异的预测精度;ESM-DBP还展现了在只有少量相似的同源序列的蛋白质序列上较好的预测性能,远超通用蛋白质语言模型和国内外其他预测方法,为解决在机器学习在低同源蛋白上的功能预测精度低这一痛点提供了新的视角。
湖南大学博士研究生曾文武为该研究论文第一作者,彭绍亮教授为论文通讯作者,湖南大学为该论文唯一完成单位。该研究受到国家自然科学基金、科技部重点研发计划、湖南省创新群体等项目的支持。
https://www.nature.com/articles/s41467-024-52293-7
·END·
热文推荐
衰老时钟:204种血浆蛋白预测常见年龄相关疾病的死亡率及风险
快点亮"在看”吧