查看原文
其他

Nature Communications | “交我算”助力洪亮课题组联合发布FSFP:基于语言模型的蛋白质功能小样本预测方法


导读

酶工程或者蛋白质工程是要对蛋白质做突变并筛选得到性质更优的蛋白质产品。传统的湿实验方法是类似于贪婪算法式的搜索方法,需要进行多轮实验迭代并反复进行实验验证,耗费大量的人力和时间。近日,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀,在蛋白质突变-性质预测上取得重要突破。该工作采用全新的训练策略,在使用极少湿实验数据的情况下,极大地提高了传统蛋白质预训练大模型在突变-性质预测的效果。该研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》为题,发表在Springer Nature集团旗下《Nature Communications》上。


01

为什么需要蛋白质的小样本预测方法?

做出一个满足需求的蛋白质产品往往需要数年的时间,而且湿实验方法能够筛选遍历的蛋白质突变序列库非常有限。目前有一些深度学习的方法来加速这个蛋白质突变改造进程,但是这些深度学习模型想要得到很高的准确率的话,需要利用成千上万的蛋白质突变数据来训练模型。而这个大规模高质量的突变数据的获取,反过来也是传统湿实验的巨大门槛。因而,行业内急需一种在不需要大量湿实验数据情况下,依然能够对蛋白质突变-功能做出准确预测的方法。目前的蛋白质无监督预训练模型能在完全没有湿实验的情况,以零样本(zero-shot)预测蛋白质突变-性质的变化,但是这种预测方法往往精度较低,且上述无监督模型无法直接利用有限的湿实验数据对上面无监督模型进行微调。


02

FJSP仅需几十个湿实验数据即可预训练模型


在本研究工作中提出了一种解决方法(FSFP),综合利用元学习,排序学习和参数高效的微调方法,在只利用任意几十个湿实验数据下便可以训练蛋白质预训练模型,并大幅提高对蛋白质突变-性质预测的效果。在包含87个高通量突变数据集 ProteinGym的测试中,FSFP方法先利用蛋白质预训练模型评估目标蛋白质与ProteinGym中的蛋白质的相似度,并从ProteinGym中取出与目标蛋白质最相近的两个蛋白质数据集作为元学习的两个辅助任务,同时利用GEMME对目标蛋白质的打分数据作为第三个辅助任务。最后利用排序学习损失函数和Lora训练方法,在极少量(几十个)的真实湿实验数据上训练蛋白质预训练模型。我们的测试结果表明,即便是在原始的蛋白质预训练模型对突变-性质预测的 spearman相关性低于0.1的情况下,FSFP方法只利用任意20个湿实验数据训练模型,也能将上述的预测相关性大幅提高到0.5以上。


图1  FSFP的概述。FSFP包括三个阶段:为元学习构建辅助任务,使用辅助任务对PLM进行元训练,以及将PLM迁移到目标任务中。


03

模型成效:缩周期、降成本、提质量

在本工作中,作者提出了一个基于蛋白质预训练模型的全新的微调训练方法FSFP。FSFP综合利用元学习,排序学习以及高效参数微调技术,能在只利用20个随机湿实验数据的情况下,高效训练蛋白质预训练模型,且能大幅提高模型的单点突变预测阳性率。上述结果表明,FSFP方法对解决现在蛋白质工程的高实验周期,降低实验成本具有重要意义。


图2  使用FSFP工程化Phi29 DNA聚合酶的流程。a. 使用FSFP工程化Phi29 DNA聚合酶的工作流程。b. 在ESM-1v预测后,经过FSFP训练的前20个单点突变体的湿实验Tm值。源数据可在源数据文件中找到。


04

“交我算”助力计算与训练深度模型

深度学习网络的训练和预测需要海量的计算资源,“交我算”的“思源一号”是目前国内高校领先的超算集群,其中GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。其强大的GPU算力可以有力帮助科研团队训练深度学习框架。研究团队依托“交我算”思源一号平台的强大算力完成了蛋白质语言模型的训练,并在一个具体的蛋白质Phi29改造案例中进行了湿实验验证。验证结果表明,FSFP在只使用20个湿实验数据训练模型的情况下,就能够将原始蛋白质预训练模型ESM-1v的top-20的单点突变预测阳性率提高25%,并且能找到将近10个全新的阳性单点突变。



文字编辑:李瑞

来源:上海交通大学自然科学研究院

#推荐阅读


1、无需输入密码,手机号一键登录“交我办”

2、攒积分,赢大奖!交大专属WPS福利重磅来袭!

3、Cell Research | “交我算”助力单靶点mRNA肿瘤疫苗新进展

4、Nature子刊 |“交我算”助力海洋学院李大玮课题组发表冰盖-气候反馈研究成果


责任编辑:尹守婷

继续滑动看下一个
上海交通大学网络信息中心
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存