The Innovation | 大语言模型助力遗传病分子诊断
导
读
Transformer模型是一种新的机器学习模型,已成功应用于理解和生成自然语言(比如ChatGPT),也成功的用于多个生物医学领域(比如进行蛋白质结构预测的AlphaFold)。蛋白质序列上的错义突变是导致人类遗传病的主要元凶之一。本研究提出了一种基于Transformer架构的新方法MutFormer,用于预测有害的错义突变。通过对蛋白质序列、常见变异和有害变异的学习,MutFormer在多个独立测试集上均有优异的表现,可与现有方法互为补充,实现利用大语言模型为遗传病分子诊断提供新的工具。
图1 大语言模型助力遗传病分子诊断。利用强大的AI算力,MutFormer在预训练中学习了人类蛋白质序列(及其常见变体)中数千万种不同的上下文依赖关系,并且在后续的训练中学习如何识别有害错义突变。
在DNA中,每三个核苷酸构成一个密码子,对应一个特定的氨基酸。错义突变(Missense Mutation)是一种常见的基因突变类型,它是指DNA编码序列中的一个核苷酸被替换成了另一个核苷酸,引起蛋白序列中对应的氨基酸被替换。错义突变可能导致蛋白质功能异常,进而引起疾病或其他健康问题,是导致人类遗传病的主要元凶之一。然而由于遗传多态性,正常人群中存在着大量良性的错义突变。尽管多个数据库(如ExAC、gnomAD、ClinVar、HGMD等)中记录了大量良性或有害的错义突变,在遗传病分子诊断时,依然有很多错义突变无法在数据库中寻找到匹配。判断错义突变是否有害是当前遗传病分子诊断领域的一个主要挑战。
目前有多种预测错义突变是否有害的方法,然而其准确性有很大提升的空间。Transformer模型是一种序列模型,可以很好的学习和模拟序列中远距离的上下文依赖关系,最初应用于自然语言处理(Natural Language Processing, NLP)领域,在机器翻译、信息提取等多种任务上取得了良好的效果;近年来以GPT(Generative Pretrained Transformer)为代表的生成式Transformer模型在理解人类语言和人机对话方面取得了突破性进展。由于蛋白质存在三维空间结构,在一维结构中距离较远的两个氨基酸在三维空间中可能距离接近(即存在远距离相互作用),我们推测Transformer模型强大的上下文学习能力有利于模拟和预测蛋白质突变的功能。另一方面,卷积神经网络(convolutional neural network, CNN)可以很好的模拟短距离的依赖关系。相比Transformer模型的自注意力层(self-attention layer),卷积层往往具有更少的计算量和更高的执行效率。
基于上述分析,我们提出了MutFormer,一种预测有害错义突变的新模型。MutFormer利用自注意力机制和卷积机制各自的优势,学习蛋白质序列中氨基酸之间的长距离和短距离依赖关系(图2)。
由于已知的有害错义的突变数量(即训练样本数量)远远小于模型参数,为获得较好的训练效果和避免过拟合,我们采用迁移学习(transfer learning)的方法进行训练。我们首先在参考蛋白质序列和常见突变蛋白质序列上对MutFormer进行了预训练,使之学习正常蛋白序列中的上下文依赖关系。接下来,我们测试了三种不同的微调方法,发现微调时将突变蛋白序列和参考蛋白质序列配对输入可以取得最佳的预测效果。最后,我们将MutFormer与其他现有方法的性能进行了比较。我们发现,MutFormer在多个测试集上均有优异的表现。综上所述,MutFormer采用了以往研究中未涉及的序列模型,为有害遗传变异的预测提供了新的思路,为遗传病分子诊断提供了有利的工具。
图2 MutFormer的训练方法与模型结构
总结与展望
目前预测错义突变功能的方法往往利用序列保守性、同源性等特征,或者采用集成模型(ensemble model)融合多个类似的方法。MutFormer是一种利用Transformer模型预测错义突变功能的全新方法,它直接根据突变后的序列进行预测。鉴于MutFormer提供了独立于以往方法的信息,我们期待它可以作为遗传病分子诊断的一个重要参考。同时我们希望MutFormer作为一种语言模型,能够提高我们对蛋白质序列这一“大自然的语言”的理解。
责任编辑
张群姿 山东大学
樊令仲 中国科学院自动化研究所
扫二维码|查看原文
原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00115-7
本文内容来自Cell Press合作期刊The Innovation第四卷第五期以Article发表的“Deciphering 'the language of nature': A transformer-based language model for deleterious mutations in proteins” (投稿: 2023-02-09;接收: 2023-07-25;在线刊出: 2023-07-27)。
DOI: https://doi.org/10.1016/j.xinn.2023.100487
引用格式:Jiang T., Fang L., Wang K. (2023). Deciphering "the language of nature": A transformer-based language model for deleterious mutations in proteins. The Innovation. 4(5), 100487.
通讯作者简介
方 立,副教授,中山大学“逸仙学者”、“百人计划”引进人才。2015年毕业于北京大学,获得理学博士学位。2016年至2022年在美国哥伦比亚大学和宾夕法尼亚大学/费城儿童医院进行博士后研究工作。2022年11月加入中山大学中山医学院遗传学与生物医学信息学系担任副教授、研究生导师。主要研究方向为1)遗传变异的检测和解读的计算方法;2)生物医学文本挖掘/自然语言处理。
Web: https://fanglab.cn
王 凯,宾夕法尼亚大学/费城儿童医院教授。本科毕业于北京大学,在Mayo Clinic和华盛顿大学获得硕士、博士学位。随后在宾夕法尼亚大学和费城儿童医院进行博士后研究。目前为宾夕法尼亚大学终身教授。他的研究兴趣是基因组学和生物信息学工具的研究和开发,以及在人类遗传病和基因组医学中的应用。
Web: https://wglab.org
往期推荐
| |||
| |||
| |||
| |||
| |||
| |||
| |||
|
期刊简介
扫二维码 | 关注期刊官微
The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球55个国家;已被136个国家作者引用;每期1/5-1/3通讯作者来自海外。目前有196位编委会成员,来自21个国家;50%编委来自海外;包含1位诺贝尔奖获得者,37位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI等数据库收录。2022年影响因子为32.1,CiteScore为23.6。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。
期刊官网:
www.the-innovation.org
www.cell.com/the-innovation
期刊投稿(Submission):
www.editorialmanager.com/the-innovation
商务合作(Marketing):
marketing@the-innovation.org
Logo|期刊标识
See the unseen & change the unchanged
创新是一扇门,我们探索未知;
创新是一道光,我们脑洞大开;
创新是一本书,我们期待惊喜;
创新是一个“1”,我们一路同行。
The Innovation 姊妹刊
生命科学 第1卷第2期 | 地球科学 第1卷第2期 | 材料科学 第1卷第2期 | 医学 第1卷第2期 |
生命科学 第1卷第1期 | 地球科学 第1卷第1期 | 材料科学 第1卷第1期 | 医学 第1卷第1期 |
The Innovation
第4卷第5期 | 第4卷第4期 |
第4卷第3期 | 第4卷第2期 | 第4卷第1期 | 第3卷第6期 |
第3卷第5期 | 第3卷第4期 | 第3卷第3期 | 第3卷第2期 |
第3卷第1期 | 第2卷第4期 | 第2卷第3期 | 第2卷第2期 |
第2卷第1期 | 第1卷第3期 | 第1卷第2期 | 第1卷第1期 |