从蛋白质序列直接预测三维结构,AlphaFold 此前取得了突破性进展。而蛋白质与人类的语言有天然的相似性,蛋白质的氨基酸序列就像是语言的字母,语言模型有可能在整个演化过程中学习蛋白质序列的模式,是否可以用大语言模型预测蛋白质结构呢?在近日发表于 Science 的一项最新研究中,来自 meta AI 团队的研究者采用能够涌现出演化信息的大语言模型,开发了一个从序列到结构的预测器 ESMFold,对单序列蛋白的预测精度超过了 AlphaFold2,对有同源序列的蛋白的预测精度接近 AlphaFold2,且速度提升了一个数量级。该模型预测了6亿多条宏基因组的蛋白质,展示了天然蛋白质的广阔性和多样性。
关键词:大语言模型,蛋白质结构预测,共演化,宏基因组
刘贤 | 作者
梁金 | 编辑
论文题目:Evolutionary-scale prediction of atomic-level protein structure with a language model论文地址:https://www.science.org/doi/10.1126/science.ade2574
一、引子
在蛋白质科学中,序列决定结构,结构决定功能。从序列中直接预测结构,从而推断功能,是研究者50多年来的梦想。经过多年的探索,研究者发现可以用演化信息预测蛋白质的结构。近十年来,基于人工智能(AI)技术的发展、蛋白质序列数据和蛋白质结构数据的积累,用AI技术和演化信息对蛋白质结构的预测取得了突破,其中的典型代表是 Deep Mind 的 Alphafold2(AF2)。 对于大多数蛋白,AF2预测的结构基本可以和实验结构相当。但是,AF2对单序列蛋白的预测精度低,且预测所需的时间长。在本文中,来自 meta AI 团队的研究者采用能够涌现出演化信息的大语言模型,对单序列蛋白的预测精度超过了AF2,对有同源序列的蛋白的预测精度接近AF2,且速度提升了一个数量级。采用这个快速的模型,研究者预测了6亿多条宏基因组的蛋白质,展示了自然界蛋白质的广度和多样性。
图2. 共演化信息在结构预测中的运用。提供残基-残基的距离约束。| 改编自 Kuhlman, Brian, Philip Bradley. 《Advances in Protein Structure Prediction and Design》. Nature Reviews Molecular Cell Biology 20, 期 11 (2019年11月): 681–97. https://doi.org/10.1038/s41580-019-0163-x.
在结构预测的研究过程中,积累了近20万套的结构数据(PDB数据库)和上亿条蛋白质序列。过去十多年,深度学习技术快速发展,正好可以用来解决拥有大量数据的蛋白质结构预测问题。在CASP12(2016年)上,许锦波教授首次成功把残差网络(ResNet)应用于蛋白质残基接触图的预测中,大幅提升了残基接触图预测(contact map)的精度,为提升从头结构预测的精度奠定了基础。在CASP13上(2018年),DeepMind 团队基于类似思想开发了AlphaFold,在比赛中夺得冠军。在2020年举办的CASP14中,DeepMind开发的AlphaFold2震惊了世界,该模型采用注意力机制(Transformer),对竞赛的目标蛋白的预测精度GDT_TS(Global Distance Test - Total Score)中位数超过了90(图 1‑3),意味着对其中很多蛋白所预测的结构与实验结构非常接近,均方根差(Root Mean Squared Deviations,RMSD)在1-2埃以内。尽管AF2取得了巨大的成功,但由于AF2需要搜库构建 MSA(multiple sequences alignment),速度慢。发展新的速度更快的模型,非常有必要。 蛋白质与人类的语言有天然的相似性(图3)。语言的字母可以对应到蛋白质的氨基酸序列,语言的字母组成单词可以对应到氨基酸构成二级结构,语言中单词组成有意义的句子可以对应到二级结构组成蛋白质的三级结构,有意义的句子组成复杂的文本可以对应到多个蛋白组成四级结构(图3-a)。另外,语言中字母错配导致语义改变对应于氨基酸的改变导致蛋白质不能够正确折叠,字母片段和氨基酸片段顺序改变可以不改变语义和功能,可以生成合乎语法但无意义的句子对应于可以生成折叠成四级结构但没有功能的蛋白(图3-b)。
图3. 蛋白质和人类语言的相似性。| 引自Ferruz, Noelia, Birte Höcker. Controllable Protein Design with Language Models. Nature Machine Intelligence 4, 期 6 (2022年6月): 521–32. https://doi.org/10.1038/s42256-022-00499-z.
既然蛋白质与语言具有天然的相似性,通过大语言模型应该可以学习到蛋白质的结构信息,从而进行结构预测。来自 meta AI 团队的研究者对此进行了研究,训练了涌现出结构信息的大语言模型ESM,并开发了一个从序列到结构的预测器ESMFold,对单序列蛋白的预测精度超过了AF2,对有同源序列的蛋白的预测精度接近AF2,且速度提升了一个数量级。采用这个快速的模型,研究者预测了6亿多条宏基因组的蛋白质,展示了自然界蛋白质的广度和多样性。
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。 详情请见:人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动
“后ChatGPT”读书会启动
2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢? 集智俱乐部特别组织“后 ChatGPT”读书会,由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。本系列读书会线上进行,2023年3月3日开始,每周五晚,欢迎报名交流。