龚海鹏:AlphaFold2与结构生物学
The following article is from 结构生物学高精尖创新中心 Author 龚海鹏
点击上方蓝字“返朴”进入主页,可关注查阅往期文章
撰文 | 龚海鹏(清华大学生命科学学院副教授、博士生导师、北京结构生物学高精尖创新中心研究员)
01AF2的重要性和创新性
根据Anfinsen法则,蛋白质的氨基酸序列决定其三维结构,同时三维结构又是蛋白质行使其生物学功能的基础。因此,研究蛋白质序列和结构间关系的蛋白质折叠问题是生物物理领域最重要的基础问题之一,困扰了科学界50年之久。由于蛋白质序列和结构之间属于高维到高维的映射关系,传统上采用数学或物理的方法都无法解决这一问题。近年来,随实验技术的进步,通过新一代测序技术和蛋白质晶体学以及冷冻电镜等结构生物学方法,积累了大量的蛋白质序列和结构信息,为使用人工智能技术研究序列-结构间关系打下了良好基础。从2016年举办的CASP12竞赛开始,各种深度学习技术广泛应用于蛋白质结构预测领域,引发了结构预测准确度的快速提升。AF2是其中的集大成者,采用了不同于以往方法的全新算法设计,具有极高的创新性。从生物物理角度看,AF2设计的神经网络架构,特别是Evoformer架构中序列信息与氨基酸残基相互作用图谱间的迭代优化,与蛋白质折叠的物理机理隐隐吻合。同时,模型第一次成功地实现了端对端的精准结构预测,以序列比对为输入,不经过中间步骤,直接预测三维结构坐标。此外,能显著提高预测水平的recycling和self-distillation等技术也是首次应用于结构预测领域,体现了工程设计优化对方法学发展的重要性。因此,无论是从方法设计的角度还是从性能的角度看,AF2都体现了人工智能方法和生物物理思想的完美结合,不失为近年来最重要的科学突破之一。
02AF2的局限性
受限于算法和硬件,AF2在实用中还有一定的局限性。首先,DeepMind团队使用AF2算法对近期(2018年4月30日至2021年2月15日)新解析出的一万余条蛋白质序列进行了结构预测。虽然其中近一半的蛋白预测精度较高,RMSD95(覆盖95%残基的RMSD)在2埃以内,但是仍有许多蛋白的预测结果不佳,比如近20%的蛋白其RMSD95超过8埃。众所周知,依托结构的机理研究和药物开发等往往需要高精度的结构模型,误差在2埃以上的预测模型对真实应用没有指导作用。因此,针对这些蛋白,仍然需要采用实验结构生物学方法进行结构解析。其次,AF2在预测时严重依赖GPU显存,即使使用目前市面上最好的A100显卡,在进行单卡预测时该算法也仅能处理2500残基以内的蛋白序列。如果使用CPU进行预测则会严重影响算法的运行效率,而且随蛋白残基数越多,对内存的压力越大。当前的AF2程序还无法像单颗粒冷冻电镜一样解析出超大型复合体的结构。第三,AF2的输入信息来源于多重序列比对(MSA),而非单纯的氨基酸序列。多重序列比对相当于自然界以进化的方式做的实验,其中含有许多额外的信息。根据测算,当不使用MSA而仅使用目标蛋白的单序列信息时,AF2的预测精度大幅度下滑。因此AF2还不能算是完全解决了序列和结构间的映射关系。最后,AF2等结构预测方法目前仅能预测特定氨基酸序列的一种构象。蛋白质在行使生物学功能时往往需要发生构象变化。比如酶从失活状态转变为活性状态、膜转运蛋白需要通过构象变化交替接触膜两侧的溶液、蛋白和配体结合时发生构象变化等等。在实验结构生物学方法中,冷冻电镜、核磁共振、小角散射和单分子等技术都可以在一定程度上捕捉结构的动态特征,揭示构象变化过程。目前的AF2还不具有这样的能力。可以看到,由于以上局限性,AF2至少在目前阶段还无法取代实验结构生物学的地位。
03AF2为新一代结构生物学的发展提供契机
即便有以上的局限性,AF2的提出仍属于重要的科学突破。同时AF2将会成为实验结构生物学的重要工具,并推动相关领域的进一步发展。首先,冷冻电镜等实验生物学研究的前提是目标蛋白的表达和提纯,因此往往在天然蛋白质序列中引入点突变,以稳定蛋白的结构(比如把目标蛋白锁定在一种主要构象中)。在缺乏结构信息时,突变位点的设计往往以经验为主,费时费力。AF2可以快速预测蛋白的结构,为突变位点的设计提供重要的结构信息作为参考。基于结构的突变位点设计显然更有针对性,比如相对于蛋白结构的内部残基,表面的残基的突变往往不容易破坏结构的稳定性。其次,AF2预测的结构可以作为实验结构生物学的初始结构模型,辅助最终的结构建模。比如,X射线晶体衍射实验往往由于缺乏相位信息无法建立结构模型,已有研究表明,AF2预测的结构可以提供重要的相位信息,从而有效辅助蛋白质晶体学家快速解析结构。再比如,单颗粒冷冻电镜结构解析中二维图像的分类对最终模型的建立至关重要,但是目前的算法要先依赖经验进行初始分类再迭代优化。AF2预测的结构显然可以对二维图像的分类提供重要的理论指导,从而进一步优化电镜结构模型的建模。第三,AF2预测的结构可以提供初始坐标作为蛋白质结构动态研究的基础。冷冻电镜断层扫描、核磁共振、小角散射以及单分子荧光等实验可以快速获取蛋白质的部分结构特征用于表征或描述蛋白质的结构动态变化,但是这些方法或者只能得到低分辨率的结构信息(如冷冻电镜断层扫描),或者完全缺失结构细节(如小角散射和单分子荧光),或者需要复杂冗长的实验流程才能得到结构细节(如核磁共振)。显然,AF2预测的结构可以为这些方法补充缺失的结构信息。最后,有了AF2预测的结构,分子动力学模拟等计算化学方法也会有更广泛的应用。传统的分子动力学模拟计算需要以可靠的结构作为模拟起始点,因此很难用于研究未知结构蛋白。AF2则大大扩展了分子动力学模拟计算的研究范围,从而对分子机理的研究、蛋白质设计和药物设计等提供重要的辅助作用。
综上所述,以AF2为代表的新一代蛋白质结构预测方法将会成为结构生物学的重要补充,并推动整个结构生物学领域的进一步发展。在新的形式下,需要充分利用蛋白质结构预测算法提供的信息对结构生物学的研究模式进行新的探索。
龚海鹏博士分别于1997年和2000年于清华大学生物科学与技术系(后改为生命科学学院)获得学士以及硕士学位,后前往美国约翰霍普金斯大学攻读博士学位,师从George Rose教授,并于 2007年获得生物物理学博士学位。随后,其加入芝加哥大学Tobin Sosnick教授实验室从事博士后研究。2009年,其返回清华大学任教至今,现为清华大学生命科学学院副教授、博士生导师、北京结构生物学高精尖创新中心研究员。其实验室专注于与蛋白质结构相关的计算研究和方法开发,包括蛋白质结构预测、定量分析生物大分子的大尺度构象变化等研究。
本文经授权转载自微信公众号“结构生物学高精尖创新中心”。
相关阅读
3 颜宁点评AlphaFold2 + 外行买家秀:蛋白结构预测神器初体验
4 对话诺奖得主Joachim Frank,探索冷冻电镜的重构艺术
5 给你的生物网课加点料:世界最大冷冻电镜基地给青少年的7个科普锦囊
近期推荐
1 宣传遥不可及的超常女科学家,是对女性的恐吓 | 女科学家去哪了
2 颜宁点评AlphaFold2 + 外行买家秀:蛋白结构预测神器初体验
3 抗癌、递药、垃圾分类,这项来自火箭的黑科技正在展现新玩法
5 新冠病毒Delta变异株强势反击,防疫需借鉴疫苗的现实世界数据丨117三人行
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
收不到推送了?快加星标!!
长按下方图片关注「返朴」,查看更多历史文章