Nature | RFdiffusion:蛋白从头设计的通用深度学习框架
Journal Club
汇聚思想,点燃新识
Journal Club 凝聚了一批热爱科学、享受科学、传播科学的探索者和发现者。他们志同道合,他们青春飞扬,他们与科学共舞。在这里,你可以收获最新、最真的行业资讯和来自科研一线的文献解读。你关心的就是我们要说的,我们将用最质朴、最客观的文字书写有深度、有温度的科学。Journal Club,与你畅游Journal世界,和你共享科学蔚蓝。
2016年,Baker等人在发表的综述中指出,蛋白从头设计的时代正在到来。对于一个全长为200个氨基酸的蛋白,其全序列空间大小为20200。通过逐步突变、自然选择而进化得到的蛋白,在全序列空间中并非均匀分布,而是聚集成分散的families(图1)。此前人类对天然蛋白质的改造,仅仅是自然进化的延伸,是不系统的。而从头设计则探索全序列空间,产生与天然蛋白无关的蛋白。此外,他们指出不论是结构预测、固定骨架的蛋白设计还是从头设计本质上都是优化问题,都是通过构造能量函数使得蛋白总体能量达到最低(图1)1。
图1 蛋白从头设计
以能量函数构造为核心的基于物理的蛋白设计(Physics-based protein design)采用分子动力学和统计热力学手段,在蛋白质的分子构象空间中构造势能面,通过搜寻局部极小点寻找最优骨架及序列。近年来基于深度学习的蛋白设计方法也取得巨大进展,出现了蛋白幻想(Hallucination)2、RFjoint3等一系列方法。相比于能量函数只包含几百或几千参数的传统方法,深度学习方法可以通过庞大蛋白结构与序列数据的训练获得数以亿计的参数4。然而,目前仍然缺乏一个通用的蛋白从头设计的深度学习框架以应对不同设计任务。
2023年7月11日,美国华盛顿大学David Baker作为通讯作者,在Nature上发表文章De novo design of protein structure and function with RFdiffusion,开发者通过微调结构预测网络RosseTTAFold,使其在扩散模型中完成蛋白结构去噪任务,并将这一深度学习框架命名为RFdiffusion。此方法能够成功应用于从单体、对称寡聚蛋白设计、蛋白结构功能域骨架设计到靶点结合蛋白设计等一系列蛋白设计场景,在准确性、普适性、蛋白复杂程度等方面都超过目前已有的蛋白设计手段。
RFdiffusion方法概述
去噪扩散概率模型(Denoising diffusion probabilistic model,DDPM)起初用于从高斯噪音中还原高质量的音频或图片5,6。其前向的逐步加噪过程用于训练模型预测噪声能力,以实现反向的去噪功能。该模型被认为非常适合蛋白设计:首先,通过训练该模型具有随机反向去噪的能力,因此可以输出多样性的设计;其次,通过提供限制性条件(conditioning),模型的输出可以在逐步迭代中趋向设计目标。
RFdiffusion 则微调(fine-tune)结构预测工具RosseTTAFold作为扩散模型的去噪网络。首先将PDB蛋白结构抽象为每个氨基酸平移向量与旋转矩阵的六维信息,将旋转/平移信息分别逐步加噪作为训练输入;去噪过程中通过构造损失函数衡量每一步预测结构以及真实结构差距,驱使模型还原真实蛋白结构;最终,训练好的结构可以从噪声中还原与真实蛋白质类似、但在自然界中却从未出现过的蛋白质(图2a)。
图2 RFdiffusion方法概述
此外,RFdiffusion在训练模型中使用self-conditioning方法。简而言之,如果没有self-conditioning,每一步对最终结果的预测 ̂X0生成Xt-1后会被丢弃,但使用self-conditioning训练模型, ̂X0则会和Xt-1一起用于下一步最终预测结果 ̂X0t-1的生成,相当于 ̂X0不断更新形成自循环(图2a)。如图2c所示,迭代早期的预测 ̂X0与真实蛋白相似性很低,随着迭代进行逐渐与真实结构靠拢。值得注意的是,RFdiffusion的设计既可以是无条件的,也可以在随机噪声之外对对称性、结合靶点、功能基团等加以限制,从而适用于不同场景的蛋白设计(图2b)。
应用一
无限制的单体蛋白生成
首先将RFdiffusion应用于没有任何限制的单体蛋白生成,产生100-1000个氨基酸长度不等的单体蛋白。设计结果和训练中使用的PDB结构整体相似度较低(图3b),证明生成与真实蛋白质类似、但在自然界中却从未出现过的蛋白质。AlphaFold2(AF2)能够准确预测600氨基酸长度以下的设计蛋白(图3c)。此外,RFdiffusion在设计成功率与设计效率上表现都显著优于蛋白幻想,前者生成100氨基酸的单体只需11秒,而蛋白幻想则需要8.5分钟(NVIDIA RTX A4000)。
图3 RFdiffusion用于单体蛋白设计
RFdiffusion也可用于特定折叠类型蛋白的生成。以磷酸丙糖异构酶桶折叠(triose-phosphate isomerase (TIM) barrels)为例,通过限制二级结构与各二级结构之间的取向(block adjacency),RFdiffusion可以产生一系列TIM折叠蛋白(图4)。表达11种设计蛋白,其中8种都可溶、热稳定、且拥有与模板类似的圆二色光谱(图4)。
图4 RFdiffusion用于生成特定折叠种类的单体蛋白
应用二
高阶对称的寡聚蛋白设计
对称结构的寡聚蛋白可以作为疫苗平台,递送工具和催化剂,因此在蛋白设计领域引起广泛兴趣。蛋白幻想已成功用于生成循环对称蛋白(cyclic symmetries),但是很难在更高阶的二面体/四面体/八面体/二十面体对称蛋白(dihedral, tetrahedral, octahedral and icosahedral symmetries)上取得成功,这可能是这类结构在PDB中比例较低导致的。
在给定单体数目、单体序列长度后,先通过RFdiffusion在无限制的情况下设计单体亚基,再将单体的copies按照指定的点群对称性空间排布,得到对称寡聚蛋白。尽管没有使用对称结构训练,但由于RFdiffusion具有等变性(equivariant),去噪过程中结构的对称性基本得到了保持。RFdiffusion在设计对称蛋白上取得了较高的in silico成功率,其中部分拓扑结构未见于PDB(图5a)。
对部分不同类型的循环对称蛋白收集电镜数据,对大部分设计,不论是2D分类还是3D重构的真实结构都与设计较为一致(图5b)。此外,该方法也成功应用于二面体、四面体以及二十面体对称蛋白的设计,对二面体对称蛋白,SEC表明38 个D2、7个 D3以及4个D4蛋白的实际分子量都与预期相符,部分真实结构与设计保持一致(图5c)。在48个经过实验验证的二十面体蛋白设计中HE0902,直径15nm的多孔结构,在电镜照片中表现出均一粒子(图5d)。未来,一些类似的大而稳定的多面体结构可能成为新型的纳米材料或抗原递送工具。
图5 对称寡聚蛋白的设计与实验表征
应用三
蛋白结构功能域骨架设计
接下来为有结合或催化功能的蛋白结构域设计骨架,使得结构域以合适的构象实现最优功能。将PDB结构分割为结构功能域和骨架,对骨架坐标加噪,训练模型还原骨架并且尽可能不改变功能位点的能力,输入3D结构域坐标,RFdiffusion即可输出骨架。为与此前骨架设计方法的能力比较,从最近发表的6篇文章选择25个骨架设计问题对RFdiffusion进行基准测试,RFdiffusion在其中23个问题中获得成功设计,表现优于蛋白幻想与RFjoint(图6a)。
首先为结合位点设计骨架。其中一个问题是为结合MDM2的p53螺旋设计骨架,使其高亲和力、竞争性地结合MDM2。在96种设计中有55种在10μM浓度下表现出结合(高于最大应答一半)(图6e),其中两种亲和力达到0.5nm、0.7nm,远高于亲和力600nM的p53(图6d)。为酶活位点设计骨架相对更加困难,因为酶活位点往往仅包含几个氨基酸,而通过“三重接触”任务微调模型,RFdiffusion对五类酶的骨架设计都取得了较高的准确性与成功率(图6f-g)。
图6 RFdiffusion为功能位点设计骨架
其次为具有对称性的结构域设计骨架,本文提出了两个具体应用场景。其一,很多病毒的糖蛋白是三聚体,一些研究表明与三聚体匹配的对称的抑制结构域有较强的结合能力。针对SARS-CoV-2刺突蛋白,输入RBD binder与C3噪音,设计得到包含三个结合域的C3对称三聚体,与三个RBD对应,AF2预测与设计高度一致(图7a)。其二,螯合金属离子的蛋白具有配位的几何对称性,因此可以使用RFdiffusion为配位区域设计匹配的对称骨架。以平面四方的镍离子配位为例,固定四个中央组氨酸的咪唑基团设计C4对称蛋白(图7b)。表达44种设计,SEC表明其中37种与预期寡聚状态相符,ITC表明18种有镍离子结合,解离常数在nm到mm之间,其中4种使用电镜表征,具有明显的四重对称性(图7c-d)。
图7 RFdiffusion为对称结构功能域设计骨架
应用四
靶点结合蛋白设计
最后根据靶蛋白设计binder,这一方面具有很高的临床应用价值。最近开发了一种通用的基于物理的蛋白binder设计方法,但实验成功率相对低7;而深度学习方法目前还未在binder从头设计上取得普遍的实验成功。由于binder设计的一个重要临床应用是阻断疾病相关的蛋白相互作用,希望binder结合靶蛋白的特定位置,因此使用蛋白复合物结构对RFdiffusion训练,指定靶点界面上的热点氨基酸,限制设计必须结合(图8a)。
针对IL-7受体/胰岛素受体/PD-L1/trkA/HA五种靶点,每个选择95个设计进行实验验证,整体成功率19%(BLI结合超过阳性对照的50%即为成功),相比于传统方法提高两个数量级(图8b)。对结合力最强的HA binder使用电镜表征,真实复合物结构与设计高度一致,r.m.s.d. 0.63Å(图8g),单独的binder结构r.m.s.d. 仅0.6Å(图8h)。
图8 从头设计靶点结合蛋白
综上所述,RFdiffusion可以在无限制条件下生成不同单体蛋白,在600氨基酸长度以下保持了较高的准确性;该方法可以设计更高阶的对称蛋白而不局限于循环对称;就骨架设计,RFdiffusion相比于蛋白幻想速度更快,相比于RFjoint所需的起始信息更少;就binder设计,RFdiffusion实验成功率相比于以往方法有两个数量级的提升。总的来说,RFdiffusion的准确性、可靠性以及可解决问题的复杂度与广泛程度超过目前已有蛋白设计方法。未来,随着RosseTTAFold预测功能的扩展,RFdiffusion或可应用于核酸结合蛋白、特定配体结合蛋白的设计。
原文链接
参考文献
参考文献
1.Huang, PS., Boyken, S. & Baker, D. The coming of age of de novo protein design. Nature 537, 320–327 (2016).
2.Anishchenko, I., Pellock, S.J., Chidyausiku, T.M. et al. De novo protein design by deep network hallucination. Nature 600, 547–552 (2021).
3.Wang, J. et al. Scaffolding protein functional sites using deep learning. Science 377, 387-394.
4.Bennett, N.R., Coventry, B., Goreshnik, I. et al. Improving de novo protein binder design with deep learning. Nat Commun 14, 2625 (2023).
5.Ho, J., Jain, A. & Abbeel, P. Denoising diffusion probabilistic models. Advances in neural information processing systems 33, 6840-6851 (2020).
6.Chen, N. et al. Wavegrad: Estimating gradients for waveform generation. arXiv preprint arXiv:2009.00713 (2020).
7.Cao, L., Coventry, B., Goreshnik, I. et al. Design of protein-binding proteins from the target structure alone. Nature 605, 551–560 (2022).
供稿 | 许雨茜
审稿 | 张丝琳
责编 | 囡囡
排版 | 可洲
本群旨在相互学习、共同进步,欢迎大家扫码加入
精彩回顾
精彩回顾
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟