Science | 争锋AlphaFold3,David Baker实验室也上新
加星标,再也不怕错过更新!方法见文末动图。
利用深度神经网络方法解决蛋白质结构预测问题是近些年来的研究热点,其中谷歌DeepMind公司研发的AlphaFold2和华盛顿大学David Baker实验室开发的RoseTTAFold都能依靠氨基酸序列来高精度地预测蛋白质结构。但在自然界中,蛋白质很少单独发挥生物学功能:它们在细胞信号传导过程中与其他蛋白质形成复合物,在转录和翻译过程中与DNA和RNA相互作用,在代谢过程中又往往与小分子发生共价和非共价的结合,共同发挥体内的生物学功能。而建模和预测这种由多肽链、共价修饰氨基酸、核酸链以及任意小分子组成的广义上的生物分子结构仍然是一个很大的挑战。
5月8日,谷歌DeepMind公司更新了他们的生物结构预测模型——AlphaFold3(关于AlphaFold3的解读,详见今日推送文章:《AlphaFold3: 生物分子预测的大一统工具?》),可以成功预测几乎所有生物分子(包括蛋白质、DNA、RNA、小分子配体以及金属离子等)的相互作用结构,且准确率较之前的模型大为提高。无独有偶,不久前David Baker实验室在Science杂志也发表了他们最新的生物结构预测模型——RoseTTFold All-Atom(RFAA),以及小分子结合蛋白设计方法——RFdiffusion All-Atom(RFdiffusionAA),他们对之前RoseTTAFold模型进行了升级改进,也是将预测范围扩展至广义上的生物分子,并且引入扩散网络模型,极大的增加了小分子结合蛋白设计的成功率。
3月7日,来自华盛顿大学的David Baker课题组在Science杂志发表了《Generalized biomolecular modeling and design with RoseTTAFold All-Atom》研究文章。他们开发了一种能够为生物分子的所有原子(包括蛋白质、核酸DNA/RNA、金属离子、小分子配体以及化学修饰)生成三维坐标的结构预测方法RoseTTAFold All-Atom(RFAA),该方法基于给定的氨基酸或核酸序列和小分子等化学结构,并且通过晶体学和结合实验等湿实验手段验证了该结构预测方法的可靠性。尽管预测精度仍有提高的空间,但RFAA表明单个神经网络可以被训练用来准确地模拟包含多种非蛋白成分的广义生物分子的组装。
模型架构与训练
在开发生物分子全原子结构预测方法时,他们面临的第一个问题就是如何表示各部分组件。现有的蛋白质结构预测网络将蛋白质表示为氨基酸的线性链,这种表示可以很容易地扩展到核酸,包括DNA和RNA。对于与蛋白质相互作用的小分子,他们用图形表示(节点是原子,线条表示键连通性)。考虑到计算量的限制,他们将基于序列和图形的表示方法相结合,即用序列表示蛋白质链和核酸链,用图形表示小分子、化学修饰以及非天然氨基酸(图1)。他们模仿了RoseTTAFold2蛋白结构预测网络,保留了其对蛋白质链和核酸链的表示,添加了上述针对小分子、共价修饰以及非天然氨基酸的图形表示。该图形表示可分为3个轨道:一维轨道上表示小分子的组成原子类型(比如C\O\C\Br\C),二维轨道上表示各原子之间化学键类型(比如单键、双键、三键以及芳香键等),三维轨道上则表示小分子手性(比如R或S)。(图1)事实上,蛋白质序列和核酸序列也属于一维轨道,也就是说一维轨道上拥有20个氨基酸残基和8个核酸碱基、以及46个常见的元素表示类型。对于三维轨道,会计算实际角度与理想值之间偏差梯度,并将其作为输入特征提供给随后的块。另外,小分子的输入并无顺序差异,这一点与蛋白质和核酸序列不同。他们还优化了坐标更新,将重原子坐标添加到三维轨道,并基于其位置的预测平移更新而独立移动。为了引导参数优化,他们还开发了全原子版本的Frame Aligned Point Error(FAPE)损失函数,通过基于其连接部分的识别为任意分子中的每个原子定义坐标框架,连续对齐每个坐标框架并计算周围原子的坐标误差。另外,他们也预测了原子-残基置信度(pLDDT)和成对置信度(PAE)。
图1 | RFAA预测广义生物分子的基本原理
接下来他们对该模型进行训练,训练的数据集主要来自PDB数据库,包括121800个蛋白-小分子结构、112546个蛋白-金属结构、12689个共价修饰氨基酸结构,上述结构根据序列相似性进行了聚类。为了学习小分子的一般性质,还添加了Cambridge Structural Database的小分子晶体结构作为补充训练集。他们还尝试将部分氨基酸残基进行原子化,即删除这部分氨基酸的序列和模板信息,完全将其转化为图形表示,以增加该预测网络对于一般原子相互作用的知识。为了提高对生物大分子的预测准确性,他们也将蛋白质单体、蛋白-蛋白复合物以及蛋白-核酸复合物的结构数据进行训练。
结构预测与设计效果检验
图2 | RFAA精确预测“蛋白质-小分子”复合物结构
他们首先针对蛋白质-小分子结构预测效果进行了盲测实验。他们利用CAMEO盲测配体对接评估提交到PDB的结构,发现43%的预测为高置信度,而这其中有77%的配体RSMD小于2埃,这一结果表现优异。他们还在PDB数据库选取了训练集之外的结构(这些结构是在训练截止日期之后解析的)进行了测试,发现RFAA成功预测了42%的复合物结构,这个成绩相较于其他预测方法表现优异。(图2)但是对于给定小分子结合口袋位置和蛋白质侧链晶体结构的条件下,AutoDock Vina方法则效果更好。
他们也对蛋白质共价修饰结构进行了预测检验。结果显示RFAA对46%的结构做出了准确的预测(RMSD小于2.5埃),包括与共价结合的辅因子和药物相互作用、糖基化修饰等,都有不错的预测结果。
图3 | RFdiffusionAA设计小分子原理示意图
研究团队在他们之前RFdiffusion模型的基础上,训练了一个基于RFAA结构预测权重初始化的去噪扩散概率模型(DDPM),即RFdiffusion All-Atom(RFdiffusionAA),用来根据小分子和其他生物分子环境对受损的蛋白质结构进行降噪。(图3)从每个小分子周围的随机残基分布开始,迭代去噪得到与小分子靶标互补的蛋白质骨架,然后使用LigandMPNN进行序列设计后,使用Rosetta GALigandDock能量计算来评估蛋白质-小分子界面,并使用AF2预测来评估序列编码设计结构的可靠性。结果表明RFdiffusionAA效果比其他方法得到的结果要好很多。
他们设计了三种不同类型的小分子作为蛋白结合物,并且通过亲和力实验和晶体学结构解析等实验,验证了RFdiffusionAA可以设计出具有定制结合口袋专门结合小分子的新型蛋白质,且这些蛋白在稳定性方面远超天然蛋白质。
总之,RFAA将生物分子的建模和设计带入到了“全原子”时代,不仅可以较为准确地预测蛋白与小分子复合物的结构,而且通过扩散模型还能为一些小分子专门设计定制口袋的非天然全新蛋白质。这都将有助于我们了解蛋白质互作机制以及不同生物分子之间如何相互联系,为今后药物筛选开发和解决生命科学问题提供强有力的技术支撑。
供稿 | 刘府金
责编 | 囡囡
设计 / 排版 | 可洲 王婧曈
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
原文链接
https://www.science.org/doi/10.1126/science.adl2528
参考文献
参考文献
1. Krishna R, Wang J, Ahern W, et al. Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science. Published online March 7, 2024. doi:10.1126/science.adl2528
2. Baek M, DiMaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science. 2021;373(6557):871-876. doi:10.1126/science.abj8754
3. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021;596(7873):583-589. doi:10.1038/s41586-021-03819-2
4. Watson JL, Juergens D, Bennett NR, et al. De novo design of protein structure and function with RFdiffusion. Nature. 2023;620(7976):1089-1100. doi:10.1038/s41586-023-06415-8
5. Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature (2024). https://doi.org/10.1038/s41586-024-07487-w
精彩回顾
精彩回顾
特别提示
微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!
方法超简单,只需3秒钟!
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟