Nature | ModelAngelo革新冷冻电镜结构解析
加星标,再也不怕错过更新!方法见文末动图。
了解蛋白质和核酸的三维原子结构对我们了解生命的分子过程至关重要。随着电子低温显微镜(cryo-EM)技术的进步,生物大分子的结构解析已经取得了显著的进展,使我们能够以足够的分辨率绘制出单个原子的蛋白质图像。随着电子显微镜数据库(EMDB)中新的冷冻电镜结构数量的指数级增长,预计未来五年将确定约100,000个结构。尽管如此,从cryo-EM图中构建原子模型通常需要大量的专业知识和手动操作,尤其是在分辨率低于4 Å时,避免错误变得非常困难,而这些错误可能会导致严重后果。
同时,在发现生物复合物中的新亚基方面,cryo-EM结构测定成为了一个重要工具,特别是对于从内源纯化的复合物。许多这类复合物含有未知的亚基,如果不了解氨基酸序列,就难以确定单个氨基酸的化学性质。
鉴于现有的限制和挑战,2月的Nature上介绍了一篇题为“Automated model building and protein identification in cryo-EM maps”的自动构建原子模型和识别冷冻电镜图谱的机器学习方法,命名为ModelAngelo。ModelAngelo通过将cryo-EM图像的局部信息与蛋白质序列和结构信息结合到一个图神经网络中,实现了与人类专家相似质量的蛋白质原子模型构建。此外,通过利用其预测的每个残基的氨基酸概率,在序列搜索中ModelAngelo优于人类专家,提高了识别未知序列蛋白质的能力。
ModelAngelo 的蛋白质和核酸自动建模包括三个步骤:
a. 预测残基位置
使用卷积神经网络 (CNN) 预测氨基酸骨架 Cα 原子和核酸磷原子的位置。这个卷积神经网络是一个改进的特征金字塔网络,它能预测低温电子显微镜图中的每个体素是否包含氨基酸的 Cα 原子、核酸残基的磷原子或两者都不包含。然后构建一个图,其中每个残基是一个节点,每个残基与其二十个近邻之间形成边。
b. 图优化
图神经网络(GNN)用于优化残基的位置和方向,预测其氨基酸或核酸特性,并预测其侧链或碱基的扭转角。GNN 由三个模块组成:低温电子显微镜模块、序列模块和不变点关注(IPA)模块。图中的每个节点都与残基特征向量相关联。每个模块将残留物特征向量作为输入,将其与新信息相结合,然后输出更新后的残留物特征向量,并传递给下一个模块。三个模块分八层依次应用,可以从不同的输入中逐步提取更多的信息。
c. 后处理
对残基特征向量进行后处理,生成原子模型。特征向量作为两个独立 MLP 的输入,用于预测每个残基的新位置和方向,以及氨基酸侧链和核酸碱基的扭转角。它们还用于预测每个残基的置信度分数,该分数基于网络预测的骨架原子与沉积结构的均方根偏差(RMSD)。此外,对低温电子显微镜和序列模块预测的氨基酸或核酸同一性进行平均,以生成所有残基的每种可能同一性的概率。
ModelAngelo 建立的蛋白质模型与人类建立的模型质量相当
为了测试 ModelAngelo,文中考虑了2022 年 4 月 1 日至 2023 年 2 月 9 日之间从 EMDB 发布的所有分辨率至少为 4 Å 的冷冻电镜结构,并在 ModelAngelo 中实现了 Q 分数计算。通过对ModelAngelo 构建的蛋白质模型与沉积模型之间的骨架均方根偏差(RMSDs)与沉积残基的 Q 分数做对比,可观察到ModelAngelo 为 Q 分数较高(较好)的残基构建的模型 RMSD 较低。同时文中比较了 ModelAngelo 与现有低温电子显微镜图谱自动建模方法的性能。
ModelAngelo 构建良好的核酸骨架
文中将 ModelAngelo 应用于 11 个不同的核糖体结构,这些核糖体结构的分辨率从 1.98 Å 到 3.80 Å 不等,以及来自 Scytonema hofmanni 的 CRISPR 相关转座子。在绘制骨干 RMSD 和骨干完整性与所存核苷酸坐标 Q 值的对比图时,观察到了与蛋白质链类似的趋势。然而,如果分辨率不超过 2.5 Å,ModelAngelo 很难区分两个嘌呤或两个嘧啶,这与人类仅根据低温电子显微镜密度构建核苷酸序列所面临的困难不谋而合。因此,如果只考虑正确构建的序列,ModelAngelo 所建模型的完整性在图谱最好的部分会下降到 80%,而在最差的部分则会下降到 20%。尽管如此,ModelAngelo 还是大大加快了核苷酸骨架的构建过程,因为后续的核苷酸碱基变化只需极少的人工干预即可完成。
ModelAngelo 能识别非人类专家构建的蛋白质链
为了说明 ModelAngelo 在低温电子显微镜图谱中识别蛋白质链的性能,文中将 ModelAngelo 应用于两个实例。第一个例子是在红色藻类 Porphyridium purpureum中原位成像的由藻体(PBS)、光系统 I 和 II(PSI 和 PSII)以及跨膜采光复合物(LHC)组成的超级复合物结构。第二个例子是从纤毛纯化后通过单颗粒分析获得的绿色藻类衣藻的纤毛中央装置和径向辐条结构。
PBS-PSII-PSI-LHC 超级复合物是通过单颗粒冷冻电镜测定的最大复合物之一。保存的模型(PDB ID:7Y5E)由 81 条独特的蛋白质链中的 158730 个残基组成,其中包括作者无法识别相应蛋白质的 6 条链。为了识别这些链,文中在不使用序列模块的情况下运行了 ModelAngelo。如图所示,所有实例都识别出了相同的六条蛋白质链,对于未识别链的大多数部分,ModelAngelo 建立的模型都优于沉积结构中的模型,尤其是 LRH 和 CNT。除了低温电子显微镜图谱中的侧链密度与预测序列非常吻合之外,ModelAngelo 构建的结构还与 AlphaFold2 预测的不明链高度相似。
与PBS-PSII-PSI-LHC超级复合体一样,从C. reinhardtii纤毛轴突中分离出的中央装置(CA)和径向辐条复合体也是亚基组成特征不清的大型复合体。尽管人工做了大量工作,但所保存的图谱(EMD22475、EMD-24481 和 EMD-25381)包含的密度仍未分配。为了识别这些蛋白质,文中在不使用序列模块的情况下将 ModelAngelo 应用于保存的图谱。这种方法发现了另外四个径向辐条蛋白:RSP24、RSP25、RSP26 和 RSP27,以及另外两个 CA 蛋白(FAP92 和 FAP374)。这些蛋白质的鉴定将有助于通过有针对性的遗传操作研究它们与纤毛运动调控的功能相关性。
ModelAngelo的开发标志着一个重要的进步,ModelAngelo不仅提高了cryo-EM结构确定的客观性和效率,还为未来冷冻电子显微镜图像处理流水线的自动化铺平了道路,使从数据采集到原子模型的整个过程得以在一个自动化程序中完成。更重要的是,ModelAngelo引入了一种客观方法,有助于减少原子模型的错误数量,使得冷冻电镜结构测定领域的新人能更容易上手。
此外,ModelAngelo在识别冷冻电镜图谱中的蛋白质链方面的卓越性能,展示了其在现代生物学研究中的巨大潜力。随着生物样本的来源越来越多样化,能够准确快速地识别和构建蛋白质链的能力将变得极其重要。
总的来说,ModelAngelo的开发是生物分子结构科学领域的一个巨大突破,它不仅加速了结构生物学的研究进程,还有望推动新药的开发和疾病治疗策略的研究。随着这项技术的进一步完善和应用,我们有理由期待其更广泛的应用和突破。
供稿 | 徐艺然
责编 | 囡囡
设计 / 排版 | 可洲 雨萱
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
原文链接
https://www.nature.com/articles/s41586-024-07215-4
精彩回顾
精彩回顾
特别提示
微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!
方法超简单,只需3秒钟!
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟