CarbonDesign | 蛋白质序列设计
加星标,再也不怕错过更新!方法见文末动图。
蛋白质序列设计在蛋白质工程中具有至关重要的作用,其主要任务是识别能够折叠成给定蛋白质骨架结构并表现出期望功能的氨基酸序列。这一过程被称为逆蛋白质折叠,是计算蛋白质设计的关键步骤。近年来,随着深度学习技术的进步,蛋白质序列设计取得了显著进展,但实现高精度和鲁棒的序列设计仍然是一个重大挑战。
2024年5月,Nature Machine Intelligence上介绍了一篇题为“Accurate and robust protein sequence design with CarbonDesign”的蛋白质序列设计方法。这种方法借鉴了AlphaFold的成功经验,专为蛋白质序列设计开发。其核心是引入Inverseformer,从骨架结构中学习表示,并采用自适应的马尔可夫随机场(MRF)模型进行序列解码。此外,CarbonDesign还结合了AlphaFold的其他关键概念,如端到端网络循环技术和多任务学习技术,以生成侧链结构和设计序列。
CarbonDesign架构
CarbonDesign的核心是探索了一种名为Inverseformer的网络架构。该架构通过一系列节点更新和三角边更新,将三维结构特征转化为单一和配对表示,随后进行MRF模块的序列解码。Inverseformer颠倒了AlphaFold的Evoformer的信息流,主要关注从骨架结构中学习表示。具体而言,Inverseformer通过节点聚合和三角形边更新层更新单个和成对表示。
图1 CarbonDesign 网络架构
端到端网络循环与蛋白质语言模型
作者采用网络循环策略,以共享权重的方式端到端循环整个网络。首先使用单个表示预测中间序列,然后从语言模型ESM2中提取其嵌入作为额外的循环特征。蛋白质语言模型可以从数百万个序列中学习高效的表示,并已成功应用于预测蛋白质功能和结构。在CarbonDesign中,语言模型作为生成序列的先验。
多任务学习与序列设计
为了提高序列设计的准确性,作者采用了多任务学习方法。具体来说,作者使用单个氨基酸的交叉熵损失和成对氨基酸身份的辅助交叉熵损失,分别直接指导单个和成对表示的学习。为了近似MRF模型中序列的确切似然性,作者在训练期间使用复合似然。此外,作者在训练中加入了侧链扭转角度损失和侧链结构损失,使CarbonDesign能够同时预测序列及其相应的侧链结构。
结果
独立测试集评估
作者在CAMEO和CASP15等多个独立测试集上广泛评估了CarbonDesign的性能,使用序列恢复率和BLOSUM得分作为主要性能指标。结果显示,CarbonDesign在这些数据集上均优于其他代表性方法。
长蛋白质和孤儿蛋白评估
在长蛋白质(长度超过800个氨基酸)和孤儿蛋白(无同源序列或缺乏结构模板)的测试中,CarbonDesign展示了其稳健的性能,序列恢复率和BLOSUM得分均优于其他方法。例如,在评估长度为1340个氨基酸的多重耐药蛋白T1158时,CarbonDesign实现了58.1%的序列恢复率和0.97的模板建模(TM)分数。
图2 用CAMEO和CASP15独立测试集评估CarbonDesign
基于扩散的方法的从头蛋白质设计
作者还通过为这些主链结构生成更准确的序列来评估CarbonDesign在增强蛋白质从头设计方面的效能。由于天然序列无法用于评估,作者采用自一致性TM(scTM)评分作为替代度量。结果显示,CarbonDesign在每个噪声水平的scTM得分方面始终优于ProteinMPNN。此外,较高的噪声水平可以提高CarbonDesign的性能,显示了噪声在生成从头结构序列中的有益作用。
图3 基于RFdiffusion的从头生成骨架结构的CarbonDesign评估
变体功能效应预测
CarbonDesign还支持功能效应预测的零样本学习,这表明它能够捕获固有的序列-结构-功能关系。作者在深度突变扫描数据集上评估了CarbonDesign的功能评分,结果显示,CarbonDesign的Spearman相关性达到0.43,优于基于纯语言模型的方法。此外,将CarbonDesign与其他方法结合使用可以进一步提高性能。
图4 CarbonDesign在解释变异的功能效应中的评估
消融模型评估
为了评估关键架构对CarbonDesign准确性的相对贡献,作者训练并评估了几种消融模型。结果显示,侧链头和网络回收对序列设计准确性有显著贡献。尤其是,增加回收迭代次数可以提高设计序列的序列恢复率。此外,网络回收和蛋白质语言模型增强了在扩散生成模型的主链结构上评估的从头蛋白质设计性能。
图5 消融实验的评估
CarbonDesign通过结合AlphaFold的关键概念,显著提高了蛋白质序列设计的准确性和鲁棒性。其在多种测试集上的优异表现及零样本预测能力展示了其在蛋白质工程领域的巨大潜力。通过创新的网络架构和训练策略,CarbonDesign在序列恢复率、BLOSUM得分、scTM得分和Rosetta能量等多种指标上表现出色。未来的湿实验室实验验证将进一步评估其实际应用效果,证明其在实际应用中的巨大潜力。
供稿 | 徐艺然
责编 | 囡囡
设计 / 排版 | 可洲 王婧曈
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
原文链接
https://www.nature.com/articles/s42256-024-00838-2
精彩回顾
精彩回顾
特别提示
微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!
方法超简单,只需3秒钟!
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟