查看原文
其他

Nature Machine Intelligence | 借助超网络调控扩散技术探索肽能量景观中的构象之旅

徐艺然 北京生物结构前沿研究中心
2024-08-30

星标,再也不怕错过更新!方法见文末动图。

蛋白质与肽的相互作用在分子途径中无处不在,是许多细胞功能不可或缺的组成部分。据估计,多达 40% 的蛋白质-蛋白质相互作用是由肽结合介导的。肽是一类高度灵活的分子,参与多种生物过程,作为治疗药物备受关注。目前,深度学习方法在生物分子结构的单态预测方面取得了长足进步。最显著的例子是 AlphaFold2(AF2)在蛋白质结构单态建模方面取得的成功。然而,生物分子的功能取决于它们所能呈现的构象范围,AF2仍然存在一些失效情况,而且无法捕捉到多肽的各种构象。


2024年6月,在《Nature Machine Intelligence》上发表了一篇题为“Direct conformational sampling from peptide energy landscapes through hypernetwork-conditioned diffusion”的文章。该文介绍了一种名为PepFlow的可转移生成模型,能够直接从输入肽的构象空间中进行全原子级别的采样。作者使用扩散框架对该模型进行训练,并通过等效流技术执行构象采样。为了解决全原子建模成本高的问题,作者将生成过程模块化,并引入超网络来预测特定序列的网络参数。






结果




PepFlow的架构有两个显著特点:

1

三个网络逐步建模肽的构象:


第一个网络使用等变图神经网络(EGNN)层,分为基于注意力的超网络预测参数和直接优化的一般EGNN层,主要用于建模肽的骨架原子和侧链重心。第二个网络专注于模拟侧链中的重原子,通过生成的骨架和质心进行侧链的建模。最后一个网络则处理肽中重原子的质子位置,确保氢原子的相对位置与结合重原子的位置保持一致。

2

扩散模型训练:


PepFlow最初作为扩散模型训练,通过预测可以从噪声分布中生成数据的分数来改进肽的结构。这种方法不直接去噪骨架原子的绝对坐标,而是去噪每个原子相对于其邻近原子的相对坐标,以更好地反映肽的结构特性。


图1 | PepFlow架构示意图





预训练





PepFlow首先在PDB数据集上进行了预训练,包含约4000万蛋白质片段。作者评估了PepFlow生成蛋白质片段序列的性能,并利用ODE流进行构象采样。研究显示,PepFlow生成的骨架原子和侧链质心的结构参数与实验数据高度一致,验证了其在模拟肽构象方面的有效性。


此外,PepFlow的旋转器模型在验证集上表现出一致低的均方根偏差,通过潜在空间温度缩放进一步提高了侧链构象的生成质量。质子化模型则通过在来自DBAASP的分子动力学模拟子集上训练,成功地重新质子化了肽构象。研究结果表明,生成的构象与实验分子动力学模拟数据密切匹配,显示了PepFlow在处理氢原子位置和能量相关性方面的高准确性和适用性。





PepFlow能够捕获特定序列的肽构象特征





在预训练后,PepFlow能有效地生成各种长度的肽的全原子构象。作者进一步评估了超网络在预测特定序列构象中的作用,并发现增加超网络预测的层数略微增强了结构预测的性能。PepFlow在大约3,673个已解决肽结构的PDB数据集上进行了微调,显著提高了对卷曲构象的预测能力,并且比仅基于片段构象训练的模型更准确地预测了已解决的肽结构。


在对来自PDB的167个非冗余结构测试集进行评估时,PepFlow展示出与最先进的结构预测方法相当甚至优于它们的表现,特别是在捕获微小和显著差异的构象方面。


此外,PepFlow还显示出优于MODPEP方法的能力,能够更频繁地生成准确的肽结构,并通过增加采样捕获了结合肽的构象变化。


图2 | PepFlow对实验确定结构的预测结果





通过能量训练实现多肽合成预测





作者利用Kullback-Leibler散度最小化模型建议分布与未归一化玻尔兹曼分布之间的差异,显著减少了生成的物理不现实构象。能量训练后,PepFlow生成的构象中有93.6%的构象具有有利的能量状态。


在分子动力学验证集上的评估显示,PepFlow生成的构象更接近于实际分子动力学模拟,其半径分布和Cα距离的成对分布得到了显著改善。在来自DBAASP的分子动力学模拟测试集上进行的基准测试也证实了PepFlow在预测构象方面的稳健性和普适性。


尽管覆盖率和Jaccard相似性有所限制,但PepFlow能够有效地捕获肽构象的多样性和复杂性,为探索肽的能量景观提供了有力的工具。


图3 | PepFlow生成的构象与分子动力学模拟结果的比较





PepFlow可以有效地复现实验集合





为了评估PepFlow在预测SLiMs(短线性结构域)时的能力,作者使用真核线性基因服务器对PED中蛋白质的长度为8-15个氨基酸的SLiMs进行了注释。


作者根据到远离主序列的氨基酸的笛卡尔距离计算了三级接触,并对每个SLiM采样了100个PepFlow构象。实验证明PepFlow生成的构象样本的性能与肽中三级接触的数量呈负相关。进一步在75个序列上的验证表明,PepFlow样本的R2g与实验集合的相关性良好,并且46.3%的PepFlow构象被实验集合覆盖。


此外,作者还进行了与传统分子动力学方法的比较,使用了20 ns明确溶剂和100 ns隐式溶剂模拟。结果显示,尽管PepFlow在运行时间上优于这两种方法,它仍能有效地预测SLiM集合的构象。


图4 | PepFlow在SLiM合集生成任务上的性能表现





潜在空间搜索可为环肽建模





在环肽建模方面,作者使用了潜在空间搜索和马尔可夫链蒙特卡洛(MCMC)方法来建模环肽的构象。研究结果显示,通过500次迭代成功生成了符合预期距离约束的构象。与直接使用PepFlow采样相比,这种方法生成的构象更接近实际情况。作者还比较了PepFlow和AF2在头尾环化肽建模上的表现,发现AF2在构象位置的准确性稍有优势,而PepFlow在生成更为延展的构象和模拟侧链环化肽方面表现出色。总体而言,尽管PepFlow在某些情况下可能会生成异常折叠的构象,但在环肽结构预测方面表现出色,特别是通过MCMC搜索生成的构象能够满足实际需求。


图5 | PepFlow在宏环肽结构预测任务上的性能表现





总结





作者介绍了PepFlow,一种新的肽集合预测方法,通过超网络生成特定于序列的参数,使用三个网络逐步模拟肽序列中的所有原子构象。PepFlow在预测肽结构和复现实验数据方面表现优于传统技术。


然而,PepFlow存在限制:无法精确重新加权样本的Boltzmann分布,而是依赖于随机估计器计算样本的似然,可能引入计算误差和噪音。此外,有时会生成高能量样本,且不能完全捕获分子动力学模拟中的能量景观。改进方法包括将其模型转移到其他采样框架,如归一化流,以提高效果和应用广度。


总体而言,PepFlow框架非常灵活,通过深度学习为全原子构象抽样提供了有价值的概念验证。


原文链接

https://www.nature.com/articles/s42256-024-00860-4


供稿 | 徐艺然

责编 | 囡囡

设计 / 排版 | 可洲 




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群


精彩回顾

精彩回顾



特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


点击上方卡片

关注我们吧


THE END

我知道你“在看”


继续滑动看下一个
北京生物结构前沿研究中心
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存