Nature Machine Intelligence | 借助超网络调控扩散技术探索肽能量景观中的构象之旅

原创徐艺然北京生物结构前沿研究中心

2024-08-30

加星标，再也不怕错过更新！方法见文末动图。

蛋白质与肽的相互作用在分子途径中无处不在，是许多细胞功能不可或缺的组成部分。据估计，多达 40% 的蛋白质-蛋白质相互作用是由肽结合介导的。肽是一类高度灵活的分子，参与多种生物过程，作为治疗药物备受关注。目前，深度学习方法在生物分子结构的单态预测方面取得了长足进步。最显著的例子是 AlphaFold2（AF2）在蛋白质结构单态建模方面取得的成功。然而，生物分子的功能取决于它们所能呈现的构象范围，AF2仍然存在一些失效情况，而且无法捕捉到多肽的各种构象。

2024年6月，在《Nature Machine Intelligence》上发表了一篇题为“Direct conformational sampling from peptide energy landscapes through hypernetwork-conditioned diffusion”的文章。该文介绍了一种名为PepFlow的可转移生成模型，能够直接从输入肽的构象空间中进行全原子级别的采样。作者使用扩散框架对该模型进行训练，并通过等效流技术执行构象采样。为了解决全原子建模成本高的问题，作者将生成过程模块化，并引入超网络来预测特定序列的网络参数。

结果

PepFlow的架构有两个显著特点：

三个网络逐步建模肽的构象：

第一个网络使用等变图神经网络（EGNN）层，分为基于注意力的超网络预测参数和直接优化的一般EGNN层，主要用于建模肽的骨架原子和侧链重心。第二个网络专注于模拟侧链中的重原子，通过生成的骨架和质心进行侧链的建模。最后一个网络则处理肽中重原子的质子位置，确保氢原子的相对位置与结合重原子的位置保持一致。

扩散模型训练：

PepFlow最初作为扩散模型训练，通过预测可以从噪声分布中生成数据的分数来改进肽的结构。这种方法不直接去噪骨架原子的绝对坐标，而是去噪每个原子相对于其邻近原子的相对坐标，以更好地反映肽的结构特性。

图1 | PepFlow架构示意图

预训练

PepFlow首先在PDB数据集上进行了预训练，包含约4000万蛋白质片段。作者评估了PepFlow生成蛋白质片段序列的性能，并利用ODE流进行构象采样。研究显示，PepFlow生成的骨架原子和侧链质心的结构参数与实验数据高度一致，验证了其在模拟肽构象方面的有效性。

此外，PepFlow的旋转器模型在验证集上表现出一致低的均方根偏差，通过潜在空间温度缩放进一步提高了侧链构象的生成质量。质子化模型则通过在来自DBAASP的分子动力学模拟子集上训练，成功地重新质子化了肽构象。研究结果表明，生成的构象与实验分子动力学模拟数据密切匹配，显示了PepFlow在处理氢原子位置和能量相关性方面的高准确性和适用性。

PepFlow能够捕获特定序列的肽构象特征

在预训练后，PepFlow能有效地生成各种长度的肽的全原子构象。作者进一步评估了超网络在预测特定序列构象中的作用，并发现增加超网络预测的层数略微增强了结构预测的性能。PepFlow在大约3,673个已解决肽结构的PDB数据集上进行了微调，显著提高了对卷曲构象的预测能力，并且比仅基于片段构象训练的模型更准确地预测了已解决的肽结构。

在对来自PDB的167个非冗余结构测试集进行评估时，PepFlow展示出与最先进的结构预测方法相当甚至优于它们的表现，特别是在捕获微小和显著差异的构象方面。

此外，PepFlow还显示出优于MODPEP方法的能力，能够更频繁地生成准确的肽结构，并通过增加采样捕获了结合肽的构象变化。

图2 | PepFlow对实验确定结构的预测结果

通过能量训练实现多肽合成预测

作者利用Kullback-Leibler散度最小化模型建议分布与未归一化玻尔兹曼分布之间的差异，显著减少了生成的物理不现实构象。能量训练后，PepFlow生成的构象中有93.6%的构象具有有利的能量状态。

在分子动力学验证集上的评估显示，PepFlow生成的构象更接近于实际分子动力学模拟，其半径分布和Cα距离的成对分布得到了显著改善。在来自DBAASP的分子动力学模拟测试集上进行的基准测试也证实了PepFlow在预测构象方面的稳健性和普适性。

尽管覆盖率和Jaccard相似性有所限制，但PepFlow能够有效地捕获肽构象的多样性和复杂性，为探索肽的能量景观提供了有力的工具。

图3 | PepFlow生成的构象与分子动力学模拟结果的比较

PepFlow可以有效地复现实验集合

为了评估PepFlow在预测SLiMs（短线性结构域）时的能力，作者使用真核线性基因服务器对PED中蛋白质的长度为8-15个氨基酸的SLiMs进行了注释。

作者根据到远离主序列的氨基酸的笛卡尔距离计算了三级接触，并对每个SLiM采样了100个PepFlow构象。实验证明PepFlow生成的构象样本的性能与肽中三级接触的数量呈负相关。进一步在75个序列上的验证表明，PepFlow样本的R2g与实验集合的相关性良好，并且46.3%的PepFlow构象被实验集合覆盖。

此外，作者还进行了与传统分子动力学方法的比较，使用了20 ns明确溶剂和100 ns隐式溶剂模拟。结果显示，尽管PepFlow在运行时间上优于这两种方法，它仍能有效地预测SLiM集合的构象。

图4 | PepFlow在SLiM合集生成任务上的性能表现

潜在空间搜索可为环肽建模

在环肽建模方面，作者使用了潜在空间搜索和马尔可夫链蒙特卡洛（MCMC）方法来建模环肽的构象。研究结果显示，通过500次迭代成功生成了符合预期距离约束的构象。与直接使用PepFlow采样相比，这种方法生成的构象更接近实际情况。作者还比较了PepFlow和AF2在头尾环化肽建模上的表现，发现AF2在构象位置的准确性稍有优势，而PepFlow在生成更为延展的构象和模拟侧链环化肽方面表现出色。总体而言，尽管PepFlow在某些情况下可能会生成异常折叠的构象，但在环肽结构预测方面表现出色，特别是通过MCMC搜索生成的构象能够满足实际需求。

图5 | PepFlow在宏环肽结构预测任务上的性能表现

总结

作者介绍了PepFlow，一种新的肽集合预测方法，通过超网络生成特定于序列的参数，使用三个网络逐步模拟肽序列中的所有原子构象。PepFlow在预测肽结构和复现实验数据方面表现优于传统技术。

然而，PepFlow存在限制：无法精确重新加权样本的Boltzmann分布，而是依赖于随机估计器计算样本的似然，可能引入计算误差和噪音。此外，有时会生成高能量样本，且不能完全捕获分子动力学模拟中的能量景观。改进方法包括将其模型转移到其他采样框架，如归一化流，以提高效果和应用广度。

总体而言，PepFlow框架非常灵活，通过深度学习为全原子构象抽样提供了有价值的概念验证。

原文链接

https://www.nature.com/articles/s42256-024-00860-4

供稿 | 徐艺然

责编 | 囡囡

设计 / 排版 | 可洲

微信号：FRCBS-THU

因扫码入群人员已满，可扫码添加中心官方微信号，管理员邀请入群

精彩回顾

特别提示

微信公众号又双叒叕更改推送机制了，不是星标的订阅号，收到推送内容的时间会有延迟，甚至根本无法收到最新推送！不想错过FRCBS最新资讯，快来设为星标吧！

方法超简单，只需3秒钟！

点击上方卡片

关注我们吧

THE END

我知道你“在看”哟

继续滑动看下一个

北京生物结构前沿研究中心

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

Nature Machine Intelligence | 借助超网络调控扩散技术探索肽能量景观中的构象之旅

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

Nature Machine Intelligence | 借助超网络调控扩散技术探索肽能量景观中的构象之旅

您可能也对以下帖子感兴趣