查看原文
其他

Commun Biol|人工智能指导下的内在无序蛋白质的构象挖掘

智药邦 智药邦 2023-01-26

2022年6月20日,伊利诺伊大学芝加哥分校化学系的Huan-Xiang Zhou等人在Commun Biol发表文章,提出了旨在挖掘IDPs构象空间的生成性自动编码器。这项工作说明了人工智能在IDPs构象挖掘中的巨大潜力。

摘要

人工智能最近在预测蛋白质的三维结构方面取得了突破性进展。下一个前沿领域是内在无序蛋白质 (intrinsically disordered proteins , IDPs),它占蛋白质组的30%到50%,很容易产生广阔的构象空间。分子动力学 (MD) 模拟在对IDP构象进行采样方面很有希望,但需付出极高的计算成本。在这里,我们开发了生成性自动编码器,它从短MD模拟中学习并生成完整的构象组合。编码器将IDP构象表示为降维潜在空间中的矢量。训练数据集的平均矢量和协方差矩阵被计算出来,以定义一个多变量的高斯分布,从该分布中取样的矢量被送入一个解码器以生成新的构象。生成的构象集合涵盖了那些通过长MD模拟采样的构象,并通过小角度X射线散射曲线和核磁共振化学位移进行验证。这项工作说明了人工智能在IDPs构象挖掘中的巨大潜力。

前言

人工智能正在逐渐盖过传统的基于物理学的方法,在解决化学和物理学中一些最具挑战性的问题方面取得了突破性进展。例如,一个深度神经网络已经获得了小分子电子薛定谔方程的近乎精确的解决方案。最近的另一个突破是通过基于神经网络的方法Alphafold和RoseTTafold预测了蛋白质的三维结构。随着结构蛋白所面临的问题被这些和其他基于人工智能的方法所解决,一个新的前沿--内在无序蛋白质 (IDPs) 出现。IDPs没有采用明确的三维结构,而是很容易产生广阔的构象空间。在这里,我们报告了一个挖掘IDPs的构象空间的生成性人工智能模型的发展。

IDPs占蛋白质组的30%到50%,执行许多重要的细胞功能,包括信号和调节,并涉及许多人类疾病。IDPs的功能和疾病机制仍不清楚,这在很大程度上是因为我们缺乏对它们在各种状态下 (如孤立状态、聚集状态和与相互作用伙伴结合状态) 的构象组合的了解。

IDPs构象空间的广袤性带来了巨大的挑战。实验技术只限于探测构象空间的某些方面。例如,小角度X射线散射 (SAXS) 提供了关于IDPs的整体形状和大小的信息,而核磁共振特性,如二级化学位移,携带特定的残基信息,但仍然远远不能代表IDPs的自由度。分子动力学 (MD) 模拟为IDP提供了一种有吸引力的方法,每个构象都有一个原子表示,但目前可以实现的模拟时间 (直接决定构象取样的程度) 在很大程度上受限。如何在不占用计算时间的情况下详尽地覆盖IDPs的构象空间仍然是一个开放的问题。

在这里,我们提出了旨在挖掘IDPs构象空间的生成性自动编码器。我们的设计目标是准确地对整个构象空间进行采样,同时限制成本,也就是训练自动编码器所需的MD构象。由此产生的自动编码器的性能可与昂贵的MD模拟相媲美,并通过SAXS和化学位移数据得到验证。我们的工作为在各种功能状态下对IDPs进行建模打开了大门。

研究结果

我们首先建立了自动编码器,将IDP的构象表现为降维潜在空间中的矢量 (图1a)。动编码器的训练包括从潜在向量中重建构象,并尽量减少与原始构象的偏差。训练数据集包括从短MD模拟中取样构象。然后,我们将训练数据集的潜在向量建模为多变量高斯分布 (图1b)。通过从这些分布中取样重建,我们产生了IDPs的完整构象组合 (图1c)。

图1:生成性自动编码器的设计

a 自动编码器的结构图。b 用多变量高斯 (红色) 对训练集的潜在向量 (蓝色) 分布进行建模。c新构象的产生。

请注意,我们的目标是使用最少的训练数据--从尽可能短的MD模拟中取样--来建立自动编码器,以产生最准确的IDP的完整构象组合。为了实现这一目标,我们将训练数据集限制在从MD模拟的初始部分采样的构象上,并将后续部分仅用于测试自动编码器的准确性。


在降维空间中的表示


作为生成新构象的基础,我们首先降低了构象空间的维度。IDPs的原始构象是由重原子的笛卡尔坐标指定的 (对一些侧链进行了截断)。

用于训练和测试自动编码器的构型来自多个μs长的MD模拟。我们收集了95,000、140,000和145,000帧,分别为10ps间隔的Q15和20ps间隔的Aβ40和ChiZ,每个重复运行;重复运行的数量分别为2、4和12。每次运行的初始部分 (如10%) 被作为训练集,其余部分为测试集。自动编码器的准确性是通过测试构象和它们的重建之间的均方根偏差 (RMSDs) 来评估的。重建的RMSD结果见图2。

图2:从复制的MD运行中采样的训练集在不同大小下的平均重建RMSD

我们测试了自动编码器,其输入是二面角或距离矩阵而不是笛卡尔坐标。这些模型在重建中的表现比输入直角坐标的模型差很多 (补充说明1)。


潜在空间中的多变量高斯模型


IDPs的构象组合很广泛,很难建模。在潜在空间中表示构象的一个可能的重要好处是,由于维度的减少,潜在向量的分布将更加紧凑,因此更容易建模。为了评估这一期望,我们计算了潜在空间的二维子空间的直方图。

图3:潜在空间中 Aβ40 的直方图,由训练数据、测试数据和多元高斯计算得出

Q15和Aβ40在潜在空间的紧凑分布促使我们将其建模为多变量高斯。如图S3和图3所示,训练集的分布和它们的多变量高斯模型看起来非常相似。更重要的是,多变量高斯模型与测试集的分布也很重合。


自动编码器生成的Q15和Aβ40的构象


通过从潜在空间的多变量高斯取样并使用解码器重建构象,我们把自动编码器变成了一个生成模型。多变量高斯在训练自动编码器的同一数据集上进行了参数化。

然后,我们用稀释的测试集的最佳匹配RMSD的平均值作为衡量生成集的准确性。在生成的大小为1×的测试集中,MD run1和run2的平均最佳匹配RMSDs分别为3.59和3.58 Å。如图4a所示,一个测试构象和其生成的RMSD为3.58 Å的最佳匹配显示出非常相似的主干轨迹。

图4:自动编码器生成的Q15和Aβ40构象的最佳匹配RMSDs


自动编码器生成的ChiZ构象


我们首先使用一个类似的协议来训练和测试ChiZ的自动编码器在一个单一的MD运行 (run1)。

单个MD运行有可能在构象空间中挖掘出有限的区域,但是不同的MD运行所挖掘的区域可能会部分重叠,合并挖掘可能会产生一个在潜在空间中密集分布的集合。事实上,当我们结合ChiZ的12次MD运行的构象时,训练集和测试集的潜在空间的直方图都变得紧凑,除了一个 (即 (9,14) ) 非零对之外,都有一个单峰 (图5a)。训练和测试潜质向量的分布重叠得很好,而且也被组合训练集上的多变量高斯参数化了。对于所有的配对,训练与高斯、测试与高斯、训练与测试的KL分歧值都低于0.1 (表S1) ;即使对于 (9,14) 配对,训练与高斯的数值也只有0.079。

图5:通过结合ChiZ的MD运行来提高数据重叠和预测精度


训练参数和潜在空间参数的最佳选择


在补充说明3中,我们提出了不同的训练参数和潜在空间参数对自动编码器生成新构象的准确性的影响的额外数据。简而言之,对Q15、Aβ40和ChiZ所选择的训练量,分别为10%、20%和30%,对于模型收敛来说是足够的;额外的训练数据不会在模型精度上产生明显的提高,特别是考虑到我们对MD模拟的成本控制非常重视。我们选择0.75Nres作为潜在空间的维度。将潜在空间的维度增加10-30,对模型的准确性没有什么影响。


对生成的构象的进一步评估


为了正确评估自动编码器生成的构象,我们检查了测试集的多样性以及训练和测试集之间的相似性 (表S2)。我们计算了每个构象与稀释的测试集中所有其他构象的RMSDs。正如预期的那样,对于合并和进一步稀释的ChiZ测试集,平均配对RMSD进一步增加到19.23 Å。测试构象的多样性再次说明了生成接近它们的构象的挑战。

我们还更仔细地检查了与测试构象最匹配的生成的构象 (图4a、b和5b的插图)。正如已经提到的,测试构象和其生成的最佳匹配显示了形状和大小的整体相似性。然而,生成的构象有相当大的键长和键角违规。通过能量最小化的细化,基本上所有的键和角度都恢复到适当的值 (图6)。

图6:测试构象和它们在细化后生成的最佳匹配的比较


自动编码器生成的ChiZ构象组合的实验验证


为了客观地评估自动编码器生成的构象组合的质量,我们从它那里计算出可以通过实验测量的特性。这些包括SAXS轮廓和核磁共振化学位移。在图7中,我们将ChiZ的实验数据与从12次MD运行的组合测试集中收集的12,180个构象计算的结果,以及与从组合训练集上训练的自动编码器生成的12,180个构象计算的结果进行了比较。正如以前所报道的那样,MD模拟很好地再现了这两种类型的实验数据:在整个q (动量转移) 范围内,SAXS曲线有很好的一致性,平均绝对百分比误差 (MAPE) 为3.9%;同样,计算的二级化学位移也接近实验值,均方根误差 (RMSE) 为0.43ppm。生成的构象也很好地再现了实验的SAXS轮廓,MAPE为7.2%,验证了后者对ChiZ整体形状和大小的取样。

图7:通过实验SAXS和化学位移数据验证自动编码器为ChiZ生成的构象

讨论

我们已经开发了生成性自动编码器来挖掘IDPs的广泛构象空间。这些自动编码器不仅能以高保真度代表IDP在潜在空间的构象,以实现准确的重建,而且还能生成新的构象以填充构象空间。生成的集合包含了在长MD模拟中采样的所有构象的密切匹配,但计算时间可以忽略不计。例如,从Aβ40的MD模拟中取样100,000个构象 (间隔20ps),即使使用GPU加速,也需要80天,而我们的自动编码器在12秒内就能生成同样数量的构象。在ChiZ的例子中,自动编码器生成的构象甚至比用几个力场进行的MD模拟产生更好的SAXS轮廓和化学位移预测。

我们的生成式自动编码器具有变异式自动编码器的味道,但更直观。在训练过程中,我们没有像变分自编码器那样在训练过程中优化潜在空间中的高斯,我们只优化重构,然后使用训练集的潜在向量计算均值向量和协方差矩阵,直接用于定义多元高斯产生新的构象。

这里设计的生成性自动编码器是用来挖掘孤立的IDPs的构象空间。此处展示的这种方法的强大功能表明,它可以扩展到研究处于更复杂功能状态的 IDP,例如当与相互作用伙伴(靶蛋白或膜)结合或相关时,或在聚集时。

基于人工智能的模型,如生成式自动编码器,可能为解决具有挑战性的IDP构象挖掘问题打开大门。

参考资料

Gupta, A., Dey, S., Hicks, A. et al. Artificial intelligence guided conformational mining of intrinsically disordered proteins. Commun Biol 5, 610 (2022). https://doi.org/10.1038/s42003-022-03562-y


--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向


- 历史文章推荐 -


蛋白质结构与AlphaFold

Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型

Nat Methods|ColabFold:让所有人都能进行蛋白质折叠

Nat Rev Mol Cell Bio|用人工智能预测蛋白质结构的前景和机遇

●Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测

●Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战

●Nature|仅根据靶点结构设计蛋白质的结合蛋白

●Nature|确定蛋白质结构的短暂状态

●Facebook|从数百万个预测蛋白质结构中学习逆折叠,预测序列信息

AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资

●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基

●Curr Opin Struc Biol|蛋白质设计的深度生成建模

●Nat Methods|用AlphaFold以原子精度预测蛋白质结构

●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究

●Nat Methods特刊|2021年度方法:蛋白质结构预测

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

Nature|人工智能助力蛋白质折叠预测

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存