去年,两种深度学习方法AlphaFold2和RoseTTAFold的重大突破,使蛋白质结构预测领域持续数10年的研究达到了顶峰,这两种方法几乎与蛋白质结构测定的实验方法一样准确。但是这两种算法都消耗了大量的计算资源,而且因为它们依赖于多个序列比对作为输入,所以在预测孤儿蛋白(orphan protein,指具有很少或没有同源性的蛋白质)的结构方面效果不佳。10月3日,加州大学旧金山分校的Chowdhury团队在Nature Biotechnology发表文章,称他们在预测孤儿蛋白方面取得了实质性的进展,他们的递归几何网络2(RGN2)方法依赖于蛋白质语言算法,计算时间比AlphaFold2和RoseTTAFold少106倍,且在预测孤儿蛋白的结构方面平均优于AlphaFold2和RoseTTAFold,这些结果突出了该领域的惊人步伐。
来源:Nature Biotechnology
虽然孤儿蛋白可能看起来很罕见,但在大规模基因组测序所产生的巨大且不断扩大的蛋白质宇宙中很常见。大约20%的宏基因组蛋白序列和11%的真核生物和病毒蛋白序列是孤儿蛋白。AlphaFold2和RoseTTAFold对孤儿蛋白的预测效果不佳,因为它们依赖于多重序列比对。大而多样的序列比对是很重要的,因为在多个序列比对中,氨基酸位点之间的相互关联是一个强有力的指标,表明这些位点在折叠蛋白的三维空间中彼此靠近。较早一代的计算模型(AlphaFold1, trRosetta)使用这些残基间距离约束作为限制能量最小化的输入,其方式类似于核磁共振波谱中用于蛋白质结构测定的nuclear Overhauser effect(简称NOE)约束(图1a,b)。最新的深度学习模型(AlphaFold2, RoseTTAFold)更进一步,生成了一个更密集的约束网络,直接用于结构预测(图1c)。
图1. 蛋白质结构计算中实验或语言模型的距离限制(来源:Nature Biotechnology)
Chowdhury团队的RGN2算法完全放弃了多重序列比对,通过预测和实验结构之间的均方根偏差来测量,它在一组孤儿蛋白和设计蛋白上的性能优于AlphaFold2和RoseTTAFold。研究人员采用了明显非比对(alignment-free)的深度学习语言模型,这是最重要的一步。这些模型是在涉及理解自然语言的任务中开创的。它们被训练通过预测一个句子中给定的“空白”最可能出现的单词来“填充空白”。例如,一个语言模型可以用“journals”或“conferences”或“Twitter”来完成“the most exciting language model research is publish in ___”这句话,并将较低的概率分配给“space”或“restaurants”。在快速发展的蛋白质结构预测领域,语言模型的使用是最近才出现的。不断扩展的蛋白质序列数据库为语言模型提供了一个大型的训练集,而GPU计算的最新进展也使得训练这种越来越复杂的模型变得容易处理。随着模型规模的增长,它们在功能预测、进化分析以及现在的结构推断方面表现出越来越强的能力。类似的任务可被制定来训练用于蛋白质结构预测的语言模型。在这种情况下,模型必须通过在训练中预测掩蔽蛋白质序列的氨基酸残基概率来填补“空白”。对于蛋白质空间,语言模型学习的表示不仅包含了残基之间的成对相互作用,还包含了三残基、四残基甚至更高阶的残基之间的相互作用。这些交互作用体现了机器学习的局部和远处注意力概念,这也被AlphaFold2和RoseTTAFold用于分析多重序列比对。类似地,RGN2利用了局部和远处注意力的概念,这使它能够在一维输入中,学习大范围距离上的关系。基于注意力的方法是基于序列中几乎每个位置的约束来推断结构的(图1c)。使用语言模型,RGN2从所有蛋白质中学习这些约束的各个方面,而不仅仅是特定排列中包含的那些(图1d)。除了使用语言模型来指导线性序列的哪些部分可能在空间上接近外,RGN2还明确地学习几何关系来生成蛋白质的骨架结构。它使用基于平移和旋转不变性的Frenet-Serret公式的多肽骨架的数学表示。考虑到RGN2中实现的方法的复杂本质,它应该有助于揭示是什么让深度学习“黑匣子”工作。计算时间的大幅减少和快速迭代的能力,可以通过更大范围的模型消融来梳理出RGN2不同部分的贡献,从而对该领域产生鼓舞作用。Chowdhury等人对几何表示的贡献可能也会影响其他深度学习结构预测方法。可以将语言模型直接整合到生成3D结构预测的框架中,因为这些模型有能力超越训练数据进行外推,甚至生成新的功能蛋白。本研究的另一个值得注意的方面是一组新的孤儿蛋白和设计蛋白,它们可作为未来结构预测工作的基准。[1]https://www.nature.com/articles/s41587-022-01466-0[2]Ratul Chowdhury et al. Single-sequence
protein structure prediction using a language model and deep learning. Nature
Biotechnology(2022)