2022年1月11日,Nature Methods 发表文章,将蛋白质结构预测命名为2021年度方法,并推出特刊。在特刊中,AlphaFold的开发者John Jumper和Demis Hassabis、RoseTTAFold的开发者David Baker等多位专家发表文章,探讨了蛋白质结构预测方法对结构生物学的影响、预测结构的注意事项以及该领域未来的发展。
此外特刊还列出了在不久的将来有望大放异彩的一些技术。
本文是特刊介绍。基于深度学习的蛋白质结构预测方法已经在结构生物学界掀起了惊涛骇浪。我们预计将产生深远而持久的影响。几十年来,预测蛋白质三维结构的潜力一直吸引着计算生物学家的目光。虽然该领域已经取得了相当大的进展,但没有一种方法能够可靠地产生接近、更不用说与实验确定的结构质量相匹配的模型。在过去的一年里,基于深度学习的方法AlphaFold2和RoseTTAfold已经成功地在一系列目标上实现了这一壮举,永远地改变了结构生物学领域的进程。更令人印象深刻的是,欧洲分子生物学实验室和DeepMind之间的合作已经为21种模式生物预测了超过35万种蛋白质的结构,并在AlphaFold蛋白质结构数据库中免费提供(计划在2022年将预测扩大到数百万种结构)。由于这些卓越的成就,我们选择蛋白质结构预测作为2021年度方法。蛋白质的三维形状决定了它的生物功能,并为潜在地改变它以提供有用的生物技术工具或调节其功能提供重要信息。通过实验解决结构问题是一个缓慢而费力的过程,尽管最近在方法上取得了进展,特别是在冷冻电子显微镜(cryo-EM)方面,但它仍然具有挑战性。计算研究人员一直认为,如果对一个氨基酸序列(蛋白质的组成部分)以及其生物化学和生物物理行为充分理解,解决"蛋白质折叠问题"的理论方法将是可行的。在过去的几十年里,已经探索了许多方法,但从历史上看,进展是在短期内爆发的,并有很长的停滞期。两年一度的结构预测关键评估(CASP)蛋白质折叠挑战赛是自1994年以来举行的一项盲目竞赛,它监测并促进了这种进展。挑战赛的参与者预测特别困难的蛋白质的结构,这些蛋白质的结构已经通过实验解决,但尚未向公众公布。一年前,在CASP14会议上,来自DeepMind的AlphaFold2超过了所有其他方法,而且优势很大。平均而言,AlphaFold2正确预测的蛋白质结构的比例超过了90%。坦率地说,这种程度的性能飞跃在十年左右的时间里是无法预期的。因此,许多人认为蛋白质折叠问题已经基本解决,这并不令人惊讶。AlphaFold的成功可以归功于它的神经网络架构和训练程序,它考虑到了实验解决的蛋白质的现有三维结构。在一篇评论中,AlphaFold的开发者John Jumper和Demis Hassabis描述了该算法的内部运作以及它对更广泛的结构生物学领域的预期影响:受AlphaFold方法的启发,虽然论文和相关代码尚未发布,但由David Baker领导的一个学术团队开发了RoseTTAFold,其性能几乎与AlphaFold一样好。Minkyung Baek和Baker在一篇评论中讨论了这些新方法:
诚然,如果没有大量的实验结构数据作为深度学习的训练数据资源,这些都是不可行的。在过去的50年里,结构生物学家们艰苦地解决了超过17万种蛋白质的结构,并在一个中央大分子数据档案库--蛋白质数据库(PDB)中公开分享这些数据。幸运的是,在数据存储库几乎不成为常态的时候,这个公开分享数据的决定被证明是对该领域最好的投资之一。一场新的计算竞赛已经开始。自发表以来,AlphaFold和RoseTTAFold都得到了进一步的优化,以预测多蛋白复合体。另外还有几篇预印本,扩展了AlphaFold方法或将其应用于更具体的问题,如预测蛋白质动力学和配体结合。深度学习也在对RNA结构预测领域产生了影响。David T. Jones和Janet M. Thornton的评论研究了AlphaFold对结构生物学的持续影响,以及预测结构的注意事项:然而,迫切的问题是,既然现在可以预测绝大多数蛋白质的准确结构,那么实验性结构生物学的未来是什么?
在我们看来,已经掌握的潜在结构给结构生物学家在处理更复杂和有趣的生物问题上带来了巨大的先机,但实验对于测试基于这些预测结构的假设仍然很重要。在一篇评论中,Sriram Subramaniam和Gerard J. Kleywegt讨论了结构生物学的未来将如何在结构预测和低温电镜及低温电子断层扫描的实验技术之间建立更强大的伙伴关系,特别是捕捉蛋白质的构象动态和现场结构的复杂性:我们对蛋白质结构和功能的理解有一个不足之处,那就是本质上无序的区域,它们只有在与结合伙伴相互作用时才会采用特定的二级结构。据估计,人类蛋白质组中约有30%的区域是本质上无序的。更为普遍的是,从静态结构预测中找出蛋白质在相应功能背景下完全采用的结构是不可行的。Abbas Ourmazd及其同事在他们的评论中主张以直接从氨基酸序列预测蛋白质功能为支点。我们预计这将成为该领域的一个重要焦点:
我们的技术专题介绍了科学界对AlphaFold所带来的飞跃的个人观点。兴奋之情溢于言表。这些方法提供了一个真正的范式转变,我们期待着看到在这一进展的刺激下出现许多令人兴奋的新方法:
我们希望你喜欢阅读这个特刊。我们还在"值得关注的方法"部分强调了我们期待并希望在不久的将来大放异彩的技术:
参考资料
https://www.nature.80599.net/articles/s41592-021-01380-4
https://www.nature.80599.net/collections/dfejabhghd
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。