CASP15:DeepMind团队缺席,但AlphaFold无处不在
2022年12月13日,Nature杂志发表新闻文章After AlphaFold: protein-folding contest seeks next big breakthrough,文章讨论了AlphaFold对CASP的影响,以及CASP的新突破方向。
CASP始于1994年。在比赛的一年中,参赛团队的任务是使用计算工具来预测已经用X射线晶体学和冷冻电子显微镜等实验方法确定但尚未发布的蛋白质结构。比赛的评分依据是对整个蛋白质的预测(或称为结构域的独立折叠子单元)与实验结构的匹配程度。
在CASP14上,AlphaFold的一些预测结果已经与实验结构没有区别,这是第一次达到这样的准确性。
意外的是,DeepMind团队没有参加CASP15。DeepMind没有说明不参加的原因,但在CASP15期间发表了一份简短的声明,祝贺那些参加的团队。
缺席,却无处不在
CASP仍然在AlphaFold的长长阴影下行走(原文:is still walking in AlphaFold’s long shadow)。
CASP15的结果显示,从蛋白质的氨基酸序列预测蛋白质结构的最成功的方法包含了AlphaFold。密歇根大学的计算生物学家Yang Zhang说:"所有人都在使用AlphaFold。"
AlphaFold已经在生命科学研究中无处不在了。DeepMind在2021年发布了该软件的底层代码,这样任何人都可以运行该程序,而今年更新的AlphaFold数据库拥有来自基因组数据库中所有生物体的几乎所有蛋白质的预测结构(质量不一),总计超过2亿个蛋白质。
DeepMind本身没有参与CASP15,但由于开源,最成功的参赛者已将AlphaFold集成到他们的方法中。
在CASP15上,最成功的团队是那些以各种方式适应并建立在AlphaFold基础上的团队,他们在预测单个蛋白质和结构域的形状方面取得了适度的获益。CASP发起人之一的Moult说:"准确度已经很高了,很难再有更好的结果。"
打开了蛋白质结构预测的新空间
AlphaFold的进展为蛋白质结构预测的新挑战打开了闸门,有些挑战包括在今年的CASP中,这些挑战可能需要新的方法和更多的时间来完全解决。
哥伦比亚大学的计算生物学家Mohammed AlQuraishi说:"低垂的果实已经被摘下,接下来的一些问题会更难。"
为了使比赛在AlphaFold之后的世界中更有意义,Moult和他的团队增加了新的挑战并调整了一些现有的挑战。新的测试包括确定蛋白质如何与其他分子(如药物)相互作用,以及预测一些蛋白质可能呈现的多种形状。Moult说,在过去的十年里,CASP包括了多个相互作用的蛋白质的”复合物",但准确预测这种分子的结构在今年得到了更多的强调。
Zhang说:"这是正确的事情,因为预测单个蛋白质或结构域的结构(过去CASP的面包和黄油)基本上已经被AlphaFold解决了"。
斯德哥尔摩大学的蛋白质生物信息学家Arne Elofsson说,特别是确定蛋白质复合物的形状,对该领域来说是一个重要的新挑战,因为有很大的改进空间。
这样的努力似乎得到了回报,因为与以前的比赛相比,CASP15的准确复合物的数量明显增加,主要是由于适应AlphaFold的方法。
Moult说,"对我们来说,用复合物接近实验精度是一个新的游戏。"
缺席的原因
关于DeepMind缺席的原因,有研究人员认为,比赛需要相当多的时间投入,DeepMind可能觉得把这些时间花在其他挑战上更好。
Moult认为:"如果他们参加了,对CASP来说是件好事。但也因为方法很好,他们不可能再做大的飞跃了"。
另外有研究人员称,对AlphaFold进行大的改进将需要时间,而且可能需要在机器学习和蛋白质结构预测方面进行新的创新。正在开发的一个领域是用”语言模型”预测蛋白质结构。但是这些方法--包括一个由社交网络巨头Meta开发的方法--在CASP15上的表现远不如基于AlphaFold的工具好。
然而,这些工具可能有助于预测突变如何改变蛋白质的结构--这是由于AlphaFold的成功而出现的蛋白质结构预测的几个关键挑战之一。AlQuraishi说,该领域不再专注于一个单一的目标,有了一连串的问题。
参考资料
https://www.nature.com/articles/d41586-022-04438-1
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【蛋白质结构与AlphaFold】
●AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
●打造生物科技领域的“EDA”,智峪生科推出全生态蛋白计算设计平台
●秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质
●Nature评论|AlphaFold如何在结构生物学中实现AI的全部潜力
●AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
●分子之心发力!业界首个功能完整的AI蛋白设计平台MoleculeOS首次公开
●Nat Mach Intel|用语言模型进行可控的蛋白质设计
●Commun Biol|人工智能指导下的内在无序蛋白质的构象挖掘
●Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
●Nat Methods|ColabFold:让所有人都能进行蛋白质折叠
●Nat Rev Mol Cell Bio|用人工智能预测蛋白质结构的前景和机遇
●Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测
●Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战
●Facebook|从数百万个预测蛋白质结构中学习逆折叠,预测序列信息
●AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资
●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基
●Curr Opin Struc Biol|蛋白质设计的深度生成建模
●Nat Methods|用AlphaFold以原子精度预测蛋白质结构
●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究
●Nat Methods特刊|2021年度方法:蛋白质结构预测
●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点