查看原文
其他

比AlphaFold快60倍!Meta AI开放6亿+蛋白质结构,150亿语言模型用两周完成

三巨木 医药魔方Pro 2022-11-13
7月28日,DeepMind宣布AlphaFold DB已经从100万个预测结构扩展到超过2亿个预测结构,扩大超过200倍,几乎涵盖了DNA数据库中已知生物体的所有蛋白质。
近日发表在预印本平台bioRxiv的一篇文章显示,Meta(前身为Facebook)的研究人员使用人工智能(AI)能预测6亿多种蛋白质的结构,这些蛋白来自细菌、病毒和其他微生物。这项工作只花了2周时间,而AlphaFold可能需要几分钟才能生成1个蛋白质的预测。
Meta将这个网络命名为ESMFold。虽然ESMFold预测准确性不如AlphaFold,但在预测结构方面比AlphaFold快约60倍。这一速度意味着可以将蛋白质结构预测扩展到更大的数据库。

文本交互地址:https://esmatlas.com/explore?at=1%2C1%2C21.999999344348925

通常语言模型是在大量的文本上训练的。为了将它们应用到蛋白质上,研究人员给它们输入已知蛋白质的序列,这些蛋白质可以由20个不同的氨基酸链表达,每个氨基酸由1个字母表示。然后,该网络学习“自动补全”部分氨基酸被遮盖的蛋白质。
在这6.17亿次预测中,该模型认为超过三分之一的预测是高质量的,因此整体蛋白质形状可被认为是正确的,并且在某些情况下可以分辨出更精细的原子级别的细节。数以百万计的这些结构都是全新的,与实验确定的蛋白质结构数据库或已知生物预测的AlphaFold数据库中的任何结构都不同。
通讯作者Alexander Rives表示,这种训练使神经网络对蛋白质序列有了直观的理解,这些蛋白质序列包含了关于它们形状的信息。接着,在DeepMind开创性的蛋白质结构AI AlphaFold的启发下,将这些见解与已知蛋白质结构和序列之间关系的信息结合起来,从蛋白质序列生成预测的结构。他补充道:“任何人都可以免费使用这些预测的结构和模型背后的代码。”
AlphaFold数据库的很大一部分是由彼此几乎相同的结构组成的,而“宏基因组”数据库(即ESMFold)应该涵盖以前从未见过的蛋白质宇宙的很大一部分。首尔国立大学计算生物学家Martin Steinegger说:“现在我们拥有一个很大的机会来揭开更多的未知。”
参考资料:
[1]https://www.nature.com/articles/d41586-022-03539-1
[2]https://esmatlas.com/explore?at=3.075269937515259%2C-0.27741435170173645%2C0.09188728678831072
[3]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

[4]https://github.com/facebookresearch/esm


  近期热门


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存