新闻 | “它将改变一切”:DeepMind的AI在解析蛋白质结构方面的巨大飞跃
编译:魏冬,编辑:Emma、江舜尧。
原创微文,欢迎转发转载。
科学家说,谷歌用于确定蛋白质3D形状的深度学习程序有望改变生物学。
继在围棋界一战成名的人工智能产品-AlphaGo后,Alphabet旗下英国人工智能公司DeepMind再一次脱颖而出。据报道,DeepMind再次开发了一款软件,成功实现了根据蛋白质的氨基酸序列精确预测蛋白质的3D结构,这是蛋白质折叠方面乃至生物学界一次重大飞跃,解决了过去50年的一项“重大挑战”。消息一出立刻引起科学界的反响,并登上的Nature杂志封面!
蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与,因此生物体内蛋白质的功能多种多样。所谓结构决定功能,单凭基因组信息是无法准确预测生物体内蛋白质的结构,明确蛋白质在体内的折叠方式非常重要,这将决定蛋白质在生物体内扮演什么样的“角色”。
DeepMind开发的AlphaFold人工智能系统在“结构预测关键评估”(CASP)的蛋白质结构预测大赛中脱颖而出。该活动每两年举办一次,该结果于今年11月30号宣布。
马里兰大学的计算生物学家于1994年与人共同创立了CASP,以改进精确预测蛋白质结构的计算方法,John Moult表示“这是一件了不起的大事,从某种意义上说,蛋白质折叠预测问题已经解决”。
根据氨基酸序列准确预测蛋白质结构的手段将对生命科学和医学领域带来巨大便利,这将加快人们对细胞组成的了解,并加速推进新药领域的研发工作。
AlphaFold早在上一届的CASP中(2018年)就名列前茅,那是总部位于伦敦的DeepMind第一次参加。但今年,科学家们表示该研发团队的深度学习网络远远领先其他团队,表现令人难以置信,可以预示生物学革命。
负责评估CASP中不同团队的表现的德国进化生物学家Andrei Lupas则表示AlphaFold“改变了游戏规则”,AlphaFold已经帮助解决了困扰他课题组十年的蛋白质结构难题,并且他希望该系统将可以改变他的研究模式以及所面临的问题。“这将改变医学、研究,它将改变生物工程,它将改变一切”,Lupas补充说。
蛋白质是生命的基石,是生命活动的主要承担者。蛋白质的工作方式和功能取决于其蛋白质的3D结构—“结构即功能”是分子生物学界的公理。
几十年来,实验一直是获取蛋白质结构的主要途径。从上世纪五十年代开始,科学家建立应用X射线衍射蛋白质晶体并将衍射光转化为蛋白质原子位置信息的技术,确定了蛋白质的第一个完整结构。已证明运用X射线晶体学可以解析蛋白质结构。但在过去的十年中,cryo-EM已成为许多结构生物学实验室的首选工具。
长期以来,科学家一直想知道蛋白质是如何组成的,即一连串的氨基酸是如何通过折叠和螺旋最形成最终形状。研究人员说,80年代和90年代早期尝试使用计算机预测蛋白质结构效果不佳,且已发表文章的方法无法成功应用于其他蛋白质。
Moult执行了更加严格的CASP规则,本次比赛要求团队使用自己的方法预测已解析但尚未公开的蛋白质结构。
DeepMind在2018年CASP13上的表现震惊了领域内的许多科学家,该领域长期以来一直是小型学术团体的堡垒。伊利诺伊州芝加哥大学的计算生物学家徐进波说,“DeepMind的方法与其他应用AI的团队大致类似”。
AlphaFold的第一次迭代将深度学习应用于结构和遗传数据,以预测蛋白质中氨基酸对之间的距离。根据AlphaFold的主要负责人之一John Jumper介绍,在第二个步骤中,虽然没有使用AI技术,但AlphaFold使用结构与遗传数据得出了蛋白质的外观模型并与之前的研究达成一致。
Jumper表示该团队的第一次迭代存在明显缺点,因此改变策略并开发了一个AI网络,该网络结合了有关确定蛋白质如何折叠的物理和几何约束的信息。他们还设定了一项更加艰巨的任务:该网络可以预测目标蛋白质的最终结构,而不是仅仅预测氨基酸间的关系。
2. 惊人的准确性
历时数月的CASP定期发布目标蛋白质或结构域的氨基酸序列(总共约100个),研究小组有数周的时间来完成其结构预测。独立的研究团队(组织机构将其匿名)使用度量标准来评估预测结果,该度量标准可评估预测的蛋白质与实验确定的结构的相似程度。
Lupas说,AlphaFold的团队名称以“427组”出现,但是其惊人的准确性使它们脱颖而出。
Moult表示一些预测比其他的更好,但将近三分之二与实验结构相当,尚不清楚AlphaFold的预测与实验结果之间的差异是预测误差还是实验的伪像。
Moult说,AlphaFold的预测与通过核磁共振波谱技术确定的实验结构的匹配性较差,但这可能是因为其原始数据转换为模型的方法差异性导致。AlphaFold的网络还努力为蛋白质复合物或组中的单个结构建模,从而在与其他蛋白质的相互作用扭曲了自身形状。
其中,GDT(Global Distance Test) 是CASP 用来测量预测准确性的主要指标,其范围为0-100,GDT是氨基酸残基在阈值距离内与正确位置的百分比,90分左右的 GDT得分可被认为与实验手段得到的结果一致。总体而言,与上一个CASP相比,DeepMind团队今年对结构的预测更为准确,这归因于AlphaFold,Moult说,在被认为中等难度的蛋白质靶标上,其他团队的最佳表现通常在预测准确度上得分75(满分100),而AlphaFold得分大约为90。
Moult说,大约一半的团队在摘要中总结方法时提到了“深度学习”,这表明人工智能正在对该领域产生广泛的影响。参赛队伍大多数来自学术团队,但微软和腾讯也参加了CASP14。
哥伦比亚大学的计算生物学家,CASP参与者Mohammed AlQuraishi渴望在比赛中深入研究AlphaFold的性能细节,并在DeepMind团队于12月1日提出方法时进一步了解该系统的工作原理。他认为AlphaFold将具有革命性意义。
“公平的说,这将对蛋白质结构预测领域造成极大破坏,我怀疑许多人会离开该领域,因为核心问题已经解决。这是一阶技术的突破,无疑是我一生中最重要的科学成果之一。”
3.更快的结构
AlphaFold的预测技术有助于确定Lupas实验室多年来试图破解的细菌蛋白质结构。Lupas的研究团队曾收集过原始的X射线衍射数据,但要将这些类似Rorschach的图案转换为结构,则需要有关蛋白质的结构信息,而获取此信息的应用技术以及其他预测工具均以失败告终。Lupas说:“在我们花了十年时间尝试一切,427组的模型将在半小时内为我们提供结构信息”。
DeepMind的联合创始人兼首席执行官Demis Hassabis说,该公司计划将AlphaFold开放给科学家使用(它先前已经发布了有关AlphaFold的第一个版本的详细信息,以供其他科学家使用)。AlphaFold可能需要几天的时间才能得出预测的结构,其中包括对蛋白质不同区域可靠性的估计。Hassabis补充道,他们才刚刚开始了解生物学家的需求,他认为AlphaFold有望应用在药物发现和蛋白质设计方面。
2020年初,该公司发布了一些SARS-CoV-2蛋白的结构预测,这些蛋白尚未通过实验加以确定。加州大学伯克利分校的分子神经生物学家Stephen Brohawn表示,DeepMind对一种叫做Orf3a的蛋白预测结果最终与后来通过cryo-EM确定的蛋白质非常相似。
4. 现实世界的影响
“这是我一生都无法解决的问题”,欧洲生物信息学研究所的名誉主任Janet Thornton说,她希望这种方法可以帮助阐明人类基因组中数千种未解决的蛋白的功能,并了解人与人之间因为疾病而产生的基因变异。
AlphaFold的表现也改变人们对DeepMind的印象,该公司曾以使用AI玩游戏而闻名。Hassabis称,解决严峻的例如蛋白质结构预测的科学挑战,是AI最重要的应用,“就现实世界的影响而言,我认为这是我们所做的最重要的事情”。
代谢组科研学术群期待与您交流更多代谢组学科研问题
(联系代谢组学老师即可申请入群)。
了解更多代谢组学知识,请关注下列二维码。