查看原文
其他

比AlphaFold更强?1天2篇Science,这个团队的新技术几秒钟生成全新蛋白质

三巨木 医药魔方Pro 2023-02-09


人工智能(AI)的巨大进步意味着研究人员可以几秒钟而不再需要几个月时间设计出完全原创的分子。


今年6月韩国监管机构批准了首款人类设计的全新的蛋白质制成的COVID疫苗GBP510,该疫苗基于近十年前研究人员通过劳动密集型反复试验制造的球形蛋白质纳米颗粒。

而今年7月,DeepMind透露,最新版本的AlphaFold已经预测了已知的所有蛋白质结构。最近几个月, AI工具出现了爆炸式增长,它们可以迅速创造出全新的蛋白质。西班牙赫罗纳大学的计算生物学家Noelia Ferruz说:“自从AlphaFold之后,蛋白质设计方面的工作方式发生了转变,我们正在见证一个非常激动人心的时代。”

进一步的好消息是,9月15日,华盛顿大学的生物化学家David Baker团队在Science上连发两篇论文,表示他们创造的新方法ProteinMPNN,可以在几秒钟内而不是几个月内设计出蛋白质;另外,使用一种叫作“幻觉”(Hallucinating)的方法可以生成广泛的对称蛋白质同源寡聚体。表明机器学习可用于比以前更准确、更快速地创建蛋白质分子。

来源:Science

来源:Science

梦的开始

Baker实验室在过去的30年里一直在制造新的蛋白质。上世纪90年代开发了一款名为Rosetta的软件,该软件将制造新蛋白质的过程分成多个步骤。研究人员可以先构想出一种新蛋白质的形状(通常是将其他蛋白质的片段拼凑在一起),然后经软件推导出与该形状对应的氨基酸序列。

但这些在实验室中制造的“初稿”(first draft)蛋白质很少折叠成所需的形状,因此还需要进一步调整蛋白质序列,使其只折叠成一个理想的结构。哈佛大学的进化生物学家Sergey Ovchinnikov曾在Baker的实验室工作,他说:“这一步包括模拟不同序列可能折叠的所有方式,计算成本很高。可能会让10000台电脑连续运行数周才能完成” 。

但通过调整AlphaFold和其他AI程序,这个耗时的步骤可以瞬间完成。在Baker团队开发的 “幻觉”方法中,研究人员将随机的氨基酸序列输入结构预测网络,这样的做法改变了这些氨基酸的结构,使其变得越来越像蛋白质。在2021年的一篇论文中,Baker团队在实验室中创造了100多个小的“幻觉”蛋白质,并发现约五分之一的蛋白质与预测形状相似。

AlphaFold和由Baker实验室开发的类似工具RoseTTAFold被训练来预测单个蛋白质的结构。但研究人员很快发现,这种网络也可以模拟多种相互作用蛋白质的组合。在此基础上,Baker团队确信他们可以产生“幻觉”,使蛋白质能够自我组装成不同形状和大小的纳米颗粒;这些蛋白质将由单一蛋白质的许多副本组成,与COVID-19疫苗所基于的蛋白质类似。

但是当他们指导微生物在实验室中进行创造时,150种设计都没有奏效。“它们根本没有折叠。”Baker说。

与此同时,实验室的机器学习科学家Justas Dauparas正在开发一种深度学习工具,以解决所谓的逆折叠问题,确定与给定蛋白质的整体形状相对应的蛋白质序列。Ovchinnikov说,这个被称为ProteinMPNN的网络可以作为使用AlphaFold和其他工具创建的设计师蛋白质的“拼写检查”,在保持分子整体形状的同时调整序列。

当Baker和他的团队将第二种网络应用到他们产生“幻觉”的蛋白质纳米颗粒上时,在实验上取得了更大的成功。研究人员使用冷冻电子显微镜和其他实验技术确定了其中30种新蛋白质的结构,其中27种与AI主导的设计相匹配。

该团队的创作包括具有复杂对称性的巨大环,与自然界中发现的任何东西都不同。从理论上讲,这种方法可以用来设计与几乎任何对称形状相对应的纳米颗粒。

“幻觉”对称蛋白质组装(来源:Nature)

深度学习革命

斯德哥尔摩大学的计算生物学家Arne Elofsson认为,像ProteinMPNN这样的深度学习工具已经改变了蛋白质设计的游戏规则。“画出你的蛋白质,按下一个按钮,就会得到十分之一有效的东西。”正如Baker团队在设计纳米粒子时所做的那样,通过结合多个神经网络来处理设计过程的不同部分,可以实现更高的成功率。“现在我们可以完全控制蛋白质的形状。”Ovchinnikov说。

当然,Baker实验室并非唯一将AI应用于蛋白质设计的实验室。在本月发表在bioRxiv上的一篇综述中,Ferruz和她的同事统计了近年来使用了各种方法开发的40多种AI蛋白质设计工具

包括ProteinMPNN在内的许多工具,都解决了逆折叠问题:它们使用借鉴自图像识别工具的方法,指定了与特定结构相对应的序列。还有一些工具是基于一种类似于语言神经网络的架构,可生成类似人类的文本。

加州大学伯克利分校的机器学习研究员Chloe Hsu与Meta7的研究人员共同开发了一个反向折叠网络,她说,有了这么多可用的蛋白质设计工具,但并不清楚如何最好地比较这些工具。

许多团队都在评估他们的AI工具的能力,即从现有蛋白质的结构中准确确定其序列的能力。Ferruz表示希望看到一个蛋白质设计竞赛,类似于两年一次的蛋白质结构预测临界评估(CASP)实验那样。这样的话,像CASP这样的项目将真正推动这一领域的发展。

通过wet lab检验

Baker和他的同事认为,在实验室中制造一种新的蛋白质是对他们方法的终极检验,最初制造“幻觉”蛋白的失败说明了这一点。Baker实验室的生物物理学家Basile Wicky说:“AlphaFold认为它们是神奇的蛋白质,但它们显然在wet lab不起作用。”

知识卡:wet lab是相对dry lab的概念,是指可以使用各种液体对药物、化学品和其他类型的生物物质进行分析和测试的实验室;dry lab是更侧重于通过创建计算机生成的模型或模拟来进行应用或计算数学分析的实验室。


但丰田技术研究所的计算生物学家Jinbo Xu指出,并非所有为蛋白质设计开发AI工具的科学家都能轻松获得实验装置。找到一个可以合作的实验室可能需要时间,所以Xu正在建立自己的wet lab,以测试团队开发的AI工具。

Baker说,在设计具有特定任务的蛋白质时,实验也将是必不可少的。今年7月,他的团队开发了两种AI方法,能够在一种新的蛋白质中嵌入特定的序列或结构。他们用这两种方法设计了催化特定反应的酶、能与其他分子结合的蛋白质、用于疫苗的蛋白质和对抗呼吸道病毒的蛋白质。

去年,DeepMind在伦敦成立了Isomorphic Labs的衍生公司,打算将AlphaFold等AI工具应用于药物研发。DeepMind的首席执行官Demis Hassabis表示,他认为蛋白质设计显然是深度学习技术的一个很有前途的应用,尤其是对AlphaFold。“我们在蛋白质设计领域做了很多工作。现在才刚开始。”

Baker说:“蛋白质是整个生物学的基础,现在我们在每种植物、动物和微生物中发现的所有蛋白质,都还不到所有可能的蛋白质的百分之一。有了这些新的软件工具,研究人员也许就能够找到长期的解决方案,去攻克医学、能源和技术上的难题。”

本文编译自Nature题为“Scientists are using AI to dream up revolutionary new proteins”的报道;封面图来源:Ian C Haydon/UW Institute for Protein Design。

参考资料:

[1]J. DAUPARAS et al. Robust deep learning–based protein sequence design using ProteinMPNN. Science(2022)

[2]B. I. M. WICKY et al. Hallucinating symmetric protein assemblies. Science(2022)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存