查看原文
其他

当ChatGPT的飓风刮到了生命科学界

智药局 智药局 2023-08-18


ChatGPT近日可谓是科技圈的顶流,已经是“生成式AI”热潮的典型代表。


在ChatGPT出现之前,很多人难以想象大型语言模型(LLM,Large Language Model)效果能够这样出色。


受到基于深度学习的自然语言模型的成功启发,近日来自Salesforce Research、Tierra Biosciences,以及加州大学旧金山分校的科学家共同研发了生命科学领域中类似于ChatGPT的蛋白质生成模型:ProGen。该研究近日登上Nature Biotechnology 期刊。



天然蛋白质只覆盖了有效蛋白质序列空间的一小部分。我们如何才能释放非进化产生的蛋白质的潜力?


或许这类蛋白质大型语言模型是一个答案。


蛋白质界的ChatGPT


ProGen是一个基于Transformer 架构的2亿参数神经网络,使用包含 19,000 个家族的 2.8 亿个蛋白质序列的公开数据集进行训练。其关键部分是即由作为语言模型输入提供的属性标签,这些标签包括蛋白质家族、生物过程和分子功能等属性。 


正如ChatGPT这样的深度神经网络不仅能够生成语义和语法正确的句子,还能够给出新颖又多样化的回答,ProGen也与之类似,不过它是通过描述氨基酸序列与功能活性之间的关系,指导蛋白质序列设计,达到蛋白质进化序列的多样性。


ProGen:基于条件语言建模的人工蛋白质生成


简单来说,经过训练后ProGen从无到有地为任何蛋白质家族生成全长蛋白质序列,并且与天然蛋白质具有不同程度的相似性。


研究人员通过使用来自五个溶菌酶家族的56000 个序列以及相关文本信息,从而对模型进行微调。该模型迅速生成了一百万个序列,研究团队根据它们与天然蛋白质序列的相似程度以及 AI 蛋白质的潜在氨基酸“语法”和“语义”的自然程度,选择了100 个进行测试,平均序列长度在93-179之间。


进行体外筛选的 100 种蛋白质中,该团队制作了五种人工蛋白质以在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶(称为鸡蛋清溶菌酶)进行比较。该酶在人类的眼泪、唾液和牛奶中发现了类似的溶菌酶,它们可以抵御细菌和真菌。


其中两种人工酶能够以与 HEWL 相当的活性分解细菌的细胞壁,但它们只有约 18%的相同序列,这两个序列与任何已知蛋白质的同一性约为 90%和70%。


但在另一轮筛选中,研究团队发现,人工蛋白质序列与任何已知蛋白质的同一性低至31%,不仅具有功能性,表现出与高度进化的天然蛋白质相当的催化效率,并表现出与已知自然折叠相似的结构。而天然蛋白质中的一个突变就可以使其停止工作。


人工智能甚至能够通过研究原始序列数据来了解酶应该如何形成。用 X 射线晶体学测量,人造蛋白质的原子结构是合理的,尽管这些序列以前从未有过。


有何意义?


与小分子化合物的化学空间相似,蛋白质的设计几乎是无限的。


溶菌酶最多约有 300 个氨基酸,但是有20种可能的氨基酸,就有20Λ300 种可能的组合,这是仅凭现有的知识难以完成的事。


以往人们获得具有相似功能的蛋白质,一般从已知的功能蛋白进行迭代诱变和选择,但由于蛋白质设计空间过于广阔,尽管在某个方向上进行了优化,但得到的结果很多不尽如人意。


简单而言,基于语言模型的蛋白质序列设计本质上类似于自然语言:氨基酸以多种组合排列形成具有功能的结构,就像字母构成单词和句子具有含义一样。


研究人员表示,这一新技术可能比获得诺贝尔奖的定向进化(directed evolution)蛋白设计技术更有威力,将给蛋白工程学领域注入新的活力


事实上,在ProGen出现之前已经有人将语言模型用于蛋白质序列生成。


不过与其他用于蛋白质序列生成的语言模型相比,ProGen不仅使用氨基酸序列进行训练,而且还包含与功能关键字和分类学术语相对应的标签。这意味着在生成新序列时,可以通过选择相应的标签作为输入具有特定功能的蛋白质序列。


以往的从头设计蛋白质模型大多数基于结构的方法,(例如新的折叠类型和药物结合口袋),从而生成结构稳定折叠性质完好的蛋白结构,因此我们可以看到很多前沿团队能够设计出大自然界中难以出现的蛋白质。


RF Diffusion产生的新型蛋白质


当然该大型语言模型也有它的局限性:ProGen可以在大型蛋白质家族中生成具有可预测功能的蛋白质序列,类似于在不同主题上生成语法和语义正确的句子。


也就是说,这项技术可能无法做全新的蛋白质折叠,做全新的事情,但是可以针对已知内容拓展蛋白质进化中没有采取的途径。


正如业内资深专家Derek Lowe的所言:ProGen技术就像是学习已知的意大利面酱或面包卷的食谱,并生成一堆新的食谱,这些食谱乍一看可能看起来有点奇怪,但当你实际尝试它们时,却能够生产出可接受的意大利面酱或面包,远远超过以往厨师所拥有的食谱。


当然从头设计蛋白质这非常难,但也并非不可能。


新公司已官宣


就在论文登上Nature Biotechnology的同一天,由论文第一作者Ali Madani创办的公司Profluent Bio宣布获得由Insight Partners领投的900万美元种子轮融资。


该笔融资的将用于在加利福尼亚州伯克利建立一个综合湿实验室,使Profluent能够在通过实验方法产生的数据与其AI系统之间创建一个紧密的反馈循环,为设计任何蛋白质提供强大的验证,并不断改进他们的AI。


Profluent认为,人工智能的出现,能够让人们无需在自然界中进行无休止的发现搜索,也不再受到传统蛋白质工程的限制。未来设计新生物分子应该是优雅的,且富有创造性的。


在后AlphaFold时代,蛋白结构预测的逆问题,也就是蛋白设计得到了迅猛发展。多个团队已经从各个技术路径实现了蛋白质的从头设计,国内外新锐公司也得到风投机构的青睐。


现在,获得了资金的Profluent已经磨拳擦掌,准备开始建设团队以及建立更多的伙伴关系。


参考链接:

https://doi.org/10.1038/s41587-022-01618-2

https://www.ucsf.edu/news/2023/01/424641/ai-technology-generates-original-proteins-scratch


—The End—


推荐阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存