2022年11月30日,人工智能研究实验室OpenAI发布了全新聊天机器人模型ChatGPT。这是一款人工智能技术驱动的自然语言处理工具,旨在根据用户的提示模仿类似人类的对话。有消息称,中国搜索巨头百度正计划推出一款类似于OpenAI的ChatGPT的人工智能聊天机器人服务。百度计划在今年3月份推出此应用,最初会将其嵌入主要搜索服务中。全球知名的软件服务提供商Salesforce也看中了人工智能的潜力,该公司科学家开发的新型人工智能系统ProGen能从头开始生成人工酶,相关论文于1月26日发表在Nature Biotechnology上。从广义上讲,蛋白质负责几乎所有对生命至关重要的生物过程。蛋白质可以被视为一种语言,就像英语是由字母组成的一样,蛋白质是由氨基酸串在一起组成的。人类不可能流利地使用蛋白质“语言”,但是我们可以教一台计算机——更准确地说是一个人工智能模型,来学习蛋白质的语言,这样它就可以为我们编写/生成蛋白质。为了创建这个模型,科学家们只需要将2.8亿种不同蛋白质的氨基酸序列输入机器学习模型,让它在几周内消化这些信息。然后用来自5个溶菌酶家族的56000个序列以及有关这些蛋白质的一些背景信息启动模型,从而对模型进行了微调。该模型迅速生成了100万个序列,研究团队根据它们与天然蛋白质序列的相似性,以及AI蛋白质的潜在氨基酸“语法”和“语义”的自然程度,选择了100个序列进行测试。Tierra生物科学公司对第一批100种蛋白质进行了体外筛选,研究小组制作了5种人工蛋白质用于细胞测试,并将它们的活性与鸡蛋蛋白中发现的一种酶进行了比较,这种酶被称为鸡蛋蛋白溶菌酶(HEWL)。类似的溶菌酶也存在于人类的眼泪、唾液和牛奶中,它们可以抵御细菌和真菌。其中两种人工酶能够以与HEWL相当的活性分解细菌的细胞壁,但它们的序列彼此之间只有18%的相同,这两个序列与任何已知蛋白质的同源性分别为90%和70%,代表这两个序列互不相同,且均是在大自然中从未出现过的全新蛋白。在随后的一轮筛选中,科学家们发现,即使只有31.4%的序列类似于任何已知的天然蛋白质,人工智能生成的酶也显示出功能性。天然蛋白质的单个突变会导致其停止功能。通过分析原始序列数据,人工智能甚至能够确定酶应该如何形成。由X射线晶体学确定的人造蛋白质的原子结构似乎就像它们应该的那样,尽管它们的序列是新颖的。蛋白质的设计选择几乎是无穷无尽的。就蛋白质而言,溶菌酶含有多达300个氨基酸,是由20种不同的氨基酸组成的,所以有多达20300种潜在的组合。但令人惊讶的是,该模型可以如此轻松地产生功能性酶。科学家们表示,这项新技术可能会比获得诺贝尔奖的蛋白质设计技术定向进化更强大,它将通过加速新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力,这些蛋白质几乎可用于从治疗到降解塑料的任何东西。论文第一作者Ali Madani于2019年获得加州大学伯克利分校博士学位,后入职Salesforce公司。2022年7月创立了Profluent公司,这是一家使用深度生成模型来学习生物学语言,以设计新的功能性蛋白质的新锐公司。
论文第一作者、Profluent创始人Ali Madani(来源:LinkedIn)
Profluent总部位于美国加利福尼亚州,1月26日,Profluent宣布完成9万美元的种子轮融资,融资所得将用于建立一个综合湿实验室,用于开发专有数据,并聘请生物学和机器学习领域的科学家和工程师团队。Ali Madani博士表示:“从头开始生成功能蛋白质的能力表明我们正在进入蛋白质设计的新时代,这是蛋白质工程师可以使用的多功能新工具,我们期待看到治疗应用。”[1]Ali Madani et al. Large language models
generate functional protein sequences across diverse families. Nature
Biotechnology(2023)[2]https://www.sciencedaily.com/releases/2023/01/230126124330.htm[3]https://blog.salesforceairesearch.com/progen/[4]https://www.profluent.bio/[5]https://www.linkedin.cn/incareer/in/madani-ali
Copyright © 2023 PHARMCUBE. All Rights Reserved.欢迎转发分享及合理引用,引用时请在显要位置标明文章来源;如需转载,请给微信公众号后台留言或发送消息,并注明公众号名称及ID。免责申明:本微信文章中的信息仅供一般参考之用,不可直接作为决策内容,医药魔方不对任何主体因使用本文内容而导致的任何损失承担责任。