颠覆蛋白设计,生物界的ChatGPT要来了?
▎药明康德内容团队编辑
ChatGPT背后的大型语言模型利用对海量人类语言数据的分析,学习人类语言的语法和其它特征。在这项研究中,研究人员同样使用了深度学习语言模型,与ChatGPT不同的是,他们给这款名为ProGen的模型输入的不是人类的语言和文字,而是约2.8亿个蛋白质序列,它们来自近两万个蛋白家族,并且包括描述蛋白特征的信息。从中,ProGen学习到了蛋白中氨基酸排序的规律,以及它们与蛋白结构和功能的关系。研究人员表示,这就像是在学习蛋白结构和生物学的“语言”。
研究人员在这一研究中让ProGen生成能够杀死细菌的溶菌酶。从AI模型生成的上百万个蛋白序列中,他们基于人工蛋白与自然蛋白的相似程度,以及AI蛋白模拟自然氨基酸排列“语法”的相似度选出了100个候选蛋白。再从这100个蛋白中进一步筛选出5个人工蛋白,对它们的溶菌活性进行检测。结果显示,其中两款人工合成的溶菌酶能够溶解细菌的细胞壁,而且活性与大自然中出现的鸡蛋清溶菌酶(HEWL)类似。然而,这两款人工蛋白的氨基酸序列与任何已知蛋白之间只有90%和70%的重复,代表着在大自然中从未出现过的全新蛋白。
图片来源:123RF
研究人员表示这一新技术可能比获得诺贝尔奖的定向进化(directed evolution)蛋白设计技术更有威力,给蛋白工程学领域注入新的活力。基于ProGen系统,文章的第一作者Ali Madani博士联合创建的新锐公司Profluent也在日前浮出水面。在接受行业媒体Endpoints News采访时,他表示未来的新药开发将不再以实验驱动为主,AI只起到辅助作用。当AI能够充当蛋白和生物学“语言”的翻译官时,我们将不再需要在大自然中无穷无尽的寻找,或者受到传统蛋白工程学的局限。
“语言模型学习了进化的知识,但是它与普通的进化过程不同。”论文的作者之一,加州大学旧金山分校的James S. Fraser博士说,“我们现在有能力生成具有特定性质的蛋白,比如生成热稳定性极高的蛋白,或者让它与特定蛋白结合。”
▲ProGen等AI系统能够从头设计具有特定功能的全新蛋白(图片来源:参考资料[2])
2022年是人工智能设计全新分子屡获突破的一年。在AlphaFold精准解析蛋白质三维结构之后,华盛顿大学David Baker教授团队去年接连在《自然》、《细胞》上发文,介绍AI设计全新药物的新途径。Generate Biomedicine公司也推出了基于新算法的AI平台,能够按照研究人员要求,定制具有特定特征的全新蛋白结构。《药明康德》的读者也将人工智能设计全新分子选为2022年生物医药年度突破榜单之首。
利用语言模型生成全新蛋白,为蛋白设计和新药开发增添了基于AI的新策略。在日前结束的第41届JP摩根医疗健康大会上,科技公司Nvidia的报告指出,AI生物学领域近年来突飞猛进,能够像人类一样输出创新内容的生成式人工智能(generative AI)和在ChatGPT和ProGen背后的大型语言模型(LLM)将促进生物学的工程化。“到2025年,生成式AI技术将系统性发现超过30%的新药和新材料!”
图片来源:Nvidia官网
在日前结束的2023药明康德全球论坛上,多位专家在谈及产业创新时共同指出,将研发模式从“试错型”转变为“预测型”,是创新的关键之一。而大数据和先进算法是其中不可或缺的元素。期待人工智能在新药发现和开发领域迎来更多成功,让更多好药新药加速问世,造福全球病患!
药明康德为全球生物医药行业提供一体化、端到端的新药研发和生产服务,服务范围涵盖化学药研发和生产、生物学研究、临床前测试和临床试验研发、细胞及基因疗法研发、测试和生产等领域。如您有相关业务需求,欢迎点击下方图片填写具体信息。
▲如您有任何业务需求,请长按扫描上方二维码,或点击文末“阅读原文/Read more”,即可访问业务对接平台,填写业务需求信息
▲欲了解更多前沿技术在生物医药产业中的应用,请长按扫描上方二维码,即可访问“药明直播间”,观看相关话题的直播讨论与精彩回放
版权说明:本文来自药明康德内容团队,欢迎个人转发至朋友圈,谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德」微信公众号回复“转载”,获取转载须知。
分享,点赞,在看,聚焦全球生物医药健康创新