其他
Nature发布2024年值得关注的七项技术
本文来源:医工学人
转自:pythonic生物人
前言
从蛋白质工程、3D打印,到深度伪造介质的检测,以下是《自然》期刊在未来一年将关注的七个技术领域。一、用于蛋白质设计的深度学习
二十年前,西雅图华盛顿大学的大卫·贝克(David Baker)和他的同事们取得了一项里程碑式的壮举:他们使用计算工具从零开始设计了一种全新的蛋白质。“Top7”蛋白如预测的那样折叠,但它是惰性的:它无法执行有意义的生物学功能。如今,蛋白质设计方法已经成熟,发展为一种实用工具,用于生成定制酶和其他蛋白质。“这极大地增强了科研效率”,华盛顿大学的生物化学家尼尔·金(Neil King)说,他与贝克的团队合作设计了基于蛋白质的疫苗和药物递送载体。“一年半前不可能完成的事情——现在你只需要去做。”这些进展很大程度上归因于将蛋白质序列与结构联系起来的日益庞大的数据集。但是,复杂的深度学习方法(人工智能的一种形式)也是必不可少的。“基于序列”的策略使用大型语言模型 (LLM),这些模型为 ChatGPT 等工具提供支持(参考:'ChatGPT?或许明年')。通过将蛋白质序列视为包含多肽“单词”的文档,这些算法可以辨别真实世界蛋白质架构剧本背后的模式。“他们真的学会了隐藏的语法,”西班牙巴塞罗那分子生物学研究所的蛋白质生物化学家Noelia Ferruz说。2022 年,她的团队开发了一种名为 ProtGPT2 的算法,该算法始终如一地提出合成蛋白质,这些蛋白质在实验室生产时可以稳定折叠[1]。Ferruz共同开发的另一种工具ZymCTRL利用序列和功能数据来设计天然存在的酶家族的成员[2]。基于序列的方法可以建立在现有蛋白质特征的基础上并对其进行调整以形成新的框架,但它们对于结构元件或特征的定制设计效果较差,例如以可预测的方式结合特定靶标的能力。“基于结构”的方法更适合这一点,2023 年这种类型的蛋白质设计算法也取得了显着进展。其中一些最复杂的模型使用“扩散”模型,这也是图像生成工具(如DALL-E)的基础。这些算法最初经过训练,可以从大量真实结构中去除计算机生成的噪声;通过学习区分现实的结构元素和噪声,他们获得了形成生物学上合理的用户定义结构的能力。RFdiffusion 软件[3]是由 Baker 的实验室和马萨诸塞州萨默维尔的 Generate Biomedicines 开发的色度工具[4],他们利用这一工具取得了显著的设计效果。例如,Baker 的团队正在使用 RFdiffusion 来设计新型蛋白质,“这些蛋白质可以与感兴趣的靶标形成紧密的界面,从而产生“完全符合表面”的设计,”Baker 说。RFdiffusion 的更新的“全原子”迭代[5]允许设计人员围绕非蛋白质靶标(如DNA、小分子甚至金属离子)计算形状蛋白质。由此产生的多功能性蛋白为工程酶、转录调节因子、功能性生物材料等蛋白质设计开辟了新的视野。读者可能会在23年的技术中发现一个值得关注的主题:深度学习的巨大影响。但有一个工具没有进入最终阶段:大肆宣传的人工智能(AI)驱动的聊天机器人。ChatGPT 及其同类产品似乎有望成为许多研究人员日常生活的一部分,并被视为 2023 年《自然》杂志 10 大综述的一部分(go.nature.com/3trp7rg)。9 月份《自然》杂志中一项调查( go.nature.com/45232vd)的受访者认为 ChatGPT 是最有用的基于人工智能的工具,并对其在编码、文献综述和管理任务方面的潜力充满热情。从公平的角度来看,这些工具也被证明很有价值,可以帮助那些英语不是第一语言的人完善他们的论文,从而简化他们的出版及职业发展之路。然而,其中许多应用代表了节省劳动力的收益,而不是研究过程的转变。此外,ChatGPT 持续发布误导性或捏造的回复是超过三分之二受访者的主要担忧。虽然值得监测,但这些工具需要时间来发展成熟并确立它们在科学界的更广泛作用。