其他
Nature 发布 2024 年值得关注的七项技术
来源:医工学人
前言
从蛋白质工程、3D打印,到深度伪造介质的检测,以下是《自然》期刊在未来一年将关注的七个技术领域。一、用于蛋白质设计的深度学习
二十年前,西雅图华盛顿大学的大卫·贝克(David Baker)和他的同事们取得了一项里程碑式的壮举:他们使用计算工具从零开始设计了一种全新的蛋白质。“Top7”蛋白如预测的那样折叠,但它是惰性的:它无法执行有意义的生物学功能。如今,蛋白质设计方法已经成熟,发展为一种实用工具,用于生成定制酶和其他蛋白质。“这极大地增强了科研效率”,华盛顿大学的生物化学家尼尔·金(Neil King)说,他与贝克的团队合作设计了基于蛋白质的疫苗和药物递送载体。“一年半前不可能完成的事情——现在你只需要去做。”这些进展很大程度上归因于将蛋白质序列与结构联系起来的日益庞大的数据集。但是,复杂的深度学习方法(人工智能的一种形式)也是必不可少的。“基于序列”的策略使用大型语言模型 (LLM),这些模型为 ChatGPT 等工具提供支持(参考:'ChatGPT?或许明年')。通过将蛋白质序列视为包含多肽“单词”的文档,这些算法可以辨别真实世界蛋白质架构剧本背后的模式。“他们真的学会了隐藏的语法,”西班牙巴塞罗那分子生物学研究所的蛋白质生物化学家Noelia Ferruz说。2022 年,她的团队开发了一种名为 ProtGPT2 的算法,该算法始终如一地提出合成蛋白质,这些蛋白质在实验室生产时可以稳定折叠[1]。Ferruz共同开发的另一种工具ZymCTRL利用序列和功能数据来设计天然存在的酶家族的成员[2]。基于序列的方法可以建立在现有蛋白质特征的基础上并对其进行调整以形成新的框架,但它们对于结构元件或特征的定制设计效果较差,例如以可预测的方式结合特定靶标的能力。“基于结构”的方法更适合这一点,2023 年这种类型的蛋白质设计算法也取得了显着进展。其中一些最复杂的模型使用“扩散”模型,这也是图像生成工具(如DALL-E)的基础。这些算法最初经过训练,可以从大量真实结构中去除计算机生成的噪声;通过学习区分现实的结构元素和噪声,他们获得了形成生物学上合理的用户定义结构的能力。RFdiffusion 软件[3]是由 Baker 的实验室和马萨诸塞州萨默维尔的 Generate Biomedicines 开发的色度工具[4],他们利用这一工具取得了显著的设计效果。例如,Baker 的团队正在使用 RFdiffusion 来设计新型蛋白质,“这些蛋白质可以与感兴趣的靶标形成紧密的界面,从而产生“完全符合表面”的设计,”Baker 说。RFdiffusion 的更新的“全原子”迭代[5]允许设计人员围绕非蛋白质靶标(如DNA、小分子甚至金属离子)计算形状蛋白质。由此产生的多功能性蛋白为工程酶、转录调节因子、功能性生物材料等蛋白质设计开辟了新的视野。读者可能会在23年的技术中发现一个值得关注的主题:深度学习的巨大影响。但有一个工具没有进入最终阶段:大肆宣传的人工智能(AI)驱动的聊天机器人。ChatGPT 及其同类产品似乎有望成为许多研究人员日常生活的一部分,并被视为 2023 年《自然》杂志 10 大综述的一部分(go.nature.com/3trp7rg)。9 月份《自然》杂志中一项调查( go.nature.com/45232vd)的受访者认为 ChatGPT 是最有用的基于人工智能的工具,并对其在编码、文献综述和管理任务方面的潜力充满热情。从公平的角度来看,这些工具也被证明很有价值,可以帮助那些英语不是第一语言的人完善他们的论文,从而简化他们的出版及职业发展之路。然而,其中许多应用代表了节省劳动力的收益,而不是研究过程的转变。此外,ChatGPT 持续发布误导性或捏造的回复是超过三分之二受访者的主要担忧。虽然值得监测,但这些工具需要时间来发展成熟并确立它们在科学界的更广泛作用。
二、Deepfake检测
公开可用的生成式 AI 算法的爆炸式增长使得合成令人信服但完全是人工的图像、音频和视频变得简单。但结果可能会让人担心,随着持续的地缘政治冲突和美国总统大选的临近,媒体操纵的机会很多。纽约布法罗大学(University at Buffalo)的计算机科学家吕思维(Siwei Lyu)说,他见过许多人工智能生成的与以色列-哈马斯冲突有关的“深度伪造”图像和音频。这只是一场高风险的猫捉老鼠游戏的最新一轮,在这场游戏中,人工智能用户制作欺骗性内容,而吕和其他媒体取证专家则致力于检测和拦截它。一种解决方案是让生成式 AI 开发人员在模型的输出中嵌入隐藏信号,从而生成水印。其他策略侧重于内容本身。例如,“一些视频将一个公众人物的面部特征替换为另一个公众人物的面部特征,而新的算法可以在替换特征的边界处识别伪影,”Lyu说。一个人外耳的独特褶皱也可以揭示脸部和头部之间的不匹配,而牙齿的不规则性可以揭示经过编辑的对口型视频,其中一个人的嘴巴被数字操纵以说出受试者没有说的话。人工智能生成的照片也是一个棘手的挑战,也是一个移动的目标。2019 年,意大利那不勒斯费德里科二世大学的媒体取证专家 Luisa Verdoliva 帮助开发了 FaceForensics++,这是一种用于发现被几个广泛使用的软件包操纵的人脸的工具[6]。但图像取证方法是特定于主题和软件的,泛化是一个挑战。“你不能有一个单一的通用检测器——这非常困难,”她说。然后是实施的挑战。美国国防高级研究计划局的语义取证 (SemaFor) 计划开发了一个用于深度伪造分析的有用工具箱,但正如《自然》杂志报道的那样( Nature 621, 676–679; 2023),主流社交媒体网站并没有经常使用它。扩大对此类工具的访问可能有助于促进使用,为此,Lyu 的团队开发了 DeepFake-O-Meter[7],一个集中的公共算法存储库,可以从不同角度分析视频内容以嗅出深度伪造内容。这些资源将有所帮助,但与人工智能产生的错误信息的斗争可能会在未来几年持续下去。三、大片段DNA插入
2023 年底,美国和英国监管机构批准了首个基于 CRISPR 的基因编辑疗法,用于治疗镰状细胞病和输血依赖性地中海贫血β——这是基因组编辑作为临床工具的重大胜利。CRISPR 及其衍生物使用短可编程 RNA 将 DNA 切割酶(如 Cas9)引导至特定的基因组位点。它们在实验室中通常用于禁用有缺陷的基因并引入小的序列变化。精确和可编程地插入跨越数千个核苷酸的较大DNA序列是很困难的,但新兴的解决方案可以让科学家替换有缺陷基因的关键片段或插入功能齐全的基因序列。加州斯坦福大学的分子遗传学家Le Cong和他的同事们正在探索单链退火蛋白(SSAP)——介导DNA重组的病毒衍生分子。当与禁用Cas9的DNA切片功能的CRISPR-Cas系统结合使用时,这些SSAP允许将多达2千碱基的DNA精确靶向插入人类基因组中。其他方法利用一种称为素数编辑的基于CRISPR的方法引入短的“着陆垫”序列,这些序列选择性地募集酶,而酶又可以将大的DNA片段精确地拼接到基因组中。例如,2022 年,剑桥麻省理工学院的基因组工程师 Omar Abudayyeh 和 Jonathan Gootenberg 及其同事首次描述了通过位点特异性靶向元件 (PASTE) 进行可编程添加,这种方法可以精确插入多达 36 千碱基的 DNA[8]。Cong说,PASTE在培养的、患者来源的细胞的离体修饰方面特别有前景,并且潜在的初免编辑技术已经进入了临床研究的轨道。但对于人体细胞的体内修饰,SSAP可能提供更紧凑的解决方案:体积较大的PASTE机器需要三个独立的病毒载体进行递送,这可能会降低相对于双组分SSAP系统的编辑效率。也就是说,即使是相对低效的基因替代策略也足以减轻许多遗传疾病的影响。这些方法不仅与人类健康有关。由北京中国科学院的Caixia Gao领导的研究人员开发了PrimeRoot,这是一种使用Prime Editing引入特定靶位点的方法,酶可以使用这些靶位点在水稻和玉米中插入多达20千个碱基的DNA[9]。Gao认为,该技术可用于赋予作物抗病性和抗病原体性,继续推动基于CRISPR的植物基因组工程的创新浪潮。“我相信这项技术可以应用于任何植物物种,”她说。四、脑机接口
帕特·贝内特(Pat Bennett)的语速比一般人慢,有时可能会用错词。但鉴于其罹患运动神经元疾病,也称为肌萎缩侧索硬化症,以前的她甚至无法用语言表达自己,现在这是一项了不起的成就。贝内特的康复得益于斯坦福大学神经科学家弗朗西斯·威利特(Francis Willett)及其在美国BrainGate联盟的同事开发的复杂脑机接口(BCI)设备[10]。威利特和他的同事在贝内特的大脑中植入电极来跟踪神经元活动,然后训练深度学习算法将这些信号转化为语音。经过几周的训练,Bennett 每分钟能够从125,000个单词的词汇量中说出多达 62 个单词——是普通英语使用者词汇量的两倍多。“他们交流的速度真的令人印象深刻,”在宾夕法尼亚州匹兹堡大学开发BCI技术的生物工程师Jennifer Collinger说。五、超分辨技术
Stefan Hell、Eric Betzig 和 William Moerner 因突破限制光学显微镜空间分辨率的“衍射极限”而获得 2014 年诺贝尔化学奖。由此产生的细节水平——在数十纳米的量级——开启了广泛的分子尺度成像实验。尽管如此,一些研究人员仍然渴望更好,而且他们正在迅速取得进展。“我们真的在努力缩小从超分辨率显微镜到冷冻电子显微镜等结构生物学技术的差距,”德国普兰埃格马克斯普朗克生物化学研究所的纳米技术研究员Ralf Jungmann说,他指的是一种可以以原子级分辨率重建蛋白质结构的方法。2022 年底,哥廷根马克斯·普朗克多学科科学研究所 Hell 及其团队领导的研究人员使用一种名为 MINSTED 的方法首次涉足这一领域,该方法可以使用专门的光学显微镜以 2.3 万亿的精度(大约四分之一纳米)解析单个荧光标记[13]。较新的方法可提供与传统显微镜相当的分辨率。例如,Jungmann 和他的团队在 2023 年描述了一种方法,其中单个分子用不同的 DNA 链标记[14]。然后用染料标记的互补DNA链检测这些分子,这些DNA链瞬时但重复地与相应的靶标结合,从而可以区分单个荧光“闪烁”点,如果同时成像,这些点会模糊成一个斑点。这种通过顺序成像 (RESI) 方法增强的分辨率可以解析 DNA 链上的单个碱基对,从而使用标准荧光显微镜证明其分辨率为 ångström 尺度。由德国哥廷根大学医学中心的神经科学家Ali Shaib和Silvio Rizzoli领导的团队开发的一步纳米级扩展(ONE)显微镜方法并没有完全达到这种分辨率水平。然而,ONE显微镜提供了一个前所未有的机会,可以直接对单个蛋白质和多蛋白质复合物的精细结构细节进行成像,无论是在分离中还是在细胞中[15]。六、细胞图谱
如果您正在寻找方便的咖啡馆,Google 地图可以找到附近的选项并告诉您如何到达那里。在更复杂的人体景观中导航没有等价物,但各种细胞图谱计划的持续进展——由单细胞分析和“空间组学”方法的进步提供支持——可能很快就会提供生物学家渴望的组织尺度下的细胞图谱。这些计划中规模最大,也许也是最雄心勃勃的,是人类细胞图谱(HCA)。该联盟于2016年由英国欣克斯顿Wellcome Sanger研究所的细胞生物学家Sarah Teichmann和加利福尼亚州南旧金山生物技术公司Genentech的研究和早期开发负责人Aviv Regev发起。它包括近100个国家的约3,000名科学家,使用来自10,000名捐赠者的组织。但HCA也是细胞和分子图谱交叉工作的更广泛生态系统的一部分。其中包括由美国国立卫生研究院资助的人类生物分子图谱计划(HuBMAP)和通过推进创新神经技术(BRAIN)倡议进行脑研究的细胞普查网络(BICCN),以及由华盛顿州西雅图艾伦研究所资助的艾伦脑细胞图谱。斯坦福大学基因组学家、HuBMAP指导委员会前联合主席迈克尔·斯奈德(Michael Snyder)表示,这些努力在一定程度上是由能够在单细胞水平上解码分子含量的分析工具的开发和快速商业化推动的。例如,Snyder的团队经常使用位于加利福尼亚州普莱森顿的10X Genomics的Xenium平台进行空间转录组学分析。该平台每周可以一次调查 4 个组织样本中大约 400 个基因的表达。基于多重抗体的方法,例如位于马萨诸塞州马尔堡的Akoya Biosciences的PhenoCycler平台,使该团队能够以单细胞分辨率跟踪大量蛋白质,从而实现3D组织重建。其他“多组学”方法允许科学家同时分析同一细胞中的多个分子类别,包括RNA的表达、染色质的结构和蛋白质的分布。七、3D打印纳米材料
在纳米尺度上可能会发生很多奇怪而有趣的事情。这可能使材料科学预测变得困难,但这也意味着纳米级建筑师可以制造出具有独特特性的轻质材料,例如增加强度、与光或声音的特定相互作用以及增强的催化或能量储存能力。有几种策略可以精确地制作这种纳米材料,其中大多数使用激光来诱导光敏材料的图案化“光聚合”,并且在过去几年中,科学家们在克服阻碍更广泛采用这些方法的局限性方面取得了相当大的进展。参考资料[1] Ferruz, N., Schmidt, S. & Höcker, B. Nature Commun. 13, 4348 (2022).[2] Munsamy, G., Lindner, S., Lorenz, P. & Ferruz, N. ZymCTRL: A Conditional Language Model for the Controllable Generation of Artificial Enzymes (MLSB, 2022).[3] Watson, J. L. et al. Nature 620, 1089–1100 (2023).[4] Ingraham, J. B. et al. Nature 623, 1070–1078 (2023).[5] Krishna, R. et al. Preprint at bioRxiv https://doi.org/10.1101/2023.10.09.561603 (2023).[6] Rössler, A. et al. Preprint at https://arxiv.org/abs/1901.08971 (2019).[7] Li, Y., Zhang, C., Sun, P., Qi, H. & Lyu, S. Preprint at https://arxiv.org/abs/2103.02018 (2021).[8] Yarnall, M. T. N. et al. Nature Biotechnol. 41, 500–512 (2023).[9] Sun, C. et al. Nature Biotechnol. https://doi.org/10.1038/s41587-023-01769-w (2023).[10] Willett, F. R. et al. Nature 620, 1031–1036 (2023).[11] Metzger, S. L. et al. Nature 620, 1037–1046 (2023).[12] Sharlene, N. et al. Science 372, 831–836 (2021).[13] Weber, M. et al. Nature Biotechnol. 41, 569–576 (2023).[14] Reinhardt, S. C. M. et al. Nature 617, 711–716 (2023).[15] Shaib, A. H. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.08.03.502284 (2023).[16] Sikkema, L. et al. Nature Med. 29, 1563–1577 (2023).[17] Saha, S. K. et al. Science 366, 105–109 (2019).[18] Ouyang, W. et al. Nature Commun. 14, 1716 (2023).[19] Saccone, M. A. et al. Nature 612, 685–690 (2022).[20] Hahn, V. et al. Nature Photon. 16, 784–791 (2022).
向下滑动查看