查看原文
其他

Nature子刊 | 余珂团队拓展揭秘微生物暗物质面纱的工具箱


地球上生活着大约800-1000万种微生物。然而,从微生物发现至今的300多年间,人类分离培养的微生物不足2万种,这暗示着未被人类发现或培养的微生物类群占到地球所有微生物类群的99%以上。这些类群主要来自于各种生境的低丰度(低细胞数)物种,它们被类比为微生物“暗物质”。近十年来,高通量测序技术的发展赋予了研究者不依赖于微生物的纯培养,仅通过对环境样品进行直接测序及分析即可获得这些微生物基因组的能力。宏基因组分箱(Binning)方法是实现从测序数据中直接获取微生物基因组最为重要的分析技术之一,其可对微生物“暗物质”及其功能进行资源化,为挖掘未知的微生物功能类群(如肠道疾病治疗、环境修复可用类群等),并解析它们潜在的具有药用或环境价值的生物合成和降解基因簇(如新型抗生素、抗菌肽、可降解塑料等)提供了重要的方法学基础。然而,现阶段从二代和三代宏基因组测序数据中恢复宏基因组组装的基因组(Metagenome-assembled genomes, MAGs),特别是对于低丰度微生物基因组的恢复效率仍然很低。2024年3月,我院余珂助理教授研究团队在Nature Communications (NC)上发表了题为“BASALT refines binning from metagenomic data and increases resolution of genome-resolved metagenomic analysis” 的研究论文,该研究中开发的软件BASALT(Binning Across a Series of AssembLies Toolkit)可对二代和三代宏基因组序列进行高效分箱和优化,并最终实现了对宏基因组测序数据的高效利用,大量获取了低丰度微生物的基因组。这一突破性的研究进展将为深入了解微生物世界的奥秘、挖掘其应用潜力提供重要的方法学基础。


BASALT软件运用并整合了多个主流的分箱软件,利用基于深度学习开发的核心序列识别算法找出组装后基因组的核心序列,进行去冗余、去污染、片段找回等一系列基因组优化步骤,可以显著提高MAGs质量和菌株水平的分辨率。此外,BASALT还将三代测序的长片段序列应用至上述一系列优化步骤中,大大提高了三代测序数据的利用效率。以标准数据集进行测试的结果表明,BASALT可获得较其他同类软件(VAMB [Nature Biotechnology, 2021],DAStool [Nature Microbiology, 2018],MetaWRAP [Microbiome, 2018])2倍以上的高质量基因组。更为重要的是,在对盐碱湖表层沉积物的实际样品数据进行解析的结果显示,BASALT对低丰度基因组的识别灵敏度较前述三个软件提高了一个数量级,这为人类发掘存在于特定环境中的低丰度物种、利用微生物“暗物质”资源提供了崭新的技术方法。



在开发此软件后,余珂团队将BASALT技术应用于多种样品,包括垃圾渗滤液处理场、可高效除氮的藻菌共生体、厌氧氨氧化反应体系、中国西北部盐碱湖泊的微生物组的解析之中,这些研究不仅发现了5000余种新型的微生物物种,还解析了细菌与古菌之间、藻类与细菌之间的多种物质交换关系。同时,研究团队也发现了大量的生物合成和降解基因簇。相关研究分别发表在环境科学与工程领域的顶级期刊Water Research (Nature index期刊,WR; Wat. Res., 2024, 253:121310),Environmental Science & Technology (Nature index期刊,ES&T; Env. Sci. & Tech., 2024, in press), Environmental International (EI; Env. Int., 2024, 185, 108505),及Environmental Science and Ecotechnology (ESE; Env. Sci. & Eco., 2024, 20, 100359)之中。这些研究都印证了BASALT技术强大的宏基因组分箱能力,将为未来进一步发掘这些体系中的微生物“暗物质”提供技术支撑。


以上研究得到了我院生态环境与资源效率研究实验室倪晋仁院士的大力支持,获得了信息工程学院田永鸿教授、陈杰副教授、袁粒助理教授在深度学习模型开发上的支持。我院接续研究学者计划——南燕特聘副研究员仇知光博士(NC、ESE),在读博士研究生耿燕妮(ES&T),已毕业博士研究生邓春芳(WR),乔雪姣博士(EI,在站博士后)等为论文的第一作者;张丽娟博士(EI)等为部分论文的共同通讯作者;余珂为以上论文的唯一通讯作者(NC、WR、ESE)或共同通讯作者(ES&T、EI)。相关研究得到了包括国家重点研发计划(项目号:2021YFA1301300)、国家自然科学基金青年基金项目(项目号:51939009)等项目的资助。


主要作者简介



仇知光,博士,北京大学深圳研究生院环境与能源学院,接续研究学者计划——南燕特聘副研究员,主要从事环境微生物组研究。主要研究方向包括:1)极端环境微生物的生物地球化学循环途径和进化机制;2)运用人工智能技术和生物信息学方法加速极端环境微生物的生物合成与降解潜力发掘。通过揭示极端环境微生物的功能代谢特点,发展其在生物医药、环境修复和能源转换等多方面的应用潜力。在微生物生态、功能探索、资源挖掘与应用等方面取得一系列成果,发表论文30余篇,其中,以第一或通讯作者在Nature Communications、Biotechnology Advances、Environmental Science & Ecotechnology等国内外相关领域高水平期刊上发表了多篇研究论文。




余珂,助理教授,北京大学深圳研究生院环境与能源学院,环境工程、计算机应用技术双学科专业博士生导师。研究方向主要关注于极端环境、环境工程及人体系统的微生物,开发1)痕量遗传物质采集、提取及测序技术,2)基于人工智能技术的多宏组学软件、算法、分析流程及可视化系统,3)以信息学技术为支撑的多组学高精度数据解析和定向富集培养技术及4)耦合合成微生物学和合成生态学的微生物群落改造或强化技术,以此发掘地球演化过程中的罕见或特殊微生物类群及其在特殊生物制剂(制药等)生产、环境修复与改造中的应用潜能。目前已发表论文80余篇,以第一作者或通讯作者的身份在Nature Communications、Microbiome、Environmental Science & Technology、Water Research等微生物组学、环境科学与工程等多个领域的期刊发表了多篇论文,总他引次数3600余次,他引H指数29。


论文背后的故事(paper story-telling)


来自过往研究的启发。我的研究领域为环境微生物与生物信息学,在我读博士期间有幸见到了现代微生物生态学的创始人之一James Tiedge教授,他告诉我一个有趣的类比:我们所做的环境微生物研究类似于天文学研究。在天文学领域,学者们依赖望远镜技术去观测星空;天文学家有越精密的望远镜,他们所看见的星空就越深远。这一比喻带给我非常大的研究启迪,自此,我开始意识到方法学开发对环境微生物研究的重要性。好的方法学工具,是我们获得新科学认识的重要途径,也会助力发现新的、且可能更为罕见的未知微生物。十年前,我从香港大学环境工程专业获得博士学位,随后进入了加州大学伯克利分校,跟随美国工程院院士Lisa Alvarez-Colin教授进行博士后研究。在此期间,导师Lisa与美国科学院院士 Jill Banfield教授的科研合作间接启发了我后续从事的跨学科研究。Jill是一位杰出的微生物学家,同时也是宏基因组学研究的先驱者之一,为表彰Jill对微生物学的贡献,她本人在2023年获得了的荷兰皇家学会每十年才颁发一次的列文虎克奖章(编者注:列文虎克奖(Leeuwenhoek Medal and Lecture),以荷兰显微镜学家“微生物学之父”Antonie Van Leeuwenhoek FRS的名字命名,并由George Gabb捐赠,旨在表彰微生物学领域,以及在细菌学、病毒学、真菌学和寄生虫学以及显微镜学方面获得卓越成就的人)。初见Jill,她向我热情地介绍了其构建的可视化系统(ggkbase),该系统让即使是从未做过宏基因组的新手在几分钟内便可将宏基因组的核心技术-分箱分析完成。Jill以此为乐,在圣诞节时她依然在家里使用ggkbase系统,寻找她感兴趣的微生物基因组。这一短暂会面让我深深地被Jill对学术研究的热情及其宽广的研究视野所折服。更重要的是,她让我具象化地理解了James Tiedge教授提到的研究工具(方法)对前沿探索的重要性。因此,在2016年有幸加入深研院独立工作之后,我开启了自己真正感兴趣的研究领域——以新型宏基因组技术开发驱动微生物“暗物质”的挖掘。


初期构建课题组充满了各种难度与不确定性。我们课题组的研究方向为环境工程、微生物学及信息学三个领域交叉的学科,并将分子生物学、宏基因组学和生物信息学及其相关软件的开发相结合作为课题组整体的研究体系,以此落脚于我热爱的微生物“暗物质”挖掘。以新型方法的开发支撑稀有、具有应用潜力微生物的发掘作为研究主题,具体分解为以下三个部分:1)构建基于分子生物学及AI技术为支撑的生物信息学技术,以期从极端环境中发现稀有微生物;2)通过构建原核操纵子识别技术,从稀有微生物中识别操纵子序列以发掘新型的生物合成或降解基因簇,进而为合成生物学提供功能基因元件及调控元件;3)通过机器人的自动化实验及AI设计模型,实现从多组学数据中识别微生物的富集或纯培养条件,以期对对有药用、工业、环保具有价值的微生物实现智能化的富集或纯培养,最终实现微生物“暗物质”的资源化。我们的研究体系可以从海量的未知微生物中发掘更多的资源,这将在未来推动我持续深耕重要(Significant)、原创(Creative)且优雅(Elegant)的研究。2016年至今,课题组前往中国西北部(西藏、青海、新疆、内蒙等)近120个盐碱湖泊的水体、底泥、部分海洋及湖滨带进行样品采集工作,获取了目前为止世界上最全的不同盐碱度环境样品的微生物样品及测序数据。与此同时,我们还利用少量的人力资源开展了宏基因组软件开发研究以及实验室内辅助高效捕获稀有微生物培育的分子生物学技术及其富集培养实验。过去几年的研究积累给我提供了深度学习所需要的数据基础及初步算法开发基础,而坚持对分子生物学技术的开发也弥补了仅有数据和算法的缺陷,这些跨学科研究的坚持让我对AI for Science科研新范式对学术研究创新的助力有了源自自身实践的认同。


目前,课题组的研究体系仅完成了很小一部分,前述研究论文的产出是我们系统性研究的第一个脚印。“前路漫漫亦灿灿,笃行步步亦驱驱”,希望这个论文背后的故事,能让更多想要进入科研领域的学生明白,因兴趣而研究,方能长远。最后,感谢环能学院、深研院一直以来对我学术研究的支持,感恩一路遇到的多位良师益友和一起奋斗前行的伙伴。



供稿:余珂助理教授课题组

编校:Lilly

本期排版:南燕新闻社 怡宝

本期校对:南燕新闻社 RIO

审核编辑:刘浩楠

审核发布:王可佳 王琳

【南燕育才】获北大国奖!王小权带你解锁科研+公益的双重魅力

PKUSZ PLOG|今日春分,捕捉美好

食堂上新|春光正好,春食不可辜负!

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存