iMeta | 南科大夏雨组综述二三代宏基因组分析的策略和工具(Illumina & Nanopore)
点击蓝字 关注我们
基于illumina & Nanopore集成的微生物组学
宏基因组数据分析的策略和工具
原文链接DOI: https://doi.org/10.1002/imt2.72
综 述
●2023年1月9日,南方科技大学夏雨团队在iMeta在线发表了题为“Strategies and Tools in illumina & Nanopore-integrated metagenomic analysis of microbiome data”的文章。
● 本综述旨在为那些对宏基因组分析中的illumina短读(Short Reads, SRs)和Nanopore长读(Long Reads, LRs)测序整合感兴趣或正在努力的研究人员提供一个及时的知识框架。本综述提出的讨论将促进对自然、工程和人类微生物组的群落功能和组装的生态学理解的改善,使来自多个学科的研究人员受益。
● 第一/通讯作者:夏雨(xiay@sustech.edu.cn)
● 合作作者:李响、吴子麒、聂采龙、程战文、孙瑜鸿、柳雷、张彤
● 主要单位:南方科技大学工学院环境科学与工程学院、香港大学环境微生物组工程和生物技术实验室、广东省土壤与地下水污染控制重点实验室
亮 点
● 文章系统地提供了一个整合Nanopore长读长测序和illumina短读长测序的宏基因组学分析的知识框架
● 文章整合汇总了基于illumina & Nanopore集成的微生物组学宏基因组数据分析的常见策略
● 文章总结了illumina和Nanopore测序算法基础和工具的应用属性
摘 要
宏基因组学策略是对天然和工程微生物系统中的新型生物资源(如工业酶和生物活性分子)和生物危害(如病原体和抗生素抗性基因)进行生态探索的基础,涉及了多个学科。最近测序技术的进步促进了微生物组研究领域的快速发展,越来越多的研究在其宏基因组工作流程中同时应用illumina短读(Short Reads, SRs)和Nanopore长读(Long Reads, LRs)测序。然而,鉴于环境微生物组的高度复杂性以及这些测序技术的独特功能所带来的生物信息学挑战,整合SRs 和LRs 并不像人们想象的那样简单。现有工具的快速更新和新算法的日益多样化使得进入这一领域更加困难。因此,我们在这里系统地总结了从 DNA 提取到数据处理策略的完整工作流程,以便使读者能够在环境微生物组的调查中更好的开展综合illumina & Nanopore 测序的宏基因组学研究。总的来说,本综述旨在为那些对宏基因组分析中的SRs 和LRs整合感兴趣或正在努力的研究人员提供一个及时的知识框架。所提出的讨论将促进对自然、工程和人类微生物组的群落功能和组装的生态学理解的改善,使来自多个学科的研究人员受益。
视频解读
Bilibili:https://www.bilibili.com/video/BV148411G74m/
Youtube:https://youtu.be/CjkYaY5mHyY
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/
全文解读
引 言
从微生物组的角度研究微生物,对于了解微生物在人类、植物和自然环境中的功能和生物过程的影响和意义具有显著的优势。在过去的十年中,宏基因组测序的建立,使人们能够不依赖与分菌,探索各种自然和工程微生物群落中的微生物生物多样性和功能。然而,不均匀的群落组成和基因组的微观多样性使得用illumina短读序列对复杂的微生物组进行宏基因组从头组装变得非常困难。牛津Nanopore技术(ONT)可以产生足够长的长读数,以跨越微生物基因组上的大部分重复区域,从而大大增加组装的连续性。然而,Nanopore组装的基因组上持续存在的错误阻碍了其作为参考基因组的适用性。为了结合这两种测序平台的优势,越来越多的微生物组研究在其生物信息学分析中采用了Nanopore LRs和illumina SRs相结合的方式,简称为综合宏基因组学方式。例如,Nanopore LRs的加入极大地改善了人类肠道微生物群宏基因组组装的连续性,这有利于检测更多的结构变异(SV)类型。以此为基础,研究人员发现SVs的轮廓在个体之间高度不同,在个体内部也很稳定,这可以作为肠道微生物组的指纹来在肠道物种中呈现与功能相关的菌株水平差异。与高错误率的Nanopore LRs或高精度的illumina SRs的单独组装相比,用二者结合的混合组装方法对单菌进行基因组组装显示出明显的优越性。但鉴于这两种技术的现有局限性和相关的生物信息学算法缺陷,将LRs 和SRs整合到真实的负责群落的宏基因组数据分析中并不是那么简单的。一般来说,很难为特定的研究目的确定最佳的整合策略(图1)(每种策略的优点和缺点将在后续章节中详细讨论)。
因此,本综述比较和总结了最近一些实施这种综合宏基因组学的里程碑式工作。正如本综述将根据从文献中获得的信息和作者之前分析综合宏基因组数据集的经验,对分析工作流程提出了一些大胆的建议。最后要向读者说明的一点是,这里讨论的综合宏基因组学方法仍处于发展的早期阶段,在写这篇评论的时候,它还会有快速的变化。尽管支撑知识框架的基本思想是可靠的,但它仍然受到生物信息学和生物技术发展的影响,如新型组装算法的引入或未来Nanopore LRs的精度提高所带来的变化。
基于illumina 和Nanopore的宏基因组学在微生物组研究中的优势和限制
从样品中提取满足将要使用的测序系统建库要求的核酸(RNA 或 DNA)是构建 illumina 和Nanopore文库的基础。制备 illumina 文库所需的起始 DNA浓度低,再加上容易获得的低成本商业 illumina SRs 测序服务,大大促进了其在宏基因组微生物调查中的广泛应用。虽然目前Nanopore测序的总体成本仍明显高于illumina测序,但即时测序带来的快速周转时间和多样化的测序场景,以及较低的仪器要求,使其在特定的研究目的中具有不可替代性,如跟踪疫情,以及对偏远地区的现场微生物组监测等。除此之外,新型Nanopore测序方法为微生物组研究提供了新的思路。例如,使用 ReadUntil 方法,研究人员能够有选择地消除宿主基因组序列,从而在一个群落内进行精确控制的定向测序。然而,目前应用 ReadUntil 研究天然微生物组的挑战是普遍缺乏已知的参考基因组。最近,MetaRUpore (https://github.com/sustc-xylab/metaRUpore)提出了一种通过短时长正常测序来获得参考基因组的新型策略,并从厌氧消化反应器和人类肠道的微生物组中获得了更多稀有物种的近完整MAGs。此外,直接RNA 测序能够在 RNA 水平上捕获群落多样性以及基因组修饰信息,从而实现了对RNA 病毒的天然基因组形态的直接表征。表 1 总结了基于 illumina 和Nanopore的宏基因组学在微生物组研究中的详细优点和缺点。
表1. 基于 illumina和Nanopore的宏基因组学在微生物组研究中的优势和局限
微生物组学中基于illumina 和Nanopore的综合宏基因组学数据的生物信息学分析策略
类似于经典的宏基因组分析,illumina & Nanopore 整合的综合宏基因组数据分析有两种分析路径:第一种被称为 "Genome-centric "的方法,即根据覆盖率差异或基因组特征(如四核苷酸频率),将群落内不同微生物的基因组相互分离,从而得到基因组草图(MAG)。Genome-centric的 illumina & Nanopore 综合宏基因组学方法的目标是获得高质量的 MAGs(定义为完整度>90%,污染<5%和完整的 16S rRNA操作子),以便在基因组水平上阐明微生物生态学的最终问题——谁在群体中做什么。分析宏基因组数据集的另一条途径是无组装的 "Gene-centric"。这种方法的目标是尽可能多地检索群落的功能多样性,而不是像 "Genome-centric "的方法那样实现功能与特定MAG之间的最大关联。
基于组装的 "Genome-centric "战略
宏基因组从头组装是 "Genome-centric"方法的核心步骤。它不仅决定了后续宏基因组分箱分析的表现,而且在很大程度上决定了完成整个分析工作流程所需的计算资源(RAM和核心时间)。到目前为止,已经提出了两种组装策略来实现这一关键的组装步骤,即混合组装和Nanopore主导的组装(分别显示为图 1 中 "Genome-centric"一侧的绿色和蓝色部分)。顾名思义,在混合组装策略中,illumina SRs 将与Nanopore LRs 组装在一起。metaSPAdes和 Unicycler代表了迄今为止实现这种混合组装算法的最常用工具,其中Nanopore LRs将被用来促进解决illumina SRs的共识组装图中的重复。值得注意的是,Liu等人报告了迭代混合组装(IHA)在检索群落内不同丰度 MAG 方面的有效性。在IHA方法中,第一轮获得的合格 MAGs 中包含的 illumina SRs 和 nanopore LRs 将被排除在第二轮混合组装和分箱之外,这一步骤可以降低序列数据的复杂性来提高第二轮组装中稀有物种的MAGs回收率。沉重的计算要求是这种混合组装策略的主要缺点。据推测,由于易出错的Nanopore LRs序列复杂度高,将Nanopore LRs 整合到 illumina SRs 的从头组装工作流程中会迅速占用 RAM,并大大增加完成分析所需的核心时间。例如,在 512Gb 内存的服务器上,将 1Gbp 的Nanopore LRs 与10Gbp 的illumina SRs整合在一起会导致metaSPAdes混合组装的 "core dump"错误,而单独组装 30Gbp的illumina SRs 则是可以顺利完成的。因此,可以预见,对于拥有常规计算资源的实验室来说,要对复杂微生物群落完成这样的混合组装不可避免的需要对数据集进行是随机采样(random subsampling)或者基于系统发育分区的采样。
相对的以Nanopore 主导的从头组装思路怎能一定程度上规避混合组装策略的计算限制。与混合组装不同,Nanopore主导的组装方法的初级组装是由Nanopore LRs 数据集单独的从头组装得出的。Miniasm和 Canu是此类Nanopore单独宏基因组组装中最流行的工具。对于大多数宏基因组数据集来说,Canu可以组装到最高数量的基因组信息(以Contig 大小计算),然而,Canu 的计算需求比其他工具要高很多。因此,一些研究人员建议在进行 Canu 组装之前,先对Nanopore数据集进行至少一轮的自我修正,以提高序列的准确性并减少数据的大小。此外,metaFlye 的重复图谱简化步骤在解决群落微观多样性方面显示出明显的优势,它产生了具有大面积共享保守区的菌株级基因组。接下来,MAGs 可以通过分箱分析从Nanopore组装的contigs中得到。考虑到要获得微生物组的完整基因组图谱,一个实际的建议是将从不同组装工具中获得的极长contig(>1 Mbp)直接作为MAGs。之后,应进行三轮校正步骤以提高基因组的可靠性。通常,第一轮校正是 LRs 的自我校正,LRs 将被重新排列到MAGs上以得到consensus 序列,由 Medaka 或 Racon 等工具可以完成这个一步校正。第二轮校正是illumina SRs 被整合到工作流程中的步骤。SRs 将被映射到MAGs上,以纠Indel错误,Pilon是目前这一步校正中使用最多的工具。虽然 minimap2在比对时表现出了出色的速度,但通过BWA-MEM 的比对结果更为完整,基于BWA-MEM的 Pilon校正也识别更多的Indel 错误。鉴于illumina 数据集的巨大规模,这个SRs 校正步骤通常是整个校正分析中最耗时的步骤。此外,Loose 等人曾指出,Racon 的共识算法可以进一步减少 Pilon 校正后基因组上的 Indel 错误,这表明illumina SRs 的校正仍有进步空间,比如近期提出的Polypolish 工具就能够识别更多的Indel 错误。最后一轮校正是帧移校正步骤,首先将contig与蛋白数据库进行比对,例如NCBI Refseq_protein数据库,用 Diamond或者LAST的帧移识别算法(frame shift-aware)来进行 DNA到蛋白质的比对。接下来,根据比对中报告的阅读框移位的位置,将Ns插入到contigs中以修复移位。MEGAN6-LR的社区版可以根据 Diamond 生成的 bam 文件进行这种校正,而基于 LAST比对结果的类似校正可以由FUNpore实现。修正后的 MAGs 可以使用常规的基因组质量和注释工具进行评估和注释,如 GTDB-Tk, CheckM或 Prokka 。如果在你的Nanopore从头组装时使用了多个组装软件,应前通过dRep对重复的MAGs去除或合并能进行注释和定量。还有一点要提到的是,通过基于illumina的宏基因组方法分箱获得高质量的 MAGs 的最大障碍是普遍无法获得包含完整的16S rRNA基因,这可以通过illumina & Nanopore结合的综合宏基因组法得到有效解决。
图1. 用于illumina和Nanopore整合的宏基因组数据分析中常用的生物信息学策略和工具的工作流程
不组装的 "Gene-centric "战略
综合宏基因组数据分析的另一个选择是未组装(assembly-free)的 "Gene-centric"的方法,即直接根据校正的Nanopore LRs 而不是组装的 MAGs 来确定和量化群落的功能多样性。由于相应微生物群体的低覆盖率,宏基因组数据集中的很大一部分Nanopore LRs 不能被组装,因此被排除在基于组装的 "Genome-centric " 的分析之外。如 t-SNE 图所示,在一个部分硝化反应器的微生物群中,可以观察到了一些既没有被混合组装也没有被 illumina独立组装的contig 覆盖的 LRs 的密集簇群 (图 2A)。随着群落多样性的增加,未组装的Nanopore LRs的比例在永久冻土群落中会变得更高(图2B)。这样的组装瓶颈限制了长片段宏基因组学数据的充分利用。鉴于Nanopore LRs的读数长度与组装的contigs相当,LRs本身含有组装策略无法覆盖的基因组信息,因此可以直接对Nanopore LRs 进行分析。例如,基于Nanopore LRs的直接分析,Che等人能够在污水处理厂微生物群系中检测到更多的抗生素抗性基因(ARG)与宿主之间的关联。另外,在活动层冻土群落中通过校正后 LRs 鉴定的宿主种群的系统发育谱比基于组装的方法扩大了40%,促进了甲基单胞菌的好氧甲烷氧化代谢功能的鉴定。因此,综合宏基因组数据挖掘中的 assemble-free 技术值得特别关注,因为它通常可以更好的揭示菌群中无法组装的菌群的代谢功能信息。
图 2. 对生物反应器
(A)和活动层冻土(B)的微生物群落进行 t-SNE分析
基于illumina 和Nanopore的综合宏基因组学分析工具
对生物信息学工具的系统了解对于实施上述分析策略至关重要,本文详细介绍了基于illumina和Nanopore数据的各项工具,详情见正文部分。
在这篇综述讨论中,我们讨论了illumina & Nanopore综合宏基因组微生物分析的完整工作流程。尽管目前存在算法和计算方面的挑战,但这种综合方法仍然是目前促进宏基因组组装和提高基因组分辨率的最有力的策略。许多研究人员已经成功地利用这种综合方法来获得非碎片化MAG。本综述中所涉及的分析程序和生物信息学工具可以解决这一快速发展领域的应用问题。然而,我们不得不承认,未来Nanopore LRs的单碱基精度的进步可能会使Q50 水平的LRs-独立组装成为可能,从而改变综合宏基因组分析的格局。此外,在2022年9月,illumina公司展示了其高性能长读长测序平台的性能,被称为illumina complete LR。这些证据加在一起,预示着未来的基因组学研究,包括宏基因组研究的将普遍独立采用LRs测序技术。目前,LRs-alone微生物组研究的主要制约因素是所需的覆盖率不足,无法确保有效地组装一个具有不均匀分布的微生物群落。为了克服这一瓶颈,除了开发专门针对宏基因组特征优化的从头组装算法外,在每个碱基准确性方面的技术进步也是至关重要的。
引文格式:
Yu Xia, Xiang Li, Ziqi Wu, Cailong Nie, Zhanwen Cheng, Yuhong Sun, Lei Liu, Tong Zhang. 2022. Strategies and tools in illumina and nanopore‐integrated metagenomic analysis of microbiome data. iMeta 1: e72. https://doi.org/10.1002/imt2.72
作者简介
夏雨(第一/通讯作者)
● 南方科技大学环境科学与工程学院副研究员,博士生导师
● 环境微生物与生态基因组学实验室负责人。近五年来在The ISME Journal, Environmental Science & Technology, Water Research , iMeta等顶级期刊发表论文40余篇,总引用次数 2800余次(Google Scholar),作为第一发明人申请发明专利3项。现任中国工程院院刊Frontiers in Environmental Science副主编,iMeta, Engineering、Frontiers in Energy Research编委会成员。应邀在国际会议做报告20余次,1次担任分会主席,1次大会报告;曾担任南方科技大学教授委员会环境科学与工程学院代表委员,美国微生物协会香港地区青年大使
更多推荐
(▼ 点击跳转)
高引文章 ▸▸▸▸
iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法
▸▸▸▸
iMeta | 浙大倪艳组MetOrigin实现代谢物溯源和肠道微生物组与代谢组整合分析
▸▸▸▸
iMeta | 高颜值绘图网站imageGP+视频教程合集
第1卷第1期
第1卷第2期
第1卷第3期
第1卷第4期
期刊简介
“iMeta” 是由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 15)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!
联系我们
iMeta主页:http://www.imeta.science
出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
邮箱:office@imeta.science