Nature子刊:刘洋彧、Rob Knight等评测不同宏基因组物种定量方法及其对结果的影响
随着越来越多的研究揭示出微生物组与人体健康的密切关系,宏基因组测序尤其是全宏基因组鸟枪法测序(whole metagenome sequencing,WMS)作为微生物组学最重要的研究手段之一被学术界、工业界广泛使用。为了解读高通量WMS数据,许多用于物种分类的生物信息学工具被开发出来,而这其中能够避免拼接等繁重计算任务的MetaPhlAn、Kraken、PathSeq等在大量宏基因组研究种被应用。但是目前在正确评价和使用这些生信工具以及解读相应的输出结果方面并没有引起足够的重视。比如,不同工具的输出结果之间具有很大的差异,研究人员往往将其归因于不同工具所用数据库的差别。但是我们发现,不同生信工具输出的“丰度类型”存在根本性的差别,是生信工具之间分析结果差异产生的本质原因之一。忽视和混淆这一丰度类型的差别,将改变生信工具性能评价的结果,并深刻影响对宏基因组测序数据的解读。另外,该问题也会严重阻碍荟萃研究,影响跨研究之间结果的可比性,并导致微生物组研究在临床医学转化上的困难。
2021年5月13日,哈佛大学医学院刘洋彧团队与加州大学圣地亚哥分校Rob Knight团队在Nature Methods上发表了题为Challenges in Benchmarking Metagenomic Profilers的论文。该研究通过数据模拟,对宏基因组物种分类工具的输出结果进行了深度解读,创造性的提出了基于不同丰度类型(基于序列或基于物种分类相对丰度)的双重评价标准,为解决微生物组研究中如何选择宏基因组学物种分类工具的问题提供了重要依据,也对微生物组标准化研究提出了一系列建设性的意见。
模式图:基于物种分类(标记基因,如MetaPhlAn2)和基于序列方法(如Kraken2)对物种分类定量产生巨大差异,主要受微生物基因组大小影响。
在宏基因组测序分析中,序列(sequence)丰度和物种(taxonomic)丰度是两种截然不同的相对丰度类型。前者序列(sequence)丰度是计算属于某一物种经过测序后的DNA在整个菌群DNA中的百分比,而后者物种(taxonomic)丰度则代表某一物种的个体数量在菌群总个体数中的百分比。宏基因组学物种分类工具可根据其使用数据库的类型而分为三类:DNA-to-DNA,DNA-to-Protein,DNA-to-Marker。通过设计一个简单的模拟菌群,我们发现不同类型工具输出的相对丰度类型并不统一,比如DNA-to-DNA方法的(代表软件Kraken和Bracken)输出丰度类型为序列丰度,而DNA-to-Marker方法的(代表软件MetaPhlAn和mOTUs)输出的丰度类型为物种丰度(如下图1所示)。
图1. 三种物种定量方法的比较。a. 模式图;b. 两种基因组的模拟群落;c. 不同软件定量的结果。
通过模拟数据,研究人员将序列丰度和物种丰度分别作为金标准,对不同的宏基因组学物种分类工具进行评价,结果发现,在以序列丰度为金标准时,DNA-to-DNA方法的表现优于DNA-to-Marker方法,而在以物种丰度为金标准时,结果则相反。因此,物种分类软件的表现与测评时作为金标准的相对丰度类型有很大关系。
混淆序列丰度与物种丰度会对宏基因组数据的解读产生四个方面的重要影响:
1. 在解析物种构成方面:如果使用序列丰度作为解读标准,将高估大基因组物种并且低估小基因组物种在菌群中的真实数量。在复杂的菌群中,微生物基因组的大小存在很大的差别,只在细菌内部,理论上基因组的差别就可以达到100倍,而跨物种(如病毒和真菌)微生物基因组的差别更无法估量。理解序列丰度和物种丰度,对临床诊断病原菌过程中如何设置阈值十分关键。
2. 在alpha多样性方面:与使用物种丰度相比较,如果使用序列丰度作为解读标准,将会整体上降低样本的alpha多样性(Shannon, Simpson and Pielou’s evenness index),但这一改变并不是严格一致的,部分样本的alpha多样性反而会升高。在当前宏基因组研究受样本量局限的情况下,这将会导致微生物样本alpha多样性的排序混乱,进而影响到alpha多样性在个体和组间比较的一致性和可重复性。
3. 在beta多样性方面:通过设计模拟菌群,我们基于不同beta多样性分析方法(BC,rJSD,L1,L2,rAD)比较了以两种不同相对丰度为基础的样本间关系,通过检验我们发现序列丰度所描述的样本间关系与物种丰度所描述的样本间关系存在差别,相关性为0.51-0.94。因此,以不同生信工具输出结果为下游分析起点,可能得到不同的样本间或组间关系。
4. 在排列分析(ordination analysis)方面:排列分析是宏基因组常用的分析手段,通过将N维的物种构成数据降低到两维或者三维来比较和展示个体或组间的差异。对于同一批样本,基于序列丰度和基于物种丰度的排列分析所产生的结果相差很大,无论是NDMS, PCoA, t-SNE或UMAP方法所产生的二维散点图,其经过一致性分析后,都表现出很大的差异性。也就是说,在基于不同生信工具所产生的下游分析中,有可能发生组间差异无法重复的情况。
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”