Microbiome: 16S rRNA基因拷贝数应该被校正吗？

宏基因组 2022-03-29

The following article is from 微生态笔记 Author 吴悦妮

摘要：

16SrRNA基因是微生物生态学中应用最广泛的标记基因，通常根据16S测序结果来估计微生物群落中细菌和古菌的比例。然而由于不同生物体含有不同的16S基因拷贝数（gene copy numbers, GCNs），更大GCNs的分支往往会在测序中得到更多的序列，从而使得结果的相对丰度高于实际值。近来，一些基于测序基因组来预测GCNs的方法陆续被开发出来，这些方法使用了系统发育的方法以纠正前述偏差，但其预测的准确性还没有经过评估。本文作者基于6800个公共测序基因组并运用多种系统发育方法，对16S GCNs在细菌和古菌分支上的可预测性进行了系统评估，并在更广泛的类群和来自不同环境的635个微生物群落中，对PICRUSt、CopyRighter、PAPRICA等三个最近公布的方法的预测准确性进行了评估。

结果发现，无论哪种方法，16S GCNs只能准确预测一个有限的分类群（<15% divergence）。一致的是，这些工具在预测全基因组时表现出较低的准确度，在某些情况下，甚至只能解释不到10%。几个测试微生物群落之间的工具也存在很大的误差。微生物群落的最相似序列分类指数（nearest sequencedtaxon index, NSTI），即测序基因组的平均距离，对于非动物相关样本可以进行有力预测，但对于动物相关样本结果稍逊。因此，一般情况下作者不建议在微生物研究中纠正16S GCNs。

1.从系统发育的角度16S GCNS的可预测性

16S GCNs的自相关函数，即在一定的系统发育距离上两个随机挑选的OTU的GCNs之间的相关性，随着系统发育距离的增加而适度衰减（图1A），在系统发育距离约15%的情况下下降到0.5以下，在系统发育进化距离约30%时降为0。因此，16S GCNs的预测对于具有大于约15%的NSTD的分支和接近NSTD大于约30%的分支是不准确的。为了明确测试这一结论，作者基于SIVLA衍生树随机16S GCNs进行预测，并比较了这些预测和从已知的完整测序基因组的GCNs。作者使用了以下常见的两种重建算法预测GCNs：对于CopyRighter和PICRUSt使用PIC算法, 对于PAPRICA使用subtree averaging算法。结果发现所有的预测方法仅实现了NSTD低于15～30%的高精度（图1C），符合原本基于自相关函数的期望。在SILVA衍生的树中，大约49%的OTU具有大于15%的NSTD，并且大约30%的OTU具有大于30%的NSTD（图1B）。由于Silva数据库中自然界的环境微生物群落不是纯随机的取样，因此这些生物一般预测NSTDs会较低。此外，很可能有大量的原核生物尚未被包括在SILVA，例如从最近发现的或尚未发现的一些门，NSTD可能大于30%。因此，基于测序基因组的16S GCNS的预测对于大多数现存的天然环境中的原核分支来说是不准确的，树的拓扑和分支长度的误差可能降低系统发育重建工具的预测精度（图1C）。

图一 16S基因拷贝数的系统发育信号

（SILVA衍生树）

2.第三方预测工具的评估

前面的分析表明，基于可用测序基因组的16S GCNs的系统发育预测对于大量的原核分支来说是不准确的，特别是那些仅具有少数测序代表的物种。这一发现引发了对16S GCNs可以准确预测典型环境群落的质疑，16S GCN校正应该被系统地应用于每一个微生物群落研究。因此，作者测试了PICRUSt v1.1.1、CopyRighter v0.46和PAPRICA v0.4.0b最近出版的三种工具的预测精度。作者进行了两种类型的测试：第一个测试将上述测序基因组的GCNS与基于基因组16S序列的每个工具预测的GCNs进行比较；第二个测试将每个工具的预测与其他两种工具的预测进行比较，对于Greengene 16S rRNA数据库中的所有OTU以及来自不同范围环境中的635个微基因组中发现的原核OTU进行比较。结果发现，三种工具的预测准确度和以真GCNs的解释方差的部分来测量的预测精度通常随着基因组的NSTD而降低（图2）。对于PICRUSt和PAPRICA，R²甚至对NSTD在30%以上都是负的。

图二 GCN预测工具对

已知GCN基因组的评价

不同的工具之间在评估整个Greengene数据库时，预测的GCNs与其他工具的预测中方差最多为25%（图3）。CopyRighter和PICRUSt使用相同的输入基因组和相似的参考树集合，然而所得结果基本不同（图3a）。当考虑依赖于OTU的NSTD工具之间的差异时，发现R²随着NSTD的增加而迅速减小，并且在NSTD低于20%时变成负（图3d-f）。

图三基于Greengenes各工

具之间16S GCN预测的比较

作者用635个样本来比较这三种工具，发现对于任何两种工具来说(CopyRighter vs. PICRUSt,PICRUSt vs. PAPRICA, CopyRighter vs. PAPRICA)，第一工具预测的方差由第二工具（R²）的预测解释低于0.5的超过84%的样本，低于0.1超过55%的样本（图4）。在许多情况下，工具之间的一致性甚至比工具之间不相关的预测更差。在PICRUSt和PAPRICA之间发现了最差的一致性，而CopyRighter和PICRUSt之间发现了最好的（但仍然是不好的）一致性。这进一步加强了文章的结论，现有的GCN预测工具对这些样本中的许多样本表现不佳，即使只考虑与动物相关的样本（例如人类皮肤样本）。动物样本被认为是比其他环境更好的研究，并通常具有较低的NSTIs（加权平均NSTD的OTU），结果发现工具之间仍存在不一致性。一种解释是，即使在人类相关的微体系中，许多具有高NSTD的OTU降低了总体预测精度。事实上结果发现，在大多数样本之间的工具之间的不一致性不是单独由一些特异OTU驱动，而是反映在每个样本中大量OTU的中度到较差的一致性。而对于非动物样本，则趋势更为明显。很可能是由于许多被忽略的分类，尤其是研究不够深入的门类，甚至比一些特异的OTU具有更大的NSTD。

图四 GCNs预测工具在

微生物群落中的一致性

以前的研究曾经使用模拟群落来测试16S GCNs的可预测性，表明正确的校正GCNs可以提高微生物群落组成的估算准确性。因此，使用模拟群落而不是自然群落，可以使GCNs得到很好地预测，因为每一个单位的GCNs都是已知的。

结论：

作者评估了16S GCNs的系统发育保守性，并使用几种常见的系统发育重建算法研究了GCNs的可预测性。其研究结果表明GCNS或许并不能预测大量现存的原核分支。此外，作者评估了三种可用的16S GCN预测工具在一组完全测序基因组上的准确性，以及在Greengene 16S数据库和来自广泛环境的微生物群落中的OTU的准确性。分析结果表明，现有的工具在大部分基因组与OTU测试中表现不佳；对于超过85%被检查的微生物群落，GCN预测在几种工具之间差异很大。因此，由于测序基因组覆盖不足，16S GCN预测对于现存的原核多样性的很大一部分是不精确的，这与通常的假设恰恰相反。因此作者建议，16S GCNs应仅在具有低NSTI（15%）的微生物群落的研究中被校正。

参考文献：

Louca S, Doebeli M, Parfrey L W. Correcting for 16S rRNA gene copy numbers in microbiome surveys remains an unsolved problem[J]. Microbiome, 2018, 6(1): 41.

https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0420-9

中国科学院生态环境研究中心

环境生物技术重点实验室

邓晔研究员课题组发布

作者：吴悦妮

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：生信宝典学术图表高分文章不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板 Shell R Perl

生物科普生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外150+ PI，1500+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

Microbiome: 16S rRNA基因拷贝数应该被校正吗？

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多

生成图片，分享到微信朋友圈

Microbiome: 16S rRNA基因拷贝数应该被校正吗？

猜你喜欢

写在后面

您可能也对以下帖子感兴趣