查看原文
其他

USEARCH11新功能——OTU表抽平otutab_rare

宏基因组 宏基因组 2022-03-28


http://www.drive5.com/usearch/manual/cmd_otutab_rare.html

稀疏、抽平

otutab_rare 抽样OTU比至某个指定数据量,方便比较Alpha多样性,对于抽平后的OTU表,会自动删除不满足样本量的样品,还会去除全为零的OTUs

使用实战

usearch11 -otutab_rare otutab.txt -sample_size 10000 -output otutab10k.txt

主要三个参数,输入文件,抽平至相同的样本量,输出文件

运行输出结果如下:

00:01 43Mb    100.0% Reading otutab.txt 00:02 43Mb    100.0% Rarefying                         Deleted 90 samples size < 10000 Deleted 814 OTUs with size=0 after rarefaction Deleted 90 samples with size=0 after rarefaction 00:04 48Mb   Writing otutab10k.txt ...done.

运行使用了4秒,43Mb内存,有90个样本数据量不到10000,抽平后有814个OTUs为零被删除,同时不满足数据量的90个样品也被删除。

我们统计一下抽样前后的比较

抽样前统计

使用otutab_stats统计OTU表

usearch10 -otutab_stats otutab.txt -output otutab.stat cat otutab.stat

结果如下:样本测序量最小值为5369,最大值有124817

 38748638  Reads (38.7M)      1182  Samples      4996  OTUs   5905272  Counts   4339163  Count  =0  (73.5%)    552758  Count  =1  (9.4%)    316760  Count >=10 (5.4%)        54  OTUs found in all samples (1.1%)       370  OTUs found in 90% of samples (7.4%)      1145  OTUs found in 50% of samples (22.9%) Sample sizes: min 5369, lo 16013, med 25362, mean 32782.3, hi 45569, max 124817

抽样后统计

usearch10 -otutab_stats otutab10k.txt -output otutab10k.stat cat otutab10k.stat

看到样品量全部抽平为10000,但样本量和OTU数量都有下降(删减)

 10920000  Reads (10.9M)      1092  Samples      4182  OTUs   4566744  Counts   3607823  Count  =0  (79.0%)    433338  Count  =1  (9.5%)    124757  Count >=10 (2.7%)        28  OTUs found in all samples (0.7%)       210  OTUs found in 90% of samples (5.0%)       649  OTUs found in 50% of samples (15.5%) Sample sizes: min 10000, lo 10000, med 10000, mean 10000.0, hi 10000, max 10000

综上,此种方法与之前QIIME的single_rarefaction.py命令结果一致。之前usearch10中使用的otutab_norm方式,不会删除低丰度的样品,会出现低样本抽高,alpha多样性偏低,低于抽平数量的样品稀释取线后期直线的问题。在usearch11中新增的otutab_rare是对之前不完善结果的补充。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1800+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存