QIIME 2用户文档. 13数据评估和质控Evaluating and controlling(2018.11)
前情提要
数据评估和质控q2-quality-control
Evaluating and controlling data quality with q2-quality-control
https://docs.qiime2.org/2018.11/tutorials/quality-control/
注:最好按本教程顺序学习,想直接学习本章,至少完成本系列《1简介和安装》和《4人体各部位微生物组分析Moving Pictures》。
本教程将演示如何使用q2-quality-control
根据人工重组/模拟群体(mock communities,具有已知组成的样品)和序列数据过滤来评估数据质量。
下载数据
首先创建一个工作目录,再下载并创建几个文件
# 创建工作目录
mkdir quality-control-tutorial
cd quality-control-tutorial
wget \
-O "query-seqs.qza" \
"https://data.qiime2.org/2018.11/tutorials/quality-control/query-seqs.qza"
wget \
-O "reference-seqs.qza" \
"https://data.qiime2.org/2018.11/tutorials/quality-control/reference-seqs.qza"
wget \
-O "query-table.qza" \
"https://data.qiime2.org/2018.11/tutorials/quality-control/query-table.qza"
wget \
-O "qc-mock-3-expected.qza" \
"https://data.qiime2.org/2018.11/tutorials/quality-control/qc-mock-3-expected.qza"
wget \
-O "qc-mock-3-observed.qza" \
"https://data.qiime2.org/2018.11/tutorials/quality-control/qc-mock-3-observed.qza"
基于比对过滤序列
Excluding sequences by alignment
exclude-seqs
方法将FeatureData[Sequence]
文件中包含的一组查询序列与一组参考序列对齐。此方法使用许多不同的对齐条件(BLAST evalue、相似度和覆盖度)来确定该序列是否“可比对”参考序列,并分别输出可比对/无法比对参考序列的两个文件。此方法有多种应用,包括去除已知的污染物序列,排除宿主序列(例如人类DNA),或从数据中去除非目标序列(例如非细菌)。
首先,我们将把一小部分查询序列分成可比对/无法比对参考序列的两类
qiime quality-control exclude-seqs \
--i-query-sequences query-seqs.qza \
--i-reference-sequences reference-seqs.qza \
--p-method blast \
--p-perc-identity 0.97 \
--p-perc-query-aligned 0.97 \
--o-sequence-hits hits.qza \
--o-sequence-misses misses.qza
输出对象:
qc-mock-3-expected.qza: 预期特征表
hits.qza: 比对结果
query-seqs.qza: 输入序列
query-table.qza: 输入特征表
misses.qza: 无法比对序列
reference-seqs.qza: 参考数据库
qc-mock-3-observed.qza: 观测特征表
此方法目前支持将blast
、vsearch
和blastn-short
三种序列比对方法。请注意,如果查询序列包含非常短的序列(<30 nt),则应使用blastn-short
方法。
既然您已经将序列拆分为一组可比对/不可比对
参考序列的序列,那么您很可能希望在进一步分析之前筛选功能表以删除可比对或不可比对的序列。过滤教程中介绍了从特征表中过滤特征,但这里我们将演示使用序列数据过滤特征表。在某些情况下,您可能希望从特征表中删除未命中,例如,如果您试图选择与细菌序列(或更具体的类)对齐的序列。在其他情况下,您可能希望从特性表中删除比对序列,例如,你试图过滤与宿主DNA相似的污染物或序列。在这里,我们将筛选去除可比对,以演示如何从特征表中筛选序列;您可以在下面的命令中用misses.qza
替换hits.qza
,以筛选排除比对结果。
qiime feature-table filter-features \
--i-table query-table.qza \
--m-metadata-file hits.qza \
--o-filtered-table no-hits-filtered-table.qza \
--p-exclude-ids
质量评估已知组成的样品
Evaluating quality of samples with known composition
模拟群落(人工重组群落)由已知的微生物菌株组成,这些菌株按规定的比例混合,这样就知道了样品的组成。人工重组群落对于评测生物信息学方法很有用,例如,确定某种方法或流程对预期成分的估计程度。许多研究人员在实验中包括模拟群落或其他样本,这些样本具有已知序列组成,以确定批次质量和基于每次运行的方法优化。q2-quality-control
插件包含两个操作,用于评估每个样品中模拟群落的准确性。评估组成评估预期分类组成(或其他特征组成)重建的准确性。评估观察到的序列与预期序列的相似性,例如,确定去噪或OTU选择方法的准确性,并在下一节中描述。
evaluate_composition
比较两个单独的特征表中包含相同样本ID的观察和预期样本对的特征组成。通常,特征注释将由物种注释或其他分号分隔的功能注释组成。让我们旋转一下。
qiime quality-control evaluate-composition \
--i-expected-features qc-mock-3-expected.qza \
--i-observed-features qc-mock-3-observed.qza \
--o-visualization qc-mock-3-comparison.qzv
在每一个分号分隔的分类学级别上,分别计算预期和观测特征丰度之间的准确率(Taxon accuracy rate, TAR)、分类检出率(taxon detection rate, TDR),和线性回归得分(linear regression scores, r-squared),并绘制每一级准确度和观察相关性图。还生成假阳性观测(false positive observations)与最近预期特征(nearest common lineage in the expected feature)之间距离的柱状图,其中距离等于观测特征与最近预期特征的共有谱系之间的等级差异数。最后,在可视化的底部给出了假阳性false positive
(错误分类和未分类)和假阴性false negative
特征的列表。错误分类是指在最深层分类(如物种级)中不符合任何预期物种注释的特征,通常代表样品污染物或次优生物信息学分析流程(如存在嵌合体序列或使用过度自信的物种分类器)。未分类(Underclassifications)是观察到的与预期特征相匹配的特征,但未被分类到预期的分类深度(例如,它们仅被分类到属级,但属级分类是正确的);这些通常是有效特征(即,不是污染物),但由于技术限制,未被分类到所需的级别。技术限制包括序列太短、序列质量下降或方法不理想(只有一个不好的木匠会责怪他的工具,但一个工具可以做得比另一个更好)。假阴性是期望观察到的特征,但没有看到;可以将其与假阳性进行比较,以了解哪些特征可能被错过/分类不足。
评估序列质量
Evaluating sequence quality
evaluate_seqs
将一组查询(例如,观察到的)序列与一组参考(例如,预期的)序列对齐,以评估比对质量。预期用途是将观察到的序列与预期序列(例如,来自模拟群落)比对,以确定观察到的序列与最相似的预期序列之间不匹配的频率,例如,作为测序/方法错误的定量评价。但是,可以提供任何序列作为输入,以根据一组参考序列生成比对质量报告。
qiime quality-control evaluate-seqs \
--i-query-sequences query-seqs.qza \
--i-reference-sequences reference-seqs.qza \
--o-visualization eval-seqs-test.qzv
该可视化显示了每个查询序列的比对结果、预期和观察到的序列之间的不匹配数量,以及每个查询序列与其在参考序列之间最接近的匹配(如果设置了--p-show-alignments
)之间的最终成对比对。这个结果仍然相当初步,但计划在不久的将来进行扩展。请持续关注吧!
Reference
Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet C, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope E, Da Silva R, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley G, Janssen S, Jarmusch AK, Jiang L, Kaehler B, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MG, Lee J, Ley R, Liu Y, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton J, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson, II MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CH, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG. 2018. QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science. PeerJ Preprints 6:e27295v2 https://doi.org/10.7287/peerj.preprints.27295v2
译者简介
刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学、数据分析与可重复计算和植物微生物组、QIIME 2项目参与人。发于论文12篇,SCI收录9篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400+篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》,关注人数3.2万+,累计阅读500万+。
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外3000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”