查看原文
其他

宏基因组-扩增子分析流程:中文首发,史上最详系,零基础自学

2017-08-18 刘永鑫 宏基因组

点击上方蓝色「宏基因组」关注我们!专业干货每日推送!

写在前面

之前发布的《扩增子图表解读》系列,相信关注过我的朋友大部分都看过了(链接直达7月文章目录)。这些内容的最初是写本实验室的学生们学习的材料,加速大家对同行文章的解读能力。

《扩增子分析解读》系列文章介绍

扩增子分析是目前宏基因组研究中最常用的技术,由于微生物组受环境影响大,实验间重复较差,更需要更多的实验重复和分析技术来保证结果的准确性、可重复性。

本系统文章叫分析解读,即有详细的扩增子分析流程代码,又有本人对使用参数、备选参数意义的解读,可以让大部分人零基础学习并理解数据分析过程,并可亲自实践在自己的课题上,获得更好、更合理的实验结果。

本文采用目前最主流的扩增子测序数据类型HiSeq2500 PE250类型数据为例,结合目前主流方法QIIME+USearch优点组合定制的分析流程。本课程中所需的测序数据、实验设计和课程分析生成的中间文件,均可以直去百度云下载。
链接:http://pan.baidu.com/s/1hs1PXcw 密码:y33d。

学习前必读

  • 测序数据:百度云原始链接的数据是随时更新的,请尽量使用前下载链接里的文件。转存入自己的帐号内文件将不再更新,无法修正读者指出的错误反馈。

  • 本课程代码的运行,至少需要Linux平台+安装QIIME1.9.1,我之前发布过QIIME1.9.1安装的三种方法如下:

  1. 虚拟机安装:适合在Windows上学习,但分析效率低。

  2. Docker安装:Linux上最简单的安装方法,需要管理员帮忙并给你开通部分权限。

  3. 管理员直接安装:直接安装QIIME1.9.1相关的上百个程序和包,不同环境依赖关系不同,需要极丰富经验,建议管理员安装。
    以上三种方法均可点击链接有详细教程,总有一款适合你。

  • 本套流程主要依赖QIIME1.9.1。之前发布的QIIME2不是QIIME的升级版,而是完全独立的分析系统,两者没有任何通用的地方,而且现在还不成熟,明年才有稳定版。请读者千万别混淆。不要再犯用QIIME2系统运行本教程扩增子分析流程解读,无法找到相关程序的错误。

  • 其它不在QIIME流程中的相关软件,我在教程里提供简单的安装方法,使用前仔细阅读教程操作即可。

扩增子分析流程目录

先看一下扩增子分析的整体流程,从下向上逐层分析。

扩增子分析流程,主要包手下面7部分,共21小节。

  • 1质控,实验设计,双端序列合并
    查看原始数据的质量,编写合格的实验设计用于分析,双端序列合并为单端的扩增子序列;

  • 2提取barcode,质控及样品拆分,切除扩增引物
    将Barcode序列从序列中拆除,筛选高质量的测序结果并标记文库中每条序列中的样品来源,最后切除扩增时使用的引物;

  • 3格式转换,去冗余,聚类
    转换QIIME生成fasta格式为Usearch要求格式;使用Usearch对序列去冗余并筛选高丰度,极大降低下游计算量和去除噪音;最后使用用Usearch聚类生成OTU,默认会组内自动去除大量嵌合体;

  • 4去嵌合体,非细菌序列,生成代表性序列和OTU表
    本讲详细讲了嵌合体的概念,并使用参考数据库去除嵌合体;学习基于参数数据库筛选细菌序列,这些都是可选的操作,根据实际情况决定是否需要,最终生成高质量的OTU序列作为参考序列;

  • 5物种注释,OTU表操作
    这部分采于不同数据库进行细菌或真菌注释;同时根据实际情况,对OTU表进一步按样品、丰度、物种等条件筛选;

  • 6进化树,Alpha,Beta多样性
    将OTU多序列比对生成进化树,为依赖进化关系的计算方法提供输入文件;再进行多种Alpha和Beta多样性的计算;

  • 7物种分类统计,筛选进化树和其它
    对物种进行分类统计,筛选高丰度结果用于进化树展示,和其它用于R统计分析的结果生成。

写在后面

以上流程,是本人基于多篇高水平文章的解读、同类流程分析流程帮助的阅读和自己理解的产物,不足之处,还请大家多留言讨论或指正。

具体的分析步骤的使用,最重要的是相关项目经验,其次是对课题科学问题的深入理解。自己能想清楚,自然知道如何分析更合理。

大家不要迷信流程一次可以分析出想要的结果,好的结果一般都是经过不断思考,不断优化和改进分析参数和方法得出的。发表前修改流程重新计算30次不算多。

这部分大家学会了,可以基于以上流程生成的文本信息。采用R语言进一步统计分析,并绘图各种出版级的图片。我将会从下周起开始发布,第一季扩增子绘图有8种常用图型的绘图,及相关的统计方法,与扩增子图表解读的顺序相对应哦!

希望本课程对大家有帮助!!!

想了解更多宏基因组、16S分析相关文章,

快关注“宏基因组”公众号,干货第一时间推送。

系统学习生物信息,快关注“生信宝典”,

那里有几千志同道合的小伙伴一起学习。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存