查看原文
其他

扩增子分析基本流程和结果解读

2018-01-31 易生信 生信宝典

扩增子分析是目前宏基因组研究中最常用的技术,由于微生物组受环境影响大,实验间重复较差,更需要更多的实验重复和分析技术来保证结果的准确性、可重复性。

本系统文章即有详细的扩增子分析流程代码,又有本人对使用参数、备选参数意义的解读,可以让大部分人零基础学习并理解数据分析过程,并可亲自实践在自己的课题上,获得更好、更合理的实验结果。

本文采用目前最主流的扩增子测序数据类型HiSeq2500 PE250类型数据为例,结合目前主流方法QIIME+USearch优点组合定制的分析流程。本课程中所需的测序数据、实验设计和课程分析生成的中间文件,均可后台回复“扩增子”获取。

学习前必读

  • 测序数据:百度云原始链接的数据是随时更新的,请尽量使用下载链接里的文件。转存入自己的帐号内文件将不再更新,无法修正读者指出的错误反馈。

  • 本课程代码的运行,至少需要Linux平台+安装QIIME1.9.1,我之前发布过QIIME1.9.1安装的三种方法如下:

  1. 虚拟机安装:适合在Windows上学习,但分析效率低。

  2. Docker安装:Linux上最简单的安装方法,需要管理员帮忙并给你开通部分权限。

  3. 管理员直接安装:直接安装QIIME1.9.1相关的上百个程序和包,不同环境依赖关系不同,需要极丰富经验,建议管理员安装。
    以上三种方法均可点击链接有详细教程,总有一款适合你。

  • 本套流程主要依赖QIIME1.9.1。之前发布的QIIME2不是QIIME的升级版,而是完全独立的分析系统,两者没有任何通用的地方,而且现在还不成熟,明年才有稳定版。请读者千万别混淆。不要再犯用QIIME2系统运行本教程扩增子分析流程解读,无法找到相关程序的错误。

  • 其它不在QIIME流程中的相关软件,我在教程里提供简单的安装方法,使用前仔细阅读教程操作即可。

扩增子分析流程目录

先看一下扩增子分析的整体流程,从下向上逐层分析。

扩增子分析流程,主要包手下面7部分,共21小节。

  • 1 质控,实验设计,双端序列合并
    查看原始数据的质量,编写合格的实验设计用于分析,双端序列合并为单端的扩增子序列;

  • 2 提取barcode,质控及样品拆分,切除扩增引物
    将Barcode序列从序列中拆除,筛选高质量的测序结果并标记文库中每条序列中的样品来源,最后切除扩增时使用的引物;

  • 3 格式转换,去冗余,聚类
    转换QIIME生成fasta格式为Usearch要求格式;使用Usearch对序列去冗余并筛选高丰度,极大降低下游计算量和去除噪音;最后使用用Usearch聚类生成OTU,默认会组内自动去除大量嵌合体;

  • 4 去嵌合体,非细菌序列,生成代表性序列和OTU表
    本讲详细讲了嵌合体的概念,并使用参考数据库去除嵌合体;学习基于参数数据库筛选细菌序列,这些都是可选的操作,根据实际情况决定是否需要,最终生成高质量的OTU序列作为参考序列;

  • 5 物种注释,OTU表操作
    这部分采于不同数据库进行细菌或真菌注释;同时根据实际情况,对OTU表进一步按样品、丰度、物种等条件筛选;

  • 6 进化树,Alpha,Beta多样性
    将OTU多序列比对生成进化树,为依赖进化关系的计算方法提供输入文件;再进行多种Alpha和Beta多样性的计算;

  • 7 物种分类统计,筛选进化树和其它
    对物种进行分类统计,筛选高丰度结果用于进化树展示,和其它用于R统计分析的结果生成。

写在后面

以上流程,是本人基于多篇高水平文章的解读、同类流程分析流程帮助的阅读和自己理解的产物,不足之处,还请大家多留言讨论或指正。

具体的分析步骤的使用,最重要的是相关项目经验,其次是对课题科学问题的深入理解。自己能想清楚,自然知道如何分析更合理。

大家不要迷信流程一次可以分析出想要的结果,好的结果一般都是经过不断思考,不断优化和改进分析参数和方法得出的。发表前修改流程重新计算30次不算多。具体可看3分和30分文章差距在哪里?

这部分大家学会了,可以基于以上流程生成的文本信息。采用R语言进一步统计分析,并绘图各种出版级的图片。我将会从下周起开始发布,第一季扩增子绘图有8种常用图型的绘图,及相关的统计方法,与扩增子图表解读的顺序相对应哦!

学习加速

独乐乐不如众乐乐,独自学不如一起学。有一些有经验的人一起讨论、共同学习是少走弯路、快速晋级的好方式。

我们与2018年3月10-18日在北京鼓楼举办的《扩增子分析专题培训》,课程基于Usearch和Vsearch,多年经验丰富的分析人员总结的,比QIIME (仅仅只是个框架,依赖近200多个软件) 更好用,更方便的系统,而且紧跟分析方法最前沿。

助力你把握分析思路,亲自实战分析,学会自己动手在大数据中挖掘科学问题的答案。同时保证你十几种常见统计绘图轻松上手,即有我们开发的在线平台绘制,鼠标点选即出图;更提供R语言绘图实例和代码,让你轻松活学活用,进一步随心所欲,满足你绝大多数结果展示需求。

点击阅读原文,或识别二维码加入我们吧。现在报名还有更多优惠。

春节促销优惠活动

2018年春节前报名且成功缴费的用户,不仅可以获得上课的前排座位(座位按报名并成功缴费顺序从前到后龙摆尾式排序),更可同时享受如下三重优惠。

  1. 赠送价值188元线上生信基础课程一门,目前的《应用Python处理生物信息数据和作图》、《生物信息作图系列R、Cytoscape及图形排版》和《转录组高级分析》和以后要开设的《生物信息中的Linux应用》任选其一。

  2. 获赠32G品牌定制U盘 (内含数据资料)。

  3. 多人(N,10>N>1)组团报名并同时缴费,每人还可获得价值N百元的礼品(充值或购物卡)。

精品回顾

画图三字经 生信视频 生信系列教程 心得体会 癌症数据库 

高通量分析 Linux Python 在线画图

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存