查看原文
其他

扩增子分析解读6进化树,Alpha,Beta多样性

2017-08-15 刘永鑫 宏基因组

本网对Markdown排版支持较差,请跳转“宏基因组”公众号阅读;

写在前面

之前发布的《扩增子图表解读》系列,相信关注过我的朋友大部分都看过了(链接直达7月文章目录)。这些内容的最初是写本实验室的学生们学习的材料,加速大家对同行文章的解读能力。

《扩增子分析解读》系列文章介绍

扩增子分析是目前宏基因组研究中最常用的技术,由于微生物组受环境影响大,实验间重复较差,更需要更多的实验重复和分析技术来保证结果的准确性、可重复性。

本系统文章叫分析解读,即有详细的扩增子分析流程代码,又有本人对使用参数、备选参数意义的解读,可以让大部分零基础的人,更好的理解数据分析过程,并可亲自实践在自己的课题上,获得更好、更合理的实验结果。

本文采用目前最主流的扩增子测序数据类型HiSeq2500 PE250类型数据为例,结合目前主流方法QIIME+USearch优点组合定制的分析流程。本课程中所需的测序数据、实验设计和课程分析生成的中间文件,均可以直去百度云下载。链接:http://pan.baidu.com/s/1hs1PXcw 密码:y33d。

本课程代码的运行,至少需要Linux平台+安装QIIME1.9.1,我之前发布过三种安装QIIME的方法详见文章目录,总有一款适合你。

第六节. 进化树,Alpha,Beta多样性

本节课程,需要完成
扩增子分析解读1质控,实验设计,双端序列合并
2提取barcode,质控及样品拆分,切除扩增引物
3格式转换,去冗余,聚类
4去嵌合体,非细菌序列,生成代表性序列和OTU表
4去嵌合体,非细菌序列,生成代表性序列和OTU表
5物种注释,OTU表操作  

先看一下扩增子分析的整体流程,从下向上逐层分析。

分析前准备

# 进入工作目录 cd example_PE250

上一节回顾:我们的OTU获得了物种注释,并学习OTU表的各种操作————添加信息,格式转换,筛选信息。

接下来我们学习对OTU序列的进化分析、同时计算Alpha和Beta多样性值。

16. 进化树构建

进化树是基于多序列比对的结果,可展示丰富的信息,我们将在R绘图中详细解读。此处只是建树,用于Alpha, Beta多样性分析的输入文件。

# clustalo多序列比对,如果没有请安装Clustal Omega clustalo -i result/rep_seqs4.fa -o temp/rep_seqs_align.fa --seqtype=DNA --full --force --threads=30 # 筛选结果中保守序列和保守区 filter_alignment.py -i temp/rep_seqs_align.fa -o temp/  # rep_seqs_align_pfiltered.fa, only very short conserved region saved # 基于fasttree建树 make_phylogeny.py -i temp/rep_seqs_align_pfiltered.fasta -o result/rep_seqs.tree # generate tree by FastTree

17. Alpha多样性

Alpha多样性是计算样品内物种组成,包括数量和丰度两维信息。具体解释可见1箱线图:Alpha多样性,老板再也不操心我的文献阅读  

Alpha多样性计算前需要对OTU表进行标准化,因为不同测序深度,检测到的物种数量会不同。我们将OTU表重抽样至相同数据量,以公平比较各样品的物种数量。方法如下:

# 查看样品的数据量最小值 biom summarize-table -i result/otu_table4.biom # 基于最小值进行重抽样标准化 single_rarefaction.py -i result/otu_table4.biom -o temp/otu_table_rare.biom -d 2797 # 计算常用的四种Alpha多样性指数 alpha_diversity.py -i temp/otu_table_rare.biom -o result/alpha.txt -t result/rep_seqs.tree -m shannon,chao1,observed_otus,PD_whole_tree

18. Beta多样性

Beta多样性是计算各样品间的相同或不同,OTU表也需要标准化。采用重抽样方法丢失的信息太多,不利于统计。此步我们选择CSS标准化方法。

# CSS标准化OTU表 normalize_table.py -i result/otu_table4.biom -o temp/otu_table_css.biom -a CSS # 转换标准化OTU表为文本,用于后期绘图 biom convert -i temp/otu_table_css.biom -o result/otu_table_css.txt --table-type="OTU table" --to-tsv # 删除表格多余信息,方便R读取 sed -i '/# Const/d;s/#OTU //g;s/ID.//g' result/otu_table_css.txt # 计算Beta多样性 beta_diversity.py -i temp/otu_table_css.biom -o result/beta/ -t result/rep_seqs.tree -m bray_curtis,weighted_unifrac,unweighted_unifrac # Beta多样性距离文件整理,方便R读取 sed -i 's/^\t//g' result/beta/*

写在后面

今天先到这里,本文已经讲了太多了,够大家学习一会的了。要想了解这些程序的更多功能,一定要阅读程序的帮助全文,才能有更深入的理解。

下节预告:7物种分类统计,筛选进化树和其它

(宏基因组7月文章目录,更多精彩等你读)

Reference

  1. http://www.clustal.org/omega/

  2. http://qiime.org/scripts/filter_alignment.html

  3. http://qiime.org/scripts/make_phylogeny.html

想了解更多16S/ITS/18S扩增子、宏基因组、宏转录组文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。

系统学习生物信息,快关注“生信宝典”,那里有几千志同道合的小伙伴一起学习。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存