涨姿势 |《宏基因组学那些事》之图表说下篇
在《图表说》上篇中,小编和大家一起聊了微生物群落多样性分析中的一些常见图表,介绍了Alpha多样性和Beta多样性的分析内容,但是并没有提及具体微生物物种。这就是说Alpha多样性和Beta多样性都是基于OTU进行分析,并不知道样本中具体有哪些物种。现在我们就一起来看看宏基因组中物种注释分类,群落结构分析,以及基因功能和通路分析中涉及的图表。
4. 物种注释分类与群落结构分析
物种注释表
对微生物物种进行注释和分类,就是基于微生物数据库(如RDP,Greengenes,NCBI 16SMicrobial等数据库)对OTU进行注释和分类。通常选取每个OTU中代表性的序列进行物种注释。为使研究者鉴定菌种更准确,联川率先将菌群鉴定精细到“种(Species)”的级别。
表2 物种注释和分类表
上表中,每行代表一个OTU在不同样本中的数量,每列代表一个样本,taxonomy所在列即是对每个OTU物种注释和分类的结果。d,p,c,o,f,g,s分别代表界,门,纲,目,科,属,种。
物种丰度柱状图
除表2外,用柱状图更直观的展示每个样本中存在着哪些微生物,哪些菌群占主导,哪些菌群处于次要地位,即它们之间的丰度关系。下图中不同颜色代表不同的物种,柱状长短代表该物种的丰度高低。在图7中,样本中各物种的丰度情况清晰可辨,各样本间的菌群丰度差异也是一目了然。
研究者可以自由地展示7个分类级别中任一级别的物种相对丰度情况。上图也可以以饼状图或是面积图进行呈现。
物种分类热图(Taxa Heatmap)
物种分类热图直观地将数据值的大小以定义的颜色深浅表示出来,可根据需要将数据进行物种或样本间丰度相似性聚类,将聚类后数据表示在heatmap图上,可将高丰度和低丰度的物种分块聚集,通过颜色梯度及相似程度来反映多个样本在各分类水平上群落组成的相似性和差异性(图8)。
图8 物种分类热图(Phylum水平)
上图中用蓝色到红色的渐变色反映丰度由低到高的变化,越趋近于蓝色,丰度越低,越趋近于红色,丰度越高。研究者可以自由地展示7个分类级别中任一级别的物种分类热图。
物种系统发育进化树(Taxa Phylogeny)
系统学分类描述了不同生物之间的相关关系,通过系统学分类分析可以帮助研究者了解所有生物的进化历史过程。在系统学分类的研究中,最常用的可视化表示进化关系的方法是绘制系统发育进化树(Phylogenetic trees)(图9),用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系。
上图中环形部分的文字为分类等级,由内到外分类等级由低到高。节点大小表示丰度高低,绿色覆盖区域表示低丰度,红色覆盖区域表示高丰度。
Metastats分析表
Metastats分析即样本间显著性差异分析,在同一个分类水平上比较两组样本所含物种的差异性。
表3 Metastats分析表
上表是在genus(属)水平下,分析两组样本间的物种差异。每行代表一个物种,Mean列代表该物种表达量占本组样本所有物种表达量的平均百分比。由此可以看出,每个物种在各组样本中的差异性。
5. 基因功能与通路注释
宏基因组测序项目中,除了关注物种注释分类,和丰度分析外,更关注微生物的基因功能和可能参与的通路。
KEGG分类统计图
KEGG分析是大家很熟悉的分析,这里不再赘述。上图中左边纵坐标为KEGG pathway的二级分类信息,右边纵坐标为KEGG pathway的一级分类信息,横坐标代表注释到的序列所占百分比。
KEGG通路图
上图中,方框代表KEGG直系同源簇,方框内的4位数字表示各种酶的EC编号;空心圆圈表示小分子化合物;实线箭头表示生化反应的方向;虚线箭头连接其他相关的代谢途径。
eggNOG分类统计图
eggNOG(evolutionarygenealogy of genes: Non-supervised Orthologous Groups)是欧洲分子生物学实验室EMBL构建的一个基因组直系同源蛋白簇及其功能注释的数据库。该数据库分为四个层次。第一层包括:1.信息存储和加工;2.细胞过程和信号转导;3.新陈代谢;4.未确定分类。第二层进一步细分成25个分类,每一个分类都可以用一个字母表示。第三层为共同功能描述。第四层为具体的直系同源蛋白簇。
上图中横坐标为eggNOG的各个二级分类,纵坐标为注释到的序列数目。
《图表说》到这里就告一段落了,还没过瘾,接着看下期!