宏基因组笔记 | 基础知识(一)
一些名词解释
宏基因组 vs 扩增子测序
宏基因组即一个环境中全部微生物遗传物质的总和,直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用高通量测序技术分析环境样品所包含的全部微生物的群体基因组成及功能和参与的代谢通路,解读微生物群体的多样性与丰度,探求微生物与环境,微生物与宿主之间的关系。所以若是研究人体肠道菌群,在得到原始下机数据除了基本的质控外还需要除去比对到人类参考基因组的reads
。
而扩增子测序则是指只测了 16s rRNA 的序列, 16s rRNA 相当于是原核微生物的“身份证”,具有高度的保守性。该序列包含9个高变区和10个保守区,通过对某一段高变区序列(V4区或V3-V4区)进行PCR扩增后进行测序,得到的序列。通过将这些序列比对到数据库就可以得知其所包含的物种信息。相比于宏基因组测序,16S测序成本较低,适合大样本的研究,但注释物种的水平不如宏基因组(16S测序得到的序列很多注释不到种水平,而宏基因组测序则能鉴定微生物到种水平甚至菌株水平),主要研究群落的物种组成、物种间的进化关系以及群落的多样性。而宏基因组测序还可以进行基因和功能层面的深入研究。
聚类 OTU vs 降噪识别生物序列
高通量测序得到的 16s 序列有成千上万条,如果对每条序列都进行物种注释的话,工作量大、耗时长,而且 16s 扩增、测序等过程中出现的错误也会降低结果的准确性。在 16s 分析中引入OTU,首先对相似性序列进行聚类,分成数量较少的分类单元,基于分类单元进行物种注释。这不仅简化工作量,提高分析效率,而且 OTU U在聚类过程中会去除一些测序错误的序列,提高分析的准确性。需要注意的是: OTU 和菌不是绝对1:1对应的,1个 OTU 可能包括多种菌,而一种菌也可以包括多个 OTU。OTU聚类的方法多种多样,如 Uclust、cd-hit、BLAST、mothur、usearch 等。
降噪识别生物序列相比于 OTU,是通过对经过质量控制的序列降噪去除可能存在的扩增与测序错误,直接得到有代表性的正确生物学序列。对原始数据进行去噪,相当于以100%的相似度聚类,仅仅对低质量序列进行去除和校正,算法识别去嵌合等;去噪的序列直接去冗余,即Feature(特征),也不再叫 OTU 。提高了种、株识别率,降低结果中 OTU 假阳性的比例,有利于后续的实验和功能分析。算法包括,DADA、Unoise2、Deblur。
Alpha 多样性分析 vs Beta 多样性分析
Alpha 多样性分析即一个特定区域或生态系统内的多样性,是反映物种丰富度和均匀度的综合指标。Alpha多样性主要与两个因素有关:一是种类数目,即丰富度;二是多样性,群落中个体分配上的均匀性。群落丰富度(Community richness)的指数主要包括Chao1指数和ACE指数,指数越大,表明群落的丰富度越高。群落多样性(Community diversity)的指数,包括Shannon指数和Simpson指数,Shannon指数值越高,表明群落的多样性越高,Simpson 指数值越大,说明群落多样性越低。
Beta 多样性分析即不同样品/环境间的的多样性差异,Beta多样性利用各样本序列间的进化关系及丰度信息来计算样本间距离,反映样本(组)间是否具有显著的微生物群落差异。Beta多样性计算中主要基于 OTU 的群落比较方法,有欧式距离、bray curtis距离、Jaccard 距离,这些方法优势在于算法简单,考虑物种丰度(有无)和均度(相对丰度),但其没有考虑 OTU 之间的进化关系。另一种算法Unifrac距离法,是根据系统发生树进行比较,会根据16s的序列信息对OTU进行进化树分类, 因此不同OTU之间的距离实际上有“远近”之分,Unifrac距离矩阵又可分为 weighted 和 Unweighted 。其中 Unweighted 只考虑了物种有无的变化,因此结果中,0表示两个微生物群落间OTU的种类一致。而 Weighted 则同时考虑物种有无和物种丰度的变化,结果中的0则表示群落间OTU的种类和数量都一致。
PCA 分析 vs PCoA 分析
主成分分析 PCA(Principal component analysis)是一种研究数据相似性或差异性的可视化方法,采取降维的思想,PCA 可以找到距离矩阵中最主要的坐标,把复杂的数据用一系列的特征值和特征向量进行排序后,选择主要的前几位特征值 ,来表示样品之间的关系。通过PCA 可以观察个体或群体间的差异。PC后面的百分数表示对应特征向量对数据的解释量,此值越大越好,两点之间距离越近表明两者的群落构成差异越小。
PCoA(principal co-ordinates analysis)主坐标分析法是一种与 PCA 类似的降维排序方法。PCoA与PCA的区别在于PCA是基于原始的物种组成矩阵所做的分析,仅仅比较的是物种丰度的不同,而 PCoA 首先根据不同的距离算法计算样品之间的距离,然后对距离矩阵进行处理,使图中点间的距离正好等于原来的差异数据,实现定性数据的定量转换。百分比含义同PCA。
猜你喜欢
生信菜鸟团-专题学习目录(6)
生信菜鸟团-专题学习目录(7)
还有更多文章,请移步公众号阅读
▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。