群落Beta多样性分析与群落相似性简介

原创生信小白鱼鲤小白小白鱼的生统笔记 2022-05-08

收录于合集 #多样性分析 23个

Beta多样性和生态相似性

Whittaker（1972）提出了以下三种多样性。

Alpha多样性（α多样性），指某个群落或生境内部的种的多样性。

Beta多样性（β多样性），即在一个梯度上从一个生境到另一个生境所发生的种的多样性变化的速率和范围。它是研究群落之间的种多度关系。

Gamma多样性（γ多样性），即在一个地理区域内（例如一个岛屿）一系列生境中种的多样性。它通过这些生境的α多样性和生境之间的β多样性的研究范围结合起来表示。

（图片来源，Jurasinski and Beierkuhnlein，2009）

前篇已经对Alpha多样性作了简介，本篇继续阐述Beta多样性。

Beta多样性和生态相似性

如上所述，Beta多样性（β多样性，Beta diversity）展现了从一个生境到另一个生境群落的变化，那么，它本身即代表了一个复杂的问题，可以被视为物种更替（物种沿空间、时间或环境梯度的定向过程）或直接描述物种组成的差异（数据集内物种组成的异质性的非定向过程）。

在群落数据的分析中，常通过生态相似性（Ecological resemblance）量化Beta多样性。生态相似性以计算样方之间的群落组成相似程度或距离（相异程度，distance）为基础，是处理多元生态数据的基本方法之一。如在物种数据的分析中，对于两个群落，若它们共享相同的物种，并且所有物种的丰度也一致，那么这两个群落就具有最高的相似程度（或最低距离0）。关于“相似性”和“距离”的概念详见下文。随着群落物种组成差异（种类和丰度）的增加，相似性逐渐降低，距离逐渐递增。

生态学数据分析中的很多统计方法都以样方之间的相似性或距离为基础。例如Beta多样性分析中常使用的非约束排序（如PCA、PCoA等）、层次聚类（如UPGMA等）等。即使对于PCA（主成分分析）和CA（对应分析），尽管它们的输入数据是物种矩阵，但实质上在计算时也分别基于欧几里得（euclidean）和卡方（chi-square）距离考虑的。

关于这些更具体的Beta多样性分析方法，本文不作阐述，这些方法在将来我会再单独写。总之，你只需要记得这种类型的Beta多样性分析，均以群落相似（或相异）程度为基础的。

那么，本篇接下来的重点就是阐述一下这种生态“相似性”和“距离”的相关概念及问题。

相似性和距离

直观地理解，若两个对象在各属性上越近似，那么它们的相似性就越高。对于群落数据，这些属性一般就是物种组成，或者环境属性等。例如使用物种组成数据，依据相似性指数（similarity indices）判断群落相似性时，范围由0（两个群落不共享任何物种）到1（两个群落的物种类型和丰度完全一致）。

距离指数（distance indices）或称距离测度（distance measures），与相似性指数相反，距离数值越大表明群落间差异越大。例如对于物种组成数据而言，距离指数的最小值为0（两个群落的物种类型和丰度完全一致），但最大取值取决于距离类型和数据本身（有的距离测度的最大值为1，如Bray-curtis距离、Unifrac距离等；但有的距离测度的最大值可以无明确上限，如Euclidean距离等）。

在两个比较样方相同（最大相似）的情况下，相似性指数返回最高值；类似地，对于不共享任何物种的两个样方，距离指数最大。

所有相似性指数均可以转换为距离指数，常见3种转化公式：

D = 1-S，或D = (1-S)^1/2，或D = (1-S²)^1/2；其中S是相似性指数，D为距离指数。

“D=1-S”更为常见；对于“D = (1-S)^1/2，或D = (1-S²)^1/2”类型，这种转化的目的使某些距离指数具有欧式几何特征，欧式属性的距离在某些分析中将会非常有用。这个将来我会在一些更具体的方法中提到。

但反过来，距离指数转换为相似性指数的方式就有些复杂：

（1）同上式，某些距离指数也可以反过来直接转化为相似性指数。例如定量数据的相异百分率（也称为Bray-Curtis距离）等，这些距离类型的最大取值为1，因此和相似性指数相互转换的公式也和上式一致：

S = 1-D，或S = (1-D)^1/2，或S = (1-D²)^1/2；其中S是相似性指数，D为距离指数。

（2）某些距离指数无法直接转化为相似性指数，例如欧几里得距离、卡方距离等，这些距离类型的最大取值无明确上限，远大于1，故无法通过“S = 1-D”这类形式直接转换。

但若对于一个距离矩阵而言，则可以首先对所有距离指数统一执行标准化处理，例如：

D_norm = D/D_max，或D_norm = (D-D_min)/(D_max-D_min)

此时标准化后的距离矩阵中，所有取值范围将落在[0,1]范围内，就可以转化为相似性了：

S = 1- D_norm，或S = (1- D_norm)^1/2，或S = (1- D²_norm)^1/2

双零问题

接下来需要提到生态学中的一个重要概念，“双零”。“双零”是指在计算群落相似性（或距离）时，所比较的两个样方中缺失某些物种的情况，这是很常见的现象。对于某些特定物种来讲，它们在两个样方中同时缺失的可能原因：

（1）两个样方位于这些物种生态位之外，但无法确定两个样方是否均处于生态梯度的同一侧（即它们是生态相似的，如下图所示的A、B两个样方），或者它们分别处于生态梯度的两侧（如下图所示的A、C两个样方，它们实际上存在非常大的差异）。

（2）样方位于物种生态位内（如下图所示的D、E两个样方），但是未被观测到。未被观测到的原因，可能是该物种恰好没有在我们所调查的区域出现（扩散限制），也可能仅仅由于采样误差而未被收集到，或者由于丰度太低而被忽视等。

在这两种情况下，双零代表了信息的缺失，限制了我们对生态群落的比较和深入研究。

这里有两个关键点：

（1）在大多数情况下，一个物种在两个样方内同时缺失，并不能成为这两个样方具有组成相似的依据，因为引起缺失的原因可能完全不同。

（2）在物种矩阵内，不可解释的双零的数量取决于物种的数量，因此也会随着检测到的稀有种数量的增加而显著增加。

因此，物种存在的信息比物种缺失的信息有更明确的意义。

对称指数和非对称指数

然后再返回相似性和距离测度上来。无论距离指数或相似性指数，可归为对称指数和非对称指数两种，它们在对于如何处理双零问题方面存在差异。

对称指数（symmetrical indices）以双重存在相同的方式处理双零问题，即作为考虑样本相似的原因，这通常对物种组成数据没有意义。

非对称指数（asymmetrical indices）忽略双零，在评估相似性时仅关注存在的部分，这些指数通常对物种组成数据更有意义。

下面以一示例展示两种类型的指数在处理双零现象时的区别。由环境样品1至3，环境中的湿度依次降低。对于样品1和3，未观测到包含相同物种的存在，特别是对于“mesic species”这个物种来讲，产生“双零”。缺失物种的事实并没有说明两个样本之间的生态相似性或差异，因此最好忽略它。在对称指数的情况下，样品1和样品3中不存在的物种“mesic species”（0-0）会被考虑在内，这将增加样品1和3的相似性（或着说降低差异）; 而在非对称指数中，样品1和样品3中均不存在的物种“mesic species”将被忽略，只考虑（至少有一个）存在情形（1-1,1-0,0-1）。相较二者，再结合上述“双零问题”中对物种缺失成因的描述，非对称指数的处理方式更为合理。

特别是在实际的分析中，由于涉及的群落数据很多，会存在大量的双零现象。因此，在群落物种数据的分析中，通常不建议使用对称指数（即那些认为双零相关的指数），因为它们可能会带来较大的误差。

尽管如此，在生态学数据分析中，对称指数并非显得“毫无用途”，实际上，它们在处理环境变量数据（变量属性为“环境”，而非“物种”）时则是适用的。例如，对于包含化学测量的多变量数据。假设我们采集了多个环境中的土壤样本，意在比较土壤的受污染情况，在通过测量多种化学指标后，发现在其中两个样品中均未检测到重金属Hg存在（Hg在其他样本中是存在的，因此Hg在这两个样本中视为“双零”），此时Hg的缺失是需要如实考虑在内的，即“双零”确实反映了这两个样品之间的相似性。

常见的相似性或距离指数简介

相似性或距离的衡量标准有很多种，Legendre和Legendre（1998）列出大约30种方法，并对生态相似性作了更详细的介绍，有兴趣可自行参阅Legendre和Legendre（1998）“Numerical Ecology”第七章“Ecological resemblance”的内容。

本来准备在这里也具体描述其中几种常见的相似性指数及距离指数概念，但篇幅实在有些过长，因此我将它们写在了下一节的内容中。

一些注意事项

选择合适的度量标准很重要，特别是对于距离测度。例如，在某些情形中我们直接使用了欧几里得距离，但实际上可能不是很合适，特别是在处理物种数据中，欧氏距离因其对称指数的属性会受到很大的限制，这个我将在下文介绍常见距离测度时细说。以相似性或距离为基础的排序或聚类方法强烈依赖于该度量标准的选择。

在计算之前需要确定分析所关注的是Q模式还是R模式（Q模式关注样方间的差异，R模式关注物种间的差异），因为两种模式的适用方法不同（例如Bray-Curtis距离常用于反映各群落间物种组成的差异（Q模式），而不能表示单个物种的分布状态（R模式）；同样地，Pearson相关系数对物种之间的关联（R模式）有意义，但不适用于样方之间的关联（Q模式））。

如果主要关注样方之间的差异（Q模式），生态学中的“双零”问题一定不要忽视。

方法选择还取决于数据是定性的（即二元数据，不存在或存在的0-1数据类型）还是定量的（如实际的物种丰度数据）。

参考资料

张金屯. 数量生态学. 科学出版社, 2004.

DanielBorcard, FranoisGillet, PierreLegendre, et al. 数量生态学:R语言的应用（赖江山译）. 高等教育出版社, 2014.

David Zelený博士：https://www.davidzeleny.net/anadat-r/doku.php/en:similarity

Jari Oksanen1. Multivariate Analysis in Ecology - Lecture Notes -. 2004

Jurasinski G, Beierkuhnlein R C. Inventory, Differentiation, and Proportional Diversity: A Consistent

Legendre P, Legendre L. Numerical Ecology. Second English edition. Developments in Environmental Modelling, 1998, 20, Elsevier

Whittaker R H. Evolution and Measurement of Species Diversity. Taxon, 1972, 21(2-3):213-251.

友情链接

R语言绘制群落物种累积曲线