对应分析(CA)和去趋势对应分析(DCA)在群落分析中的应用
CA算法的简化描述
CA的发展过程中出现了两种计算方法,尽管计算过程存在区别,但结果都是一致的。
以下是计算过程简述,细节部分可参考Legendre和Legendre(1998)“Numerical Ecology”,451页后的内容。
原始算法
最初的算法基于列和行得分的互惠均值算法,从随机值开始,通过迭代的行和列平均收敛到一个唯一的解,该解代表样方和物种得分。
简化步骤如下:
(1)从任意(随机)样方得分(xi)开始。
(2)以样方中物种丰度加权的样方得分(xi)平均值计算物种得分(uj),权重(wij)代表了物种(j)在样方(i)中的丰度。
uj = ∑(wij * xi) / ∑(wij)
(3)计算新样方得分(xi),作为样方中物种丰度加权的物种得分(uj)平均值。
xi = ∑(wij * uj) / ∑(wij)
(4)标准化样方和物种得分(轴因加权平均而收缩,因此拉伸轴),通过减去均值然后除以标准差实现。
(5)如果新计算的样方得分与旧样方得分相同(或几乎相同),可停止运行;若仍存在明显差异,继续执行步骤(2)。
在计算出第一个轴的样方和物种得分之后,可以继续到第二个轴以及更多轴,同时保持与所有先前计算的轴的线性独立性。
下述描述了基于该算法计算样方和物种得分的简单示例。
(1)给定任意的初始分数,此处为0、4、10。
(2)计算物种得分:
u.WA1Cirsium = (0*0 + 0*4 + 3*10)/(0 + 0 + 3) = 10
u.WA1Glechoma = (5*0 + 2*4 + 1*10)/(5 + 2 + 1) = 2.25
u.WA1Rubus = (6*0 + 2*4 + 0*10)/(6 + 2 + 0) = 1
u.WA1Urtica = (8*0 + 1*4 + 0*10)/(8 + 1 + 0) = 0.444
(3)计算样方得分:
x.WA1Sample 1 = (0*10 + 5*2.25 + 6*1 + 8*0.444)/(0 + 5 + 6 + 8) = 1.095
x.WA1Sample 2 = (0*10 + 2*2.25 + 2*1 + 1*0.444)/(0 + 2 + 2 + 1) = 1.389
x.WA1Sample 3 = (3*10 + 1*2.25 + 0*1 + 0*0.444)/(3 + 1 + 0 + 0) = 8.063
(4)重新标准化到原始范围(此处为0-10)。
(5)继续执行步骤2,直到值收敛。
是不是感到很神奇:无论从任意给定的随机数开始,然后以特定的方式收敛,最终的解始终是唯一的。
图注:从两组不同初始值(左上和右上)开始的CA,经过一系列迭代运算过程后,它们都收敛到相同的分布(左下和右下)。因此该算法的重要特性是它实际上并不取决于任意初始分数的选择,最终结果中样方得分和物种得分将彼此最大相关(也就是说,对于给定的数据,我们已经不能再找到更好的解)。
目前大多数软件的方法
现今的软件大多使用矩阵代数来计算CA(使用矩阵的奇异值分解或特征值分解)。
原始数据首先被转化为一个描述样方对对Pearson χ2统计量的贡献率的Ǭ矩阵,将获得的矩阵通过奇异值分解(singular value decomposition)技术进行特征根和特征向量的提取。这里不再展示过程,还请自行了解了。
关于CA轴的特征
由于技术上的原因,CA排序轴数总是比样方数或物种数两者中较小者的值小1。
与PCA不同,CA排序轴承载的总变差不是用总方差来表示,而是通过一个叫总惯量(total inertia)的指标表征,它代表了Ǭ矩阵所有值的平方和。
如上所述,对于最终收敛的CA排序结果,可视为样方得分和物种得分的彼此最大相关,各轴的特征值反映了样方得分与物种得分相对应的测度(故名对应分析)。特别地,轴的特征值等于样方得分与物种得分之间的相关系数,因此,各轴特征值总是小于1。各轴的特征值除以总惯量,即为各轴的贡献率(解释率)。
通常,第一CA主轴可反应重要的环境梯度信息(更推荐使用DCA的第一主轴表征环境梯度,详见下文“DCA”)。
关于对CA轴的其它理解,如评估有价值的CA轴等,方法类似PCA,可参考前文。
CA排序图
排序图的常见表示方式
对于样方和物种的相互关系,最终通过排序图直观呈现。
在CA排序图中,样方(对象)或物种(变量)通常直接在对应坐标处绘制为点。(CA与PCA在可视化上略有不同,PCA一般将变量展示为箭头向量形式,CA一般直接将变量以点表示)
I型标尺与II型标尺排序图的解读
类似PCA,CA也有两种标尺类型。
I型标尺
如果更倾向关注样方(对象)之间的关系,就选择I型标尺(scaling 1)。样方得分的计算方法是样方中出现的物种得分的平均值,并通过物种丰度加权。这就是为什么在排序图中,物种通常分布在样方范围之外的原因。
此时多维空间内,样方之间的距离是χ2距离。(1)排序图内样方之间的距离近似于它们的χ2距离,排序图中两个样方点越近,代表这些样方内的物种组成越相似;(2)一个样方点靠近一个物种点,表示该物种对于该样方的贡献比较大。I型标尺图中样方的点是物种多度的形心,更适合解释样方之间的关系和样方的梯度排列。
II型标尺
如果更倾向关注物种(变量)之间的关系,就选择II型标尺(scaling 2)。物种得分的计算方式是出现该物种的所有样方得分的平均值,并按出现该物种的所有样方中该物种丰度加权。这就是为什么在排序图中,样方通常分布在物种范围之外的原因。
此时多维空间内,物种之间的距离是χ2距离。(1)排序图内物种之间的距离近似于它们的χ2距离,排序图中两个物种点越近,代表它们的相对多度沿样方分布越相似;(2)一个物种点靠近一个样方点,表示该物种在该样方内存在的可能性很大,或在该样方内的多度比在其它样方内大。II型标尺图中物种的点是样方的形心,更适合解释物种之间的关系和梯度分布。
关于靠近(0,0)坐标处的物种
此外,还有一个需要注意的地方,无论哪种标尺中,对于接近坐标原点的物种而言,有两种可能的解释:(1)这些物种倾向于在坐标轴所代表的生态梯度中值范围内分布;(2)或者这些物种在整个生态梯度中的分布比较均匀。
稀有物种的影响
尽管与PCA相比,CA不受双零问题的影响,但CA却对低丰度(稀有)物种丰度非常敏感。低丰度物种经常在CA排序图中作为异常值定位,带来较大的偏差。
但庆幸的是,由于它们的总丰度低因此权重也小,通常对结果的影响不明显。也可以选择在执行CA之前,剔除低丰度的物种,消除CA对它们的敏感度,此举在大样本时还可以减少计算时间。
弓形效应与去趋势对应分析
当涉及一个较长的环境梯度时,CA模型通常会产生弓形效应(arch effect),并且会在第一轴梯度末端压缩对象。弓形效应具体表现在第二轴上的坐标与第一轴的坐标是二次曲线关系,这是由于第一轴和较高轴之间的非线性相关性引起的,是正交化的必然结果。由于第一个问题,导致第二CA轴是一个伪特征,无法轻松解释;由于第二个问题,沿第一轴的样方或物种的距离不一定与沿主梯度的变化量(或β多样性)有关。
图注:CA分析的排序图中,弓形特征明显,并且很难判断左侧梯度的样方聚集是否代表了真实特征。
相比之下,CA的弓形效应不像PCA的马蹄形效应那样极端。尽管如此,弓形效应不可避免地对排序的精度产生影响。
为了解决CA的这一缺点,Hill和Gauch(1980)提出去趋势对应分析(Detrended Correspondence Analysis)用于解决这个问题。DCA是在CA基础修改而成的一个特征向量排序,分两个阶段纠正CA:去趋势化(detrending,用于去弓形特征)和重标定(rescaling,用于消除梯度末端的对象压缩)。
(1)下图展示了“去趋势化”的大致原理。由于弓形特征只在第二轴中出现,所以DCA第一轴的计算与CA相同。然后将第一排序轴分成几个长度相等的区间,在每一区间内对第二轴的坐标值进行中心化,即将某个样方在第二轴上坐标的平均值减去该样方所在的区间内所有样方在第二轴上坐标的平均值。据此,消除第二轴的弓形特征。
(2)重标定是沿CA轴移动样方位置以使β多样性稳定的过程。重标定是必要的,以便通过坐标空间中给定的距离,在坐标图的不同区域或在不同的坐标图中描述相同的特征。DCA中,坐标轴缩放为物种更替标准差单位(standard deviation units of species turnover),在每个单位中,物种响应曲线的平均宽度(以“公差”或“标准偏差”衡量)等于1。
总之,经过DCA修正后的CA,消除了弓形趋势,以及第一轴左侧梯度的样方聚集。
注:有时DCA中样方或物种在二维空间中的排列顺序与CA中的顺序相反,这偶尔会发生,但不影响解释。
DCA还可用于估算梯度长度(gradient length)。上述提到DCA将CA轴重标定为物种更替标准差单位(以SD表示),可用于表征环境异质性或物种β多样性特征。通常,SD≤3可表明物种沿排序轴更有可能是线性分布,SD≥4表明物种沿排序轴更有可能是单峰分布。
因此,在群落分析中,也经常根据这种梯度长度评估结果,确定选择线性模型(PCA)还是单峰模型(CA、DCA)用于分析。
此外,沿第一个(D)CA轴的对象分布被用作TWINSPAN分类算法的基础。
总的来说,与CA相比,DCA的结果也更为理想,因此DCA很快被接受并得到广泛应用,特别是在群落研究中。
然而,这样的去趋势方法也并非被所有学者所接受,他们认为任意将第一轴分成数个区间,数学上不严密。尽管如此,在生态学数据分析领域,至今仍然流行。
关于弓形效应、DCA本身存在的问题及讨论等的更多细节,可参考Legendre和Legendre(1998)“Numerical Ecology”,第465-472页的内容。
参考资料
张金屯. 数量生态学. 科学出版社, 2004.
DanielBorcard, FranoisGillet, PierreLegendre, et al. 数量生态学:R语言的应用(赖江山 译). 高等教育出版社, 2014.
Hill M O , Gauch H G . Detrended Correspondence Analysis: An Improved Ordination Technique. 1980.
Jari Oksanen1. Multivariate Analysis in Ecology - Lecture Notes -. 2004
Legendre P, Legendre L. Numerical Ecology. Second English edition. Developments in Environmental Modelling, 1998, 20, Elsevier
David Zeleny博士:https://www.davidzeleny.net/anadat-r/doku.php/en:ca_dca
Ordination Methods for Ecologists:http://ordination.okstate.edu/CA.htm
Ordination Methods for Ecologists:http://ordination.okstate.edu/DCA.htm