查看原文
其他

处理同时含有定量和分类变量的数据集的PCA方法

R包ade4处理包含定量和分类变量数据集的PCA方法
常规的主成分分析(PCA)中,数据集所涉及的变量通常全部为定量变量。
对于定性变量而言,通常将它们转化为0-1类型的二元数据后,作为PCA的输入(尽管效果可能不是很好)。
如果是变量全部为分类变量,则可以通过多重对应分析(MCA)实现,其相当于处理分类变量的PCA。
那么,对于混合有定量和分类变量的数据集,则该如何实现PCA呢?
HillSmith1976)提出了适用于多状态离散特征分类数据的主成分分析,用于实现这种需求。

ade4包中提供了该方法的实现函数。
例如,数据集aravo中记录了75个观测样方的环境特征,现在期望通过PCA探索这些样方之间环境组成的相似性。

library(ade4)

# aravo$env 含定量变量和分类变量的环境测量数据
data(aravo)
head(aravo$env)

#环境数据的 PCA,结果中保留前 4 个排序轴的坐标便于观测数据
pca <- dudi.hillsmith(aravo$env, scannf = FALSE, nf = 4)

#PCA 概要
pca
summary(pca)

#展示前两轴的排序图,以及特征值柱形图
scatter(pca, choices = 1:2)
#或者
biplot(pca, choices = 1:2)

#提取结果,例如
#names(pca)
pca$l1 #标准化后的样方得分(排序坐标)
pca$c1 #标准化后的环境变量得分(排序坐标)
pca$eig #各 PCA 轴特征值
pca$eig/sum(pca$eig) #各 PCA 轴的贡献度

 

参考资料

Hill, M. O., and A. J. E. Smith. 1976. Principal component analysis of taxonomic data with multi-state discrete characters. Taxon, 25, 249-255.

  


链接

R包vegan实现在物种多度的非约束排序中被动拟合环境变量

物种多度的非约束排序中被动添加环境变量概述

R包vegan的非度量多维标度(NMDS)分析

R包vegan的主坐标分析(PCoA)

主坐标分析(PCoA)及非度量多维标度(NMDS)概述

R包ade4的模糊主成分分析(FPCA)及模糊对应分析(FCA)

R包ade4的多重对应分析(MCA)

R包vegan的群落去趋势对应分析(DCA)

R包vegan的群落对应分析(CA)

对应分析(CA)和去趋势对应分析(DCA)在群落分析中的应用

R包vegan的群落PCA及tb-PCA分析

主成分分析(PCA)及其在生态数据分析中的应用



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存