PAST:最简便易用的统计学分析软件教程(二十四)----PCA
本系列教程基于windows版本的PAST 3.0软件进行。
软件下载地址:扫描下方二维码,提取码:i274。
下载后的软件无需安装,双击“Past3.exe”即可打开软件进行使用。
PCA
PCA全称Principal Component Analysis (主成分分析),是一种应用方差分解,对多维数据进行降维,从而提取出数据中最主要的元素和结构的方法,得到的主成分通常是原始变量的某种线性组合。
Multivariate按钮下Ordination标签中的Principal components (PCA) 选项通过对多变量的线性组合得到假定的新变量,将数据集降低至两个变量,从而能够对其进行作图。
输入数据为多变量矩阵,样品为行,变量为列。
Summary
Summary一栏为基本的数据,结果同时会给出假定变量代表的变化比例,如果大部分的变化均属于第一或前两个成分,则分析成功。
当所有变量单位一致时,在Matrix中选择variance-covariance。
当变量单位不一致时,在Matrix中选择Correlation。
如果Bootstrap N中填入数字,则还会同时给出变化比例的95%置信区间。
当输入数据同时具有分组数据时,可以在Group选项中选择组内或者组间进行PCA分析。
Missing values有两种处理方法:
Mean value imputation方法以列的平均数代替Missing value,此方法不是很推荐;
Iterative value imputation方法首先以列平均数代替Missing value,之后应用最初的PCA计算missing data的回归值,如此反复,此方法处理效果更好,但是有可能造成成分强度的过高估计。
Scatter plot
Scatter plot一栏是根据得到的PC对各样品的位置进行作图。
当同时勾选Biplot和Eigenvalue scale时,变量将以直线的形式显示在图中,其它选项与散点图一致。
Scores
Scores一栏显示各样品在不同PC中的得分,也就是用于绘图的数据。
Loadings plot
Lodaing plot一栏中给出各个变量与不同PC的相关性。
Cofficients选项给出变量与PC的相关系数,Correlation选项给出变量与PC的相关性,这在解释PC意义时具有重要作用,Loadings一栏为具体的数值。
Scree plot
Scatter plot一栏会根据选定的PC对样本进行绘图,如果样本分为不同的组,则不同组样本会以不同的形状和颜色表示。
勾选Broken stick后会给出一条随机曲线,在曲线下方的成分为非显著成分,可以忽略。