PAST:最简便易用的统计学分析软件教程(三十一)----聚类分析
本系列教程基于windows版本的PAST 3.0软件进行。
软件下载地址:扫描下方二维码,提取码:i274。
下载后的软件无需安装,双击“Past3.exe”即可打开软件进行使用。
聚类分析
聚类是根据样品中不同参数的比较,将样品进行分类的方法。
基于层次的聚类方法
回答是否聚类图谱反应了样品来源或取样时间的差异。
基于层次聚类的方法分为两种:
凝聚的方法:一开始将每个对象作为单独的一组,然后根据同类相近、异类相异的原则合并对象,直到所有的组合并成一个,或达到一个终止条件为止。
分裂的方法:一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。
层次聚类方法的特点:
分类的个数不需事先定好;
需确定距离矩阵;
运算量较大;
适用于处理小样本数据。
分析过程
选定待分析数据后,点击Multivariate按钮下Clustering标签中的Classical选项进行层次聚类。
Classical选项对样品进行分层聚类分析,以系统树图的形式展示。
PAST提供3种用于层次聚类的计算方法:
UPGMA算法基于两组间所有成员的平均距离;
Single linkage算法基于两组间成员的最小距离;
Ward’s method基于组内方差的最小化。
Ward's method只能根据欧式距离进行聚类,UPGMA和Single linkage算法可以选择24种不同的距离矩阵,在Similarity index下拉列表中选择距离计算方法。
Two-way选项可以同时计算行之间的距离和列之间的距离。
Contrained选项只能允许相邻的行在图像中链接在一起,会产生奇怪的图像,但是更为准确。
Boot N用于检测剧烈的准确性。
NJ聚类
NJ算法最初来源于系统发育分析,在生态学数据中会比UPGMA算法更为准确,因为两个来源于同一节点的分支其线长度未必相同。
选择数据后,点击Multivariate按钮下Clustering标签中的Neighbour Joining选项对样品进行N-J聚类。
与Classical类似,同样在Similarity index中可以选择合适的距离矩阵。
Root中可以选择树图的根位置,默认为最后一个加入树的分支为根,选择outgroup则以数据矩阵中的第一行为根。
其余选项与其它聚类方法意义一致。
K-means聚类
K-means选项是一种不分层的聚类方法,需要根据样品的来源和实验设计自定义聚类组的数目,其计算步骤如下:
首先规定要将数据聚类的个数k,也就是说将所有的数据点聚为k类。
随机在在数据中选取k个种子点。
对其它数据点计算到这k个种子点的距离,与哪个种子点的距离最近即将该点归类为该种子点的点群。
移动种子点到点群的中心。
重复3和4步,直到种子点不移动。
选择待分析数据后,点击Multivariate按钮下Clustering标签中的K-means选项进行分析。
需要首先手动输入分类的数目。
输入聚类数目后,点击OK即可得到聚类结果。
由于算法最初是将样品进行随机聚类,之后找寻均值最近的样品进行重新聚类,因此可能在多次运行此算法时,会出现结果的不一致。