查看原文
其他

PAST:最简便易用的统计学分析软件教程(三十一)----聚类分析

红皇后学术 红皇后学术 2022-06-07

本系列教程基于windows版本的PAST 3.0软件进行。

软件下载地址:扫描下方二维码,提取码:i274。

下载后的软件无需安装,双击“Past3.exe”即可打开软件进行使用。


聚类分析

聚类是根据样品中不同参数的比较,将样品进行分类的方法。

基于层次的聚类方法

回答是否聚类图谱反应了样品来源或取样时间的差异。

基于层次聚类的方法分为两种:

凝聚的方法:一开始将每个对象作为单独的一组,然后根据同类相近、异类相异的原则合并对象,直到所有的组合并成一个,或达到一个终止条件为止。

分裂的方法:一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。

层次聚类方法的特点:

  1. 分类的个数不需事先定好;

  2. 需确定距离矩阵;

  3. 运算量较大;

  4. 适用于处理小样本数据。

分析过程

选定待分析数据后,点击Multivariate按钮下Clustering标签中的Classical选项进行层次聚类。

Classical选项对样品进行分层聚类分析,以系统树图的形式展示。

PAST提供3种用于层次聚类的计算方法:

  • UPGMA算法基于两组间所有成员的平均距离;

  • Single linkage算法基于两组间成员的最小距离;

  • Ward’s method基于组内方差的最小化。

Ward's method只能根据欧式距离进行聚类,UPGMA和Single linkage算法可以选择24种不同的距离矩阵,在Similarity index下拉列表中选择距离计算方法

Two-way选项可以同时计算行之间的距离和列之间的距离。

Contrained选项只能允许相邻的行在图像中链接在一起,会产生奇怪的图像,但是更为准确。

Boot N用于检测剧烈的准确性


NJ聚类

NJ算法最初来源于系统发育分析,在生态学数据中会比UPGMA算法更为准确,因为两个来源于同一节点的分支其线长度未必相同。

选择数据后,点击Multivariate按钮下Clustering标签中的Neighbour Joining选项对样品进行N-J聚类。

与Classical类似,同样在Similarity index中可以选择合适的距离矩阵

Root中可以选择树图的根位置,默认为最后一个加入树的分支为根,选择outgroup则以数据矩阵中的第一行为根。

其余选项与其它聚类方法意义一致。

K-means聚类

K-means选项是一种不分层的聚类方法,需要根据样品的来源和实验设计自定义聚类组的数目,其计算步骤如下:

  1. 首先规定要将数据聚类的个数k,也就是说将所有的数据点聚为k类。

  2. 随机在在数据中选取k个种子点。

  3. 对其它数据点计算到这k个种子点的距离,与哪个种子点的距离最近即将该点归类为该种子点的点群。

  4. 移动种子点到点群的中心。

  5. 重复3和4步,直到种子点不移动。

选择待分析数据后,点击Multivariate按钮下Clustering标签中的K-means选项进行分析。

需要首先手动输入分类的数目。

输入聚类数目后,点击OK即可得到聚类结果。

由于算法最初是将样品进行随机聚类,之后找寻均值最近的样品进行重新聚类,因此可能在多次运行此算法时,会出现结果的不一致


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存