PAST：最简便易用的统计学分析软件教程（三十一）----聚类分析

原创红皇后学术红皇后学术 2022-06-07

收录于合集 #PAST：最简便易用的统计学软件 28个

本系列教程基于windows版本的PAST 3.0软件进行。

软件下载地址：扫描下方二维码，提取码：i274。

下载后的软件无需安装，双击“Past3.exe”即可打开软件进行使用。

聚类分析

聚类是根据样品中不同参数的比较，将样品进行分类的方法。

基于层次的聚类方法

回答是否聚类图谱反应了样品来源或取样时间的差异。

基于层次聚类的方法分为两种：

凝聚的方法：一开始将每个对象作为单独的一组，然后根据同类相近、异类相异的原则合并对象，直到所有的组合并成一个，或达到一个终止条件为止。

分裂的方法：一开始将所有的对象置于一类，在迭代的每一步中，一个类不断地分为更小的类，直到每个对象在单独的一个类中，或达到一个终止条件。

层次聚类方法的特点：

分类的个数不需事先定好；
需确定距离矩阵；
运算量较大；
适用于处理小样本数据。

分析过程

选定待分析数据后，点击Multivariate按钮下Clustering标签中的Classical选项进行层次聚类。

Classical选项对样品进行分层聚类分析，以系统树图的形式展示。

PAST提供3种用于层次聚类的计算方法：

UPGMA算法基于两组间所有成员的平均距离；
Single linkage算法基于两组间成员的最小距离；
Ward’s method基于组内方差的最小化。

Ward's method只能根据欧式距离进行聚类，UPGMA和Single linkage算法可以选择24种不同的距离矩阵，在Similarity index下拉列表中选择距离计算方法。

Two-way选项可以同时计算行之间的距离和列之间的距离。

Contrained选项只能允许相邻的行在图像中链接在一起，会产生奇怪的图像，但是更为准确。

Boot N用于检测剧烈的准确性。

NJ聚类

NJ算法最初来源于系统发育分析，在生态学数据中会比UPGMA算法更为准确，因为两个来源于同一节点的分支其线长度未必相同。

选择数据后，点击Multivariate按钮下Clustering标签中的Neighbour Joining选项对样品进行N-J聚类。

与Classical类似，同样在Similarity index中可以选择合适的距离矩阵。

Root中可以选择树图的根位置，默认为最后一个加入树的分支为根，选择outgroup则以数据矩阵中的第一行为根。

其余选项与其它聚类方法意义一致。

K-means聚类

K-means选项是一种不分层的聚类方法，需要根据样品的来源和实验设计自定义聚类组的数目，其计算步骤如下：

首先规定要将数据聚类的个数k，也就是说将所有的数据点聚为k类。
随机在在数据中选取k个种子点。
对其它数据点计算到这k个种子点的距离，与哪个种子点的距离最近即将该点归类为该种子点的点群。
移动种子点到点群的中心。
重复3和4步，直到种子点不移动。

选择待分析数据后，点击Multivariate按钮下Clustering标签中的K-means选项进行分析。

需要首先手动输入分类的数目。

输入聚类数目后，点击OK即可得到聚类结果。

由于算法最初是将样品进行随机聚类，之后找寻均值最近的样品进行重新聚类，因此可能在多次运行此算法时，会出现结果的不一致。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

PAST：最简便易用的统计学分析软件教程（三十一）----聚类分析

聚类分析

基于层次的聚类方法

分析过程

NJ聚类

K-means聚类

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

PAST：最简便易用的统计学分析软件教程（三十一）----聚类分析

聚类分析

基于层次的聚类方法

分析过程

NJ聚类

K-means聚类

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡