论文专区▏K-均值聚类算法在多波束底质分类中的应用
吕良1,金绍华2,3,边刚2,3,崔杨2,3,夏伟2,3
1.92899部队,2.海军大连舰艇学院军事海洋与测绘系,3.海洋测绘工程军队重点实验室
【摘要】针对海底采样点较少时,监督学习训练分类模型困难的问题,研究无监督学习的K-均值聚类分析算法在多波束海底底质分类中的应用。在探讨K-均值聚类分析算法原理的基础上,构建海底底质分类器,针对分类器需预先输入分类结果种类(K值)这一问题,提出了基于底质采样点和分类效果连续性为原则的K值确定方法。试验结果表明:基于K-均值聚类分析算法的海底底质分类器能较好的实现海底底质类型的自动划分,适用于海量多波束底质特征参数的分类。
【关键词K-均值算法;聚类分析;多波束测量;海底底质分类;特征参数
一、引言
多波束海底底质分类是海洋测绘、海洋地质和海洋工程领域的重要研究内容。目前,多波束海底底质分类技术是海洋测绘领域发展的前沿方向,属于国内外研究的热点和难点问题。利用多波束进行海底底质分类重点需要解决两个问题:①如何从声纳图像或多波束回波强度数据中提取底质相关特征参数[1];②如何将提取的参数按照某种度量,组织成具有不同特点的簇类,即分类方法研究。本文重点研究第二个问题。从分类方法看,目前多波束海底底质分类的主要方法有Triton软件使用的Bayes最大似然统计分类方法,基于GA-FAMNN、LVQ(学习向量量化)、GA_LVQ(结合遗传算法)和自组织特征映射等神经网络分类方法及QTC多波束海底底质分类软件使用的聚类分析方法等[2-10]。从学习模式看,Bayes最大似然统计、GA-FAMNN、LVQ和GA_LVQ神经网络属于监督学习(通过对训练集样本进行学习并建立模型,然后对测试集中未标记样本进行划分或预测),自组织特征映射网络和聚类分析属于无监督学习(不含有人工标记信息的机器学习)。监督学习首先对训练集进行学习,所以通常能够获得较好的分类精度,但为了训练一个分类函数或分类模型,需要大量已标记数据,这在海底底质分类中需大量的海底采样点数据支持,实现相对困难。研究发现,当海底采样点较少时,采用无监督学习方法进行海底底质分类,也能达到较好的分类效果。在无监督分类中,聚类分析能够快速找出样本数据中蕴含的结构信息,因此已被广泛的运用到许多应用领域中并产生了很多不同的算法,常用的有:层次聚类,k-均值算法、SOM网络和吸引子传播算法等[11-14]。本文研究经典高效的k-均值聚类分析算法在多波束海底底质分类中的应用。
二、K-均值聚类分析算法原理
⒈K-均值聚类分析算法原理
1967年,MacQueen将他所提出的一种算法命名为k-均值聚类分析算法[12]。这种算法的基本思想是将每一个样本分给具有最近中心(均值)的聚类。K-均值是数据挖掘和知识发现领域中一种重要且成功的方法。该算法是一种基于迭代的重划分策略:算法完成时将数据集划分成事先规定的K个簇类。而迭代过程中不断的优化各个数据点与聚类中心之间的欧式距离。对于数据点集合X=﹛x1,…,xN﹜,k-均值算法给出了一个关于数据集X的K-划分﹛Xl﹜Kl=1:K。因此,若用{C1,L,CK}代表K个划分的中心,则有下面的目标函数:
k-均值算法正是基于上面的目标函数,不断寻找该函数最小值的方法。最简单的k-均值算法包括以下三个步骤:①将所有样本分成K个初始聚类;②将样本集合中某个样本划入中心(均值)离它最近的聚类(这里的距离通常是用标准化或非标准化数据算出的欧式距离),对得到样本和失去样本的两个聚类重新计算它们的中心(均值);③重复步骤2,直至所有的样本都不能再分配时为止。
上述过程中,步骤1也可以不从分割出K个初始聚类开始,而从规定的K个初始中心开始,然后进入步骤2。算法流程图如图1所示。
图1 k-均值算法流程图
⒉聚类数K值确定原则
在K-均值底质分类中,聚类数K值表示海底底质被划分的种类,它是先验信息,其值若选的过少,则会出现有些海底底质类型无法划分的情况,其值若选的过大,将造成海底底质分类的不准确。为了合理的确定分类数K值,本文引入两个原则。
⑴Φ标准粒级分类表一级类组可分原则
目前,应用最广泛的底质粒度分类标准是Udden-Wentworth等比制粒级分类标准[16],(下文简称“Φ值粒径标准”)。Φ值粒径标准将海底分为岩石、砾石、砂、粉砂和粘土等五大类,在这五大类的基础上,再进一步细化分类。有研究结果表明[17],多波束能区分这五大底质类组类型。因此,为了确定分类数K值,首先确定测区海底采样点类型在Φ标准粒级分类表中所属类组数,将其值设定为K值。
⑵海底底质类型区域性变化原则
除了划分Φ标准粒级分类表一级类组的底质类型,多波束能否进行更细的分类,聚类种类K值能否增加,需根据多波束海底底质分类结果的区域性效果进行判断。不管是从海底底质成因还是水动力学方面考虑,底质类型应该是区域性且连续变化的,并且由于各种影响海底底质分布的因素相互关联,海底底质之间往往存在一定程度的过渡性。因此,如果增加K值,多波束海底底质分类结果的区域性效果仍然很好,说明分类结果有效。若区域性效果不好,说明分类种类的增加是不合适的。
三、实例计算
⒈数据说明
为了验证K-均值算法底质分类的有效性,采用2002年青岛胶州湾海域Simrad EM3000多波束测深系统测量的部分数据为研究对象。数据区域范围:经度120°18′07″~120°21′00″,纬度36°57′44″~36°02′49″。通过对该海区海底底质历史采样点数据进行分析,测线覆盖区域的海底底质类型大致可分为淤泥质粉砂、砂淤泥质粉砂、砂砾、基岩、砂和泥粉砂质砂6种类型(图2)。
图2多波束测量航迹线、海底底质分布图
以上分类采用国际上通用的Shepard底质类型结构分类法命名[15],根据命名原则,结合Φ标准粒级分类表[16],得测区底质类型所属类组框图(图3)。
图3 测区底质类型间的相似度分析
由图中可以看出,砂淤泥质粉砂和淤泥质粉砂相比,沉积物中混有相对量比极少的砂,两者的相似度极高;泥粉砂质砂相对于砂混有相对量比较少的粉砂和相对量比极少的泥,其相似度次之。在海底底质分类中,底质类型相似度越高,越不容易区分。对测区底质类型相似度的分析,有助于正确选择海底底质分类的种类及评价多波束海底底质分类的能力(例如:能否自动区分砂和泥粉砂质砂等相似度较高的底质类型)。
⒉算法的实用性分析
利用多波束回波强度数据提取特征参数[1],将特征参数向量输入K-均值聚类分析模块(算法实现)中,分别将分类数K设置成2~5,得到海底底质分类效果如图4~7所示。当将提取的参数采用K-均值聚类分析方法自动分成两类(K=2)时,粉砂质(淤泥质粉砂和砂淤泥质粉砂)海底被划分出来(图4上测线的红色区域),分类结果的区域范围非常明显,并且与底质采样格网图吻合(图2),说明分类结果是正确有效的。
图4 分类结果(K=2)
当K=3时(图5),除粉砂质海底(图上测线的红色区域)外,基岩区域被划分出来(图上测线的绿色区域),值得注意的是,基岩区域的范围要比实际采样点格网化显示的范围小,这主要是由于多波束海底底质分类是针对表层取样而言的,由于潮水的流动性,基岩上可能覆盖砂、或砂砾等物质。但从图上的区域性效果看,分类结果是合理的。当K=4时(图6),多波束分类的淤泥质区域和基岩区基本无任何变化,砂区出现了其它底质类型,在测线上显示为红色,由砂和基岩的过渡区为红色及原始底质采样格网的过渡区为砂砾推断(过渡区2),测线红色区域显示的海底底质类型可能为砂砾。由此推断区域1的底质类型为砂砾,与区域2底质类型不同(底质采样格网数据显示这两个区域底质类型相同,为泥粉砂质砂)。为了进一步验证上面的推断,将底质类型设为5类进行分析。
图5 分类结果(K=3)
图6 分类结果(K=4)
当K=5时,分类效果的主要变化在于将砂质海底中的泥粉砂质砂区域(原始采样点的格网区域2)划分出来(图7),在粉砂淤泥和砂的过渡区3,多波束底质分类的结果也为泥粉砂质砂,从底质类型变化的连续性考虑,这是合理的,从而也说明了本文所述分类方法的有效性。同时可以看出,原始底质采样划分的区域2是正确的(泥粉砂质砂),结合前面的分析,区域1应为砂砾。
⒊K值确定的有效性分析
区域采样点底质类型有基岩、砂砾、砂、泥粉砂质砂、淤泥质粉砂和砂淤泥质粉砂。按照Φ标准粒级分类表一级类组可分原则,上述六种海底底质类型分别属于分类表一级类组的岩块(基岩)、砾石(砂砾)、砂(砂、泥粉砂质砂)和粉砂(砂淤泥质粉砂、淤泥质粉砂)四大类组。将K值设定为4,底质分类结果如图6所示。分析表明:多波束底质分类效果区域性明显,分别为基岩区(测线蓝色区域)、砂砾区(测线红色区域)、砂区(测线绿色区域)和粉砂区(测线紫色区域)。说明分类结果是正确有效的。
图7 分类结果(K=5)
增加K值(K=5),多波束海底底质分类结果如图7所示,图上区域性效果明显,满足海底底质类型区域性变化原则,可以将K值设定为5。继续增加K值,多波束海底底质分类结果的区域性效果已不明显(图略),因此,最终K值应设定为5是合适的。
四、结束语
本文探讨了无监督学习的K-均值聚类分析算法在多波束海底底质分类中的应用,重点分析了K值确定的原则及有效性,实例计算结果表明,该方法能快速有效识别海底底质类型,适用于海量多波束底质特征参数的分类。应该指出,仅通过多波束回波强度数据,只能判断不同海底底质类型的区域范围,至于区域内的海底底质类型是什么,需通过区域内的采样点确定。多波束海底底质分类效果(精度)的分析,如果没有大量的海底采样点数据是无法判断的。但对于本文所述的方法,是将不同测线的数据集中到一起作为一个整体数据集进行分类,考虑到海底底质类型变化的相关性以及连续性,只要分类结果的区域性明显,就可以认为分类结果是可靠的。另外,图上显示的胶州湾底质类型历史资料是通过离散的采样点内插得到的,本身它划分的区域范围及采样点位置精度有限,它对多波束底质分类结果的分析只能起辅助作用,不能作为评定分类精度的指标。
参考文献:
[1]金绍华,肖付民,边刚等.利用多波束反向散射强度角度响应曲线的底质特征参数提取算法[J].武汉大学学报·信息科学版,2014,39(12):1493-1498.
[2]Alexandrou D,Pantzartzis D.Seafloor Classification with Neural Networks [C].OCEANS′90 Conference Proceedings,1990.1:18-23.
[3]Stewart W K,Jiang Min,Martin Marra.A neural network approach to classification of sidescan sonar imagery from a midocean ridge area.IEEE journal of oceanic engineering,1994,19(2):214-224.
[4]Bischof H,Schneider W,Pinz A J.Multispectral classification of landsat-image using neural networks.IEEE transactions on geoscience and remote sensing,1992,30(3):482-490.
[5]Kavli T,Carlin M,Madsen R. Seabed classification using artificial neural networks and other non-parametric methods[C].Proceedings of the Institute of Acoustics. Bath,U.K.,1993:141-148.
[6]Bishwajit Chakraborty, Kaustubha R, Amey Hegde,et al.Acoustic seafloor sediment classification using self-Organizing feature maps.IEEE Transaction on Geoscience and Remote Sensing,2001,39(12):2722-2725.
[7]唐秋华等.多波束海底底质分类软件Simrad Triton的应用[J].海洋测绘,2002,22(4):21-24.
[8]唐秋华, 刘保华, 陈永奇, 等. 基于自组织神经网络的声学底质分类研究[J]. 声学技术, 2007, 26(3):380-384
[9]唐秋华,刘保华,陈永奇,等.结合遗传算法的LVQ神经网络在声学底质分类中的应用[J].地球物理学报, 2007,50(1):313-319.
[10]唐秋华,周兴华,丁继盛,等.学习向量量化神经网络在多波束底质分类中的应用研究[J].武汉大学学报·信息科学版,2006,31(3):229-232.
[11]Ward J H. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association,1963,58(301):236-244.
[12]MacQUEEN J.Some methods for classification and analysis of multivariate observations[C].In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability], University of California Press,1967.281-297.
[13]Kaski S,Kangas J,Kohonen T.Bibliography of self-organizing map (SOM) papers:1981–1997. Neural Computing Surveys,2002,1(3):1–156.
[14]Frey B J,Dueck D.Clustering by passing messages between data points.Science,2007(315): 972-976.
[15]赵东波.常用沉积物粒度分类命名方法探讨[J].海洋地质动态,2009,25(8):41-44.
[16]国家海洋局908专项办公室.海洋底质调查技术规程[S].北京:海洋出版社,2006.60-62.
[17]金绍华.多波束声学探测海底底质技术研究[D].海军大连舰艇学院博士论文,2011.
【作者简介】第一作者吕良,1978年出生,男,山西大同人,高工,硕士,主要从事多波束测量数据处理及应用方面的研究;本文来自《海洋测绘》(2018年第3期),若其他公众平台转载,请备注论文作者,并说明文章来源,版权归《海洋测绘》所有。
相关阅读推荐
公众号
溪流之海洋人生
微信号▏xiliu92899
用专业精神创造价值
用人文关怀引发共鸣
您的关注就是我们前行的动力
投稿邮箱▏452218808@qq.com