一种全极化SAR影像分类方法
The following article is from 测绘学术资讯 Author 测绘科学
摘 要 :针对极化合成孔径雷达(PolSAR)影像面向对象分类过程中存在数据冗余、特征维数高导致分类精度降低的问题,该文提出了一种基于信息增益比和基于相关性的特征选择(CFS)算法的分类方法。该方法首先在经典的过滤式CFS算法基础上,引入信息增益比评估模型舍弃贡献小的特征。然后采用目前流行的封装式分类回归树(CART)算法做进一步筛选并分类。最后以GF-3不同场景和成像时间的影像数据为例进行实验,将该方法与信息增益比评估模型优化特征集、CFS算法优化特征集、全部特征集的CART分类结果进行对比。结果表明,该方法各项精度评价指标均优于其他对比方法,验证了该方法在PolSAR影像面向对象分类领域的可行性。
0 引言
极化合成孔径雷达(polarimetric synthetic aperture radar, PolSAR)是目前雷达系统的研究热点之一。近年来,利用PolSAR影像的多种极化分解特征进行分类,已经在地质勘查、目标识别与提取、土地覆盖分类和变化检测等领域得到广泛应用。然而PolSAR影像极化分解特征较多、相关性较强,在分类过程中易产生“维数灾难”的现象。因此,合理地对极化分解特征进行选择是分类前的必要环节。
特征选择方法一般分为过滤式(Filter)和封装式(Wrapper)两种。一些学者采用Filter特征选择方法取得了较好的成果,文献提出了一种改进的分离阈值(separability and thresholds, SeaTH)算法,利用特征相关性等指标有效降低了特征维数,优化了特征空间,提高了分类精度。文献利用最大化互信息统计独立准则抽取最优特征子集,提高了面向对象遥感影像分类精度。以上研究方法中都能利用某种指标快速过滤贡献度较低的特征,然而这些方法无法保证得到一个最优的特征集,并且还会存在一些噪声特征。另一些学者利用Wrapper特征选择方法剔除冗余特征,文献提出一种新的利用支持向量机(support vector machine, SVM)的特征选择算法,并将其应用到PolSAR图像分类过程中,降低了SVM对自身参数的敏感性,同时也提高了分类精度。文献提出一种基于遗传算法的特征选择方法,并应用于SAR图像自动目标鉴别,以实测数据的实验结果验证了该方法的有效性。这两种研究方法仅利用封装式特征选择方法优化特征子集,准确率比较高,但计算开销大。考虑到Filter和Wrapper方法的优缺点,一些学者将Filter和Wrapper方法结合进行研究,文献将两种方法相结合进行特征选择,在复杂机械系统故障诊断领域取得较好效果。文献提出一种复杂场景中PolSAR图像多特征分类的飞机目标监测方法,该方法使用Filter特征选择结合穷举法筛选出分类性能高的飞机特征训练SVM分类器,提高了检测的准确率。文献利用ReliefF算法和粒子群优化算法相结合,并以SVM的分类精度作为评估函数进行特征选择,在面向对象土地利用分类方面取得了较好的分类效果。
关于Filter特征选择方法有很多种,其中信息增益(information gain , IG)因具有复杂度低、计算效率高等优点,被广泛应用于各领域。文献在文本中利用信息增益进行特征选择,得到了较好的分类结果。文献提出一种信息增益特征选择的网络异常检测模型,在一定程度上能够提高检测率、缩短检测时间。文献结合信息增益和灰狼优化算法从高光谱图像波段中选择最优的波段组合,以SVM作为分类器,提高了分类精度。然而信息增益偏向于选择取值较多的特征,容易导致过拟合的发生,信息增益比(information gain ratio, IGR)评估模型是对信息增益的改进,通过添加惩罚因子降低偏好的发生,能够有效地在大量数据中剔除冗余特征。同时,基于相关性的特征选择(correlation-based feature selection, CFS)算法可以进一步滤除相关性小的特征。此外,分类回归树(classification and regression tree, CART)分类属于Wrapper方法的一种,具有可读性强、运行速度快等优点,成为目前主流的分类方法。
综上,本文提出一种基于信息增益比CFS算法的分类方法。该方法首先在经典的过滤式CFS算法基础上引入信息增益比评估模型舍弃贡献小的特征,然后采用CART算法做进一步优化并分类(后续简称IGR-CFS-CART)。最后将本文方法与信息增益比评估模型优化特征集(后续简称IGR-CART)、CFS算法优化特征集(后续简称CFS-CART)、全部特征集的CART(后续简称CART)分类结果进行对比,验证该方法的可行性。
1 特征选择算法
1.1 基于信息增益比的CFS算法原理
IGR评估模型计算复杂度低,只需单次运算,因此在处理大量数据时计算效率较高,可以有效剔除冗余数据。然而IGR评估模型在进行特征选择时仍存在缺点,只能衡量单个特征在整个系统中的重要程度,并未考虑特征之间的相关性。CFS算法同时考虑了数据集中特征与类别属性之间的关联性和特征之间的相互关联程度,通过它们之间的相关性选出特征之间相关性弱并且特征与属性之间相关性强的特征子集,但CFS算法相比于IGR评估模型在处理大量数据时计算效率较慢。因此,结合两者的优势,能够快速地选出分类性能较高的特征用于后续CART决策树分类,以提高图像的分类质量。本文利用信息增益比评估模型对极化分解特征计算信息增益比值,通过设定阈值的方式筛选极化特征,并作为后续CFS算法筛选属性特征的基础数据。具体原理如下:
信息熵(information entropy)在概率统计中是用来表示随机变量不确定度的衡量。
1.2 技术流程
本文采用GF-3影像数据进行实验,首先对原始影像裁剪选取合适的实验区,并进行Lee滤波处理,以降低相干斑噪声的影响,然后利用多种不同的目标极化分解方法提取极化特征,将极化特征合成,形成多通道影像。接着对影像进行多尺度分割,并提取属性特征,包括灰度属性和纹理属性。最后利用基于信息增益比的CFS算法进行特征选择,获取最优特征子集进行CART算法分类,并与IGR-CART算法、CFS-CART算法和CART算法3种分类方法结果进行对比分析。具体技术流程如图1所示。
2 实验方法
2.1 实验数据
本文分别选用宿州市埇桥区和芜湖市鸠江区两幅全极化GF-3雷达影像进行实验。研究区大小为1 200像素
图2 研究区SAR影像和光学影像
表1 各地类样本数量
2.2实验流程
本文以宿州市埇桥区和芜湖市鸠江区两幅全极化雷达影像为研究对象进行实验分析,因篇幅所限,仅以宿州市影像为例阐述数据处理方法。
2.2.1 目标极化分解
利用多种经典的极化分解方法提取极化特征,并作为后续特征选择的基础数据。所采用的极化分解方法及相应的极化特征如表2所示,其中RGB合成影像如图3所示。
表2 极化分解方法及相应的极化特征
2.2.2 影像分割
影像分割是面向对象分类前的关键步骤,分割结果的质量对后续图像的解译有重要影响。近年来,国内外学者提出了很多分割算法,其中分形网络演进算法在面向对象遥感影像分割中应用度较高且比较成熟。本文首先利用分形网络演进算法对极化特征合成的多通道影像进行多尺度分割,然后采用不同的尺度参数进行实验对比,最终确定最优的分割尺度、紧致度因子和形状因子分别为35、0.4和0.5,将基于像素的影像转换成基于对象的影像,有效避免了“椒盐现象”的产生。局部分割影像如图4所示。
2.2.3 特征提取
在影像分割后提取每个对象的极化、灰度、纹理等特征。由表2可知,影像分割包含25个图层,本次研究共计提取250个特征作为后续特征选择的数据集,这些特征可以归纳为如下2类。
1)灰度特征25×2个:均值(mean)、标准差(standard deviation)。
2)纹理特征25×8个:均值(GLCM mean)、标准差(GLCM StdDev)、熵(GLCM Entropy)、同质度(GLCM Homogeneity)、对比度(GLCM Contrast)、非相似性(GLCM Dissimilarity)、角二阶矩(GLCM Ang 2 and moment)和相关性(GLCM Correlation)。
2.2.4 特征优化选择
首先对数据集进行归一化处理,然后利用信息增益比评估模型进行计算,并将结果从小到大排列,如表3所示。将结果的中位数作为阈值,将小于阈值的极化特征视为冗余特征淘汰,保留大于阈值的极化特征,如图5所示,中位数为0.785,最终保留的极化特征包括Krogager_Kh、Cloude_T11、Yamaguchi4_Dbl、VanZyl3_Odd、Barnes1_T11、Huynen_T33、Cloude_T33、Huynen_T22、Cloude_T22、Yamaguchi4_Hlx。
表3特征参数的信息增益比值
利用CFS算法对上一步结果的属性特征做进一步的筛选,并采用最佳优先搜索算法,保留最优属性特征,包括standard deviation、GLCM Contrast、GLCM Homogeneity、GLCM StdDev、GLCM Correlation。
通过基于信息增益比评估模型的CFS算法进行特征选择,最终形成由10个极化特征和5个属性特征组成的最优特征子集,如表4所示。
表4 最优特征子集
2.2.5 CART决策树分类
首先将上述筛选获得的特征子集利用CART算法做进一步优化选择,然后训练样本生成分类规则,并构建决策树分类模型,如图6所示,最后利用该模型完成分类。
3 实验结果对比分析
为验证IGR-CFS-CART特征选择方案的有效性,将其与IGR-CART算法、CFS-CART算法、CART算法3种分类结果进行比较,分类结果对比如图7所示。
分析图7(a)和图7(e)可知,整体地物分类模糊,细小斑点较多,道路、建筑、植被错分严重,分类精度不高。这是由于使用了全部特征进行分类,造成数据的冗余,产生了“维数灾难”的现象。分析图7(b)、图7(f)和图7(c)、图7(g)可以发现,利用一种特征选择方法分类后各类别错分现象有所改善,整体完整性提高,然而还存在各类别间混淆的现象,尤其部分道路与植被、建筑混淆严重。这种现象是因为仅利用一种特征选择方法优化特征子集还会存在一些噪声特征,影响了分类结果。分析图7(d)和图7(h)可以发现,部分道路与植被还是会有少量的错分,但与另外3种方法的分类结果相比,总体形状较为规整,相邻类别划分清晰,细部处理更为细腻,其他类别间错分大幅减少。综合上述分类结果图对比分析,本文提出的基于信息增益比CFS算法的分类方法能更有效地降低特征维数,淘汰对分类贡献小的特征,提高分类精度。
为了客观地对分类结果进行对比分析,本文采用分类领域常用的Kappa系数、总体精度(overall accuracy)和生产者精度(producers accuracy)作为定量评价指标。其中,Kappa系数是用来评价遥感影像分类结果的一致性检验方法;总体精度表示样本正确分类个数与样本总数之比;生产者精度表示样本中被正确分为该类的样本数量与实际对应地物类别的样本总数之比;两个研究区的分类精度评价指标如表5和表6所示。
表5 宿州市研究区分类精度评价
%
表6 芜湖市研究区分类精度评价
%
由表5和表6可知,利用全部特征的CART分类方法各项精度评价指标均低于其他3种方法,表明过多的特征可能会影响分类器的性能,导致分类精度降低。两个研究区的道路分类精度都偏低,主要原因是部分街道两侧存在较大型树冠等绿化植被,影响了侧视雷达对道路的识别。对体现综合性的总体精度和Kappa系数两个指标进行分析发现,在宿州市研究区中,CART方法比IGR-CART方法分别低5.5%和7.7%,比CFS-CART方法低6.6%和9.1%。IGR-CART和CFS-CART方法精度差距较小,而IGR-CFS-CART方法比CFS-CART方法总体精度和Kappa系数分别高3.4%和4.6%。说明先利用基于信息增益比的CFS算法对特征进行筛选,再利用CART算法进一步优化能够在一定程度上提高分类精度。在芜湖市研究区中,CART方法比IGR-CART方法的总体精度和Kappa系数分别低8.6%和12.4%,比CFS-CART方法低9.1%和13.1%。IGR-CFS-CART分类的结果最好,总体精度和Kappa系数分别达到85.3%和79.4%。因此综合以上分析以及图8可以明显发现,本文提出的方法能够在一定程度上提高PolSAR影像的分类精度。
4 结束语
本文采用信息增益比评估模型和CFS算法相结合的特征选择方法对特征子集进行筛选,再针对经过筛选而精简的特征子集利用CART算法进一步优化,并构建决策树分类规则完成分类。以GF-3不同场景和成像时间的两幅影像数据为例,将本文方法与CFS算法优化特征集、信息增益比评估模型优化特征集、全部特征集的CART分类结果进行对比。结果表明:
1)本文的分类方法可以有效优化特征子集,减少噪声特征的存在,提高分类精度。
2)利用信息增益比的CFS算法筛选特征集的分类方法,相比于仅利用CFS算法的分类方法精度有所提高,在宿州市和芜湖市研究区总体精度分别提高3.4%和2.2%。
3)相比于其他3种分类方法,本文方法的分类结果各项精度评价指标均有不同程度的提升,验证了该方法在PolSAR影像面向对象分类领域具有一定的可行性。
(原文有删减)
END
- END -
“遥感科学与技术”一级学科建设研讨会召开
各种实用航测遥感数据数据免费获取,速来领取!
近48万景、560TB数据免费共享!中国遥感卫星地面站共享数据门户升级改版
干掉卫星、无人机?只用气球就能获取10厘米分辨率遥感影像