如何高精度地对SAR图像中城市地区建筑物区域进行像素级提取是微波遥感中的重要问题,为此苏州大学康健副教授提出了一种基于监督对比学习正则化的高分辨率SAR图像建筑物区域提取方法,通过增强同一类别像素在特征空间中的相似性以及不同类别像素之间的差异性,使得深度学习模型能更加关注SAR图像中建筑物与非建筑物区域在特征空间中的区别,从而提升建筑物识别精度。苏州大学康健副教授提出了基于监督对比学习正则化的高分辨率SAR图像建筑物区域提取方法(如图1),通过增强同一类别像素在特征空间中的相似性以及不同类别像素之间的差异性,使得深度学习模型能更加关注SAR图像中建筑物与非建筑物区域在特征空间中的区别,从而提升建筑物识别精度,利用公开的大场景 SpaceNet6数据集,通过对比实验,提出的正则化方法,其建筑物提取精度相比于常用的分割方法在不同网络结构下至少提升1%,分割结果证明了该文方法在实际数据上的有效性,可以对复杂场景下的城市建筑物区域进行有效分割。此外,该方法也可以拓展应用于其他SAR图像像素级别的地物分割任务中。 不同于光学图像,SAR图像的成像机理使得被观测地物目标具有独特的几何特性,比如透视收缩、叠掩等,而且SAR图像主要反映地物目标对微波的后向散射特性,并不能充分显示出目标的纹理结构及颜色特征,这些因素使得SAR图像解译一直面临较大的挑战(如图2所示)。随着对地观测技术对大范围、精细化SAR图像的地物目标识别精度的要求不断提升,大场景、高精度、智能化的SAR图像解译技术是领域内近年来重要的研究方向,其中,城市地区的建筑物区域自动提取属于SAR图像解译技术的主要任务之一。SAR图像建筑物提取旨在从获取到的SAR图像中分离出建筑物区域与背景区域。在城市地区,建筑物高度参差不齐且密集排布,存在相互遮挡的现象,而且背景目标丰富,电磁散射情况复杂,这些原因均影响了高分辨率SAR图像中建筑物区域的提取精度。
图2 相比于光学图像,SAR图像高精度、精细化建筑物区域提取具有很大挑战
近年来,数据驱动下的深度学习技术已经成为图像处理及视觉领域的主流方法。在海量训练数据的前提下,多层的卷积神经网络(Convolutional Neural Network, CNN)可以自适应地调节各层卷积核权重,使其能准确地挖掘目标从底层到高层的语义特征。鉴于其特征提取的优越性能,CNN方法在SAR图像中的地物目标提取中获得了广泛关注。现有的基于深度学习的SAR图像建筑物提取方法大部分利用交叉熵(Cross Entropy, CE)或者Dice系数作为损失函数训练CNN模型,这些基于分类或分割效果设计的损失函数并没有充分利用建筑与背景像素在特征空间中的语义关系,这使得训练模型对于复杂城市地区散射点的辨识能力不强,从而制约了模型对于大范围建筑物提取上的效果以及泛化能力。 为了解决上述问题,苏州大学康健副教授提出了基于监督对比学习正则化的高分辨率SAR图像建筑物区域提取方法(如图3所示)。具体而言,在分割损失函数的基础上,利用同一类别像素在特征空间的距离近、不同类别像素在特征空间的距离远的性质,进一步在网络训练过程中约束不同像素之间的语义相似性,从而提升CNN模型对于建筑和背景像素的分辨能力,模型对于SAR图像建筑物的提取精度得到有效提高。图3 监督对比学习正则化的SAR图像建筑物提取模型示意图
该文首先针对SAR图像的建筑物区域的特征不明显,且受到相干斑噪声的影响,难以将其与周围地物进行区分这一现象,设计了监督对比正则化方法,在传统深度网络及分割损失函数基础上,在分割输出层之前引入卷积层,得到非线性特征投影,再利用图像的真值信息对特征投影进行监督对比学习,即约束类内及类间的特征投影距离,使得同一类别的特征投影在特征空间中距离近,不同类别的特征投影之间的距离远,进而提出了联合损失函数用来学习优化深度分割网络,从而使建筑物区域分割效果得到提升。本文提出的联合损失函数适用于任何分割网络结构,在实验中选取了比较常用的DeepLabV3+以及Unet(如图4所示),其中的特征提取网络分别选取了ResNet34与ResNet50。
图4 本文所采用的常用的DeepLabV3+与UNet网络结构
为了验证算法的有效性,本文采用的数据集为2020年EarthVision竞赛发布的SpaceNet6,其包括荷兰鹿特丹港120 km2的3401张X波段全极化(HH, HV, VH和VV) SAR图像,其空间分辨率为0.5 m,每张大小为900×900,共有大约48,000个带标注的建筑物区域,本文选取2696张图像作为训练,其余705张作为测试。对比常用的分割损失函数Dice以及Focal+Dice,所提出的方法在测试数据上的不同度量指标中均取得了最好的效果(如表1所示)。图5展示了DeepLabV3+[ResNet50]网络基于Focal+Dice以及Focal+Dice+CL在一张SAR城市图片上的建筑物提取结果。对比所框出区域,运用对比学习正则化项得到的建筑物区域更加精确,相反,采用Focal+Dice损失函数得到的结果较容易将建筑物像素以及背景像素相混淆,这进一步证明了本文所提出的对比学习正则化项在区分SAR图像中建筑物及背景像素上的有效性。表1 不同网络模型及损失函数下的建筑物提取性能比较
图5 不同方法的建筑物提取结果:(a)为输入的全极化SAR图像;(b)为DeepLabV3+[ResNet50]运用Focal+Dice得到的结果;(c)为DeepLabV3+[ResNet50]在Focal+Dice+CL上得到的结果;(d) 建筑物区域真值 为了进一步分析所提出的对比学习正则化项,图6展示了DeepLabV3+[ResNet50]模型在有与没有对比损失正则化下得到建筑物区域像素特征之间的相似性直方图,在有对比损失函数的情况下,建筑物区域像素之间的特征相似性明显高于没有对比损失函数得到的特征预测结果,高的特征相似性可以使建筑物区域像素的特征更加一致,从而使其更容易被分类而且精度更高。
图6 DeepLabV3+[ResNet50]模型在有与没有对比损失正则化下得到建筑物区域像素特征之间的相似性直方图 另外,本文所提出方法所涉及的主要参数包括查询及键像素的数量,为了测试不同参数下所提方法对于建筑物区域分割精度的影响,本文利用F1度量指标分析了不同查询及键像素数量对所提出方法的敏感性(如图7所示)。在查询及键像素数量均比较大的情况下,训练得到的模型在建筑物提取上能取得更好的效果。不过大量的查询及键像素会增加训练计算量,降低模型训练速度,在实际应用中需要根据速度及精度指标要求灵活选取参数值。为了验证所提出方法在复杂城市地区建筑物提取上的效果,图8给出了城市中心地区的全极化SAR图像以及本文方法取得的预测结果。从预测结果可以看出,所提出方法能将复杂城市地区的大部分建筑物识别出来,并且在红色框选出的建筑物区域,方法能更好地将建筑识别出来,而没有对比正则化项的损失函数在这些区域预测结果的一致性较差,从而产生整个建筑物被割裂的现象,因此,所提出的方法能较好地对大范围城市地区建筑物区域进行识别提取。
图7 不同查询及键像素数量对所提出方法的敏感性分析(采用DeepLabV3+网络结构)
图8 所得到的输出所提出方法得到的大范围城市地区建筑物提取结果(DeepLabV3+[ResNet50])康健(1991-),男,2019年在慕尼黑工业大学获得博士学位,现任苏州大学电子信息学院副教授,硕士生导师,IEEE会员,雷达学报客座编辑。主要研究方向为遥感图像智能解译。
王智睿(1990-),男,2018年在清华大学获得博士学位,现任中国科学院空天信息创新研究院助理研究员。主要研究方向为SAR图像智能解译。
祝若鑫(1991-),男,德国工学博士,西安测绘研究所助理研究员。主要研究方向为社会感知和时空数据挖掘。
孙显(1981-),男,中国科学院空天信息创新研究院研究员,博士生导师。主要研究方向为计算机视觉与遥感图像理解,IEEE高级会员,雷达学报青年编委。
《雷达学报》2019-2021年度优秀编委
“多功能一体化信号理论研究”专题征文通知
“海面散射特性与目标检测新技术”专题征文通知
基于组合条件随机场的极化SAR图像监督地物分类
基于复值卷积神经网络样本精选的极化SAR图像弱监督分类方法
低频电磁波建筑物内部结构透视技术研究进展
基于幅相不一致准则的建筑物SAR层析成像
一种InSAR建筑物图像仿真及高程反演方法
Ku波段极化SAR成像仿真及建筑物损毁评估
编辑:李郝亮
欢迎转发本号原创内容,转载和摘编需经本号授权并标注原作者和信息来源为《雷达学报》。本号发布信息旨在传播交流,其内容由作者负责,不代表本号观点。如涉及文字、图片、版权等问题,请在20日内与本号联系,我们将第一时间处理。《雷达学报》拥有最终解释权。