融合双注意力机制模型的遥感影像建筑物提取
The following article is from 测绘学术资讯 Author 测绘科学
摘 要:针对深度学习模型提取高分辨率遥感影像建筑物效果不理想,存在漏提、误提和提取不完整等问题,该文基于U-Net提出一种融合双注意力机制和残差结构的网络模型。在U-Net的跳跃连接阶段融合了通道与空间双注意力机制,实现精细化特征融合,编码阶段使用残差模块代替普通卷积来提升模型对建筑物特征的学习能力。利用该文的模型在WHU高分辨率遥感影像数据集上进行建筑物提取实验,与SegNet、U-Net和ResUnet的结果进行对比,结果表明该方法能够有效提升建筑物提取的准确性和精度。
0 引言
近年来随着遥感技术的不断发展,对地观测的高分辨率遥感影像所包含的信息不断丰富,其观测范围、时效性、周期性等性能得到大幅提升,使得遥感影像越来越广泛地应用于各行各业[1]。随着城市现代化进程的加快,城市变化日新月异,作为城市建设用地主要内容的建筑物信息,从一定程度上反映一个地区的城市化水平。高分辨率遥感影像能够真实地记录城市用地现状,为建筑物信息提取提供了很好的基础数据。利用高分辨率遥感影像数据获取城市建筑物信息,对城市规划和土地利用管理具有重要的意义[2]。因此,研究如何从高分辨率遥感影像中自动提取建筑是遥感领域研究的热点之一。
人工目视解译提取建筑物信息的方法时间成本高、效率低下,无法在短时间内实现大范围大数据量的遥感影像处理。借助计算机技术提取建筑物信息是近些年来遥感信息提取的重要内容,而如何更加快速、准确地识别和提取建筑物成为当前遥感领域研究的热点方向之一[3]。传统的遥感影像建筑物提取通常基于影像分析实现,如文献[4]提出基于多类分割与模板匹配的建筑物轮廓信息矢量化方法,该方法需要构建训练样本以及提供建筑物候选点作为先验知识,虽然得到的规则化建筑物外轮廓线完整度较高,但是该过程不仅费时费力,而且人为因素会对提取结果造成干扰;文献[5]在基于邻域总变分的建筑物分割方法中融入了面向对象的思想,再根据分割不同类型建筑物的难易程度,提出了一种多特征融合的建筑物分级提取算法,解决了建筑物与邻近光谱相近的道路混淆问题,但是道路受到严重遮挡时,会出现提取建筑物不完整现象;文献[6]首先利用影像分割得到对象与像素的映射关系,并基于图像的数学形态学top-hat重建技术,提出了面向对象的形态学建筑物指数OBMBI并应用于建筑物自动提取,可以得到较高的提取精度,但是对小型建筑物的提取效果不理想。上述建筑物提取方法,根据建筑物特有的几何、光谱、纹理等特性,人工设计合适的特征提取方法进行建筑物与非建筑物区域的区分,虽然提取效果得到了提高,但也存在提取建筑边界模糊和不完整、漏提小型建筑物等问题。
随着计算机视觉和机器学习的不断发展,深度学习因其优异的特征提取能力,已经逐渐成为遥感图像解译的主流方法之一。卷积神经网络(convolutional neural networks, CNN)具有由浅到深自动提取图像多层次特征信息的能力[7],在遥感影像建筑物提取研究中得到越来越多的重视。文献[8]主要将传统的CNN的全连接层转化为一个个的卷积层,提出了全卷积神经网络(full convolutional network,FCN),通过对图像进行像素级的分类,解决了语义级别的图像分割问题;文献[9]在FCN的基础上提出U-Net卷积神经网络,它结合了反卷积网络和跳跃网络的特点,保留了大量的特征通道,从而获得多尺度特征,使更多信息能流入最终复原的分割图像中,但是对小目标的检测会产生漏提现象;文献[10]以RSU模块(residual U-block)提取多尺度特征与局部特征,利用MPRSUG-Net融合多尺度的特征信息在全局范围内进行信息交换,提高了高分辨率影像的建筑物特征聚集效率,但仍然存在非建筑物误提现象;文献[11]将金字塔池化、残差结构以及卷积块注意力模块引入到Unet网络结构,建立了PRCUnet模型,得到多尺度建筑物的全局信息,利用残差跳跃提高网络深度,并增强了空间信息与通道信息的筛选特征信息,该模型虽然弥补U-Net对小目标检测的欠缺,但是提取建筑物轮廓线不平滑,提取结果不完整。
随着遥感影像分辨率的提升、遥感数据空间信息复杂程度的提高,高分辨率遥感影像中更深层次的特征信息提取需要更深度的神经网络来实现,但随着网络深度的增加,有时会带来梯度爆炸、可靠性降低等问题。深度学习方法在一定程度上提高了建筑物提取精度,但提取结果仍存在漏提、误提、不完整等现象,直接影响了建筑物信息提取的效果。为了更好地解决高分辨率遥感影像中提取建筑物存在的问题,本文提出了融合双注意力机制的残差U-Net模型。在U-Net的跳跃连接阶段融合双注意力机制精细特征融合,使模型对建筑物特征的学习和对非建筑物特征的抑制更具针对性,实现提取效果的提升;在U-Net的编码阶段采用残差模型代替普通卷积,加深网络层数以提高模型的特征提取能力。
1 研究方法
本文基于U-Net模型提出融合卷积双注意力模块(convolutional block attention module,CBAM)和残差结构的编解码网络。其中,双注意力模块包括通道注意力和空间注意力两部分,通道注意力提取全局显著特征纹理,可以减少遥感影像复杂背景对模型训练的影响;空间注意力在空间的尺度上对显著特征进一步筛选,从而更加有效地针对建筑物进行特征学习。选用ResNet50的瓶颈结构残差模块代替编码层的普通卷积,在增加模型网络深度、使模型学习遥感影像更深层次特征的同时,避免了网络深度增加带来的模型不稳定、精度下降等问题。
1.1 U-Net
U-Net是基于全卷积神经网络的语义分割。它由编码器和解码器两部分组成,左侧为编码器,用于提取图像特征,逐步压缩特征图的空间维度,扩张特征图通道;右侧为解码器,用于逐步恢复特征图的细节信息和空间维度[12],压缩特征图通道。编码器由4个卷积块组成,每个卷积块由2个卷积核为3×3的卷积层组成[13],卷积块之间通过Maxpooling(最大池化层)连接,每经过1个卷积块和Maxpooling层,特征图的通道数翻倍,特征图尺寸缩小1/2,经过4个卷积块后,特征图尺寸缩小为输入图像的1/16。特征图再经过2个卷积核为3×3的卷积层和Upsampling(上采样)层后输入解码器。解码器同样由4个卷积块组成,每个卷积块由2个卷积核为3×3的卷积层组成,2个卷积块之间通过Upsampling连接,每经过1个卷积块和Upsampling层,特征图通道数减少一半,特征图尺寸增加1/2,在经过4个卷积块后特征图尺寸恢复至输入图像尺寸。每个编码器卷积块的输出与对应解码器卷积块的输入进行通道叠加,减小Maxpooling层导致特征图信息丢失带来的影响。对经过编码器和解码器后得到的特征图压缩通道后连入SoftMax分类器,得到每个像素属于建筑物和非建筑物类别的概率,将相应像素映射成非建筑物或建筑物。U-Net结构如图1所示。
1.2 CBAM双注意力机制
CBAM双注意力机制模型是用于前馈卷积神经网络的注意力模型,是一种结合通道(Channel)和空间(Spatial)的注意力机制模块[14]。首先在CBAM 模型中输入特征图,特征图大小用H×W×C表示,其中H、W和C分别为特征图的长、宽和通道数。经过通道注意力模块加权后,将含有通道权重信息的特征图经过空间注意力模块,利用特征图的空间关系,收集待测目标特征的语义信息,重新激活输入特征赋予权重,与含有通道权重信息的特征图相乘得到新特征,最终得到同时具有通道权重和空间权重信息的特征图作为输出。经过双注意力机制模型特征学习后的特征图,其目标特征得到充分学习与强化[15],其结构如图2所示。
1.2.1 通道注意力
通道注意力模块(channel attention module, CAM)首先将输入特征图进行全局最大池化和全局平均池化得到两个一维矢量,通过每个特征通道生成的权重来学习通道间的相关性。全局平均池化整合了全局空间信息,全局最大池化取特征图邻域内像素点的最大值,减少无用信息的影响。通过学习通道间的相关参数,为特征通道生成相应的权值,其值代表特征图上每处通道的显著特征程度。最后每个通道权值依次与输入特征图相乘,得到具有通道信息权重的特征图。
CAM的具体实现及其结构如图3所示。先对输入特征图(H×W×C)分别进行全局平均池化和全局最大池化,得到两个特征向量;再分别进行两次全连接操作,第一次全连接压缩通道为C/r,第二次全连接扩张通道为C。将得到的两个二维向量对应元素相加,得到含有通道权重信息的向量,将其与输入特征图逐像素相乘,最后得到经过通道注意力加权后的特征图Mc(H ×W×C)。
1.2.2 空间注意力
CBAM双注意力机制模型首先使用通道注意力模块对不同特征通道的特征进行学习,再引入空间注意力模块(spatial attention module,SAM),同样利用了全局最大池化和全局平均池化,通过关注空间上的特征,根据特征的重要程度,进一步提高对显著特征的筛选能力。
1.3 ResNet残差结构
AlexNet、ZFNet、VGGNet等卷积神经网络识别方法由于分类精度的不断提高而被广泛采用,学者们发现卷积层越深的模型在一些地方的应用效果越好,并尝试研究。但更深的卷积网络也带来网络学习和计算速度减慢、梯度消失或爆炸、准确率和精度饱和甚至下降等网络退化问题。残差神经网络(residual neural network, ResNet)[16]解决了因网络深度的增加而产生的精度下降等问题。文献[17]提出利用残差学习和恒等映射相结合的方式来保障模型精度。残差结构如图5所示。
ResNet残差模块在普通的卷积过程中加入了一个
目前为止,ResNet包括ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152等几种经典的残差网络结构。反复堆叠残差模块,可以构成不同深度的网络结构。本文根据适合U-Net的特征提取网络结构,选取了ResNet50的瓶颈结构作为U-Net的特征提取模块,结构如图6所示,其中残差结构A的作用是增加网络深度,残差结构B的作用是调整特征图尺寸和特征图通道数。
1.4 CBAM Res-Unet模型
本文提出的融合双注意力机制的残差结构U-Net模型(以下简称CBAM Res-Unet),在U-Net的编码阶段使用ResNet50结构代替普通卷积,提取更深层次的特征,输入遥感影像首先进行2次卷积核为3×3的卷积操作提取特征,通道数由初始的3通道扩张为64通道。编码阶段共有4次特征图尺寸变化,每经过一个残差结构B,特征图大小缩小为输入特征图的1/2,特征图通道数扩张为输入特征图的2倍。在经过4个残差模块后,特征图大小为输入图像的1/16,特征图通道数扩张为1 024。U-Net的解码阶段也分为4个模块,每个模块包含1个上采样层和2个卷积核为3×3的卷积层,其主要作用为逐步恢复特征图细节信息,还原特征图尺寸,每经过1个模块,特征图大小增加为输入特征图的2倍,特征图通道数缩减为输入特征图的1/2,在经过解码阶段后特征图还原为输入遥感影像大小,特征图通道数缩减为64。在跳跃连接阶段,将原始U-Net直接与对应阶段进行通道叠加之前,将特征图输入CBAM模块添加权重信息,进行4次特征融合操作。最后将特征图输入2层卷积核大小为1×1的卷积层,调整通道数,输入SoftMax分类器,对特征图每个像素进行预测,得到最终的预测结果。改进后的网络模型如图7所示。
2. 实验与结果分析
2.1 实验数据
为验证本文提出方法的有效性,验证数据采用开源数据WHU建筑物数据集[18]。影像数据采集于新西兰Christchurch市,影像面积为450 km2,样本分辨率为0.3 m,包含了22万多栋不同形态的建筑物,以及相应的矢量文件和栅格影像,是经典的建筑物提取数据集。该数据集建筑物影像明显,分割准确,数据量大,包含了多种形态的建筑物。数据集分为训练集、验证集和测试集,幅数分别为4 736、1 036和2 416,每张大小为512像素×512像素。将影像裁剪成适合网络输入的256 像素× 256像素子图,得到训练集18 944张影像,验证集4 144张影像,测试集9 664张影像。影像集区域及用途划分如图8所示(图片来源:http://gpcv.whu.edu.cn/data/building_dataset.html)。其中,蓝框为训练区,橙色框为评价区域,两个红框为测试区域。
本文同时选择了广州市的机载光学影像作为WHU数据集学习后的4种网络模型的迁移测试集,分辨率为0.1 m,面积约为1 400 m2,经裁剪得到13 312张影像,每张大小为256像素×256像素。
2.2 实验环境及实验设置
实验基于Windows 10操作系统下的Keras深度学习框架,使用Tensorflow作为后端,利用Python 编程语言实现。硬件环境:AMD Ryzen 7 4800H with Radeon Graphics八核CPU,NVIDIA GeForce RTX 2060显卡,16 GB内存和512 GB硬盘。使用OpenCV、GDAL等开源库作为图像处理的方式。为了得到最佳的网络模型权重参数,验证本文提出方法的精准程度,本文设置模型的迭代次数为40次,每隔5次迭代保存一次权重参数文件,最后选取最优参数文件。
2.3 评价指标
本文使用召回率(R)、准确率(P)和F1值3个精度评价指标来衡量模型在数据集上的表现[19]。R表示预测正确的正类个数占全部正样本的比例,P表示预测正确的正类个数占全部预测为正样本的比例,F1值则关联召回率和准确率,作为建筑物提取的重要定量评价指标,如式(2)所示。
式中:TP代表正确提取为建筑物的像素数;FN代表未被正确提取建筑物的像素数;FP代表错误提取背景的像素数。
2.4 实验与分析
为了验证本文模型的精度,利用SegNet、U-Net、ResUnet、CBAM Res-Unet 4种网络模型对WHU建筑物数据集进行处理,并对各模型的训练时间及测试时间进行记录,如表1所示。选取5处不同风格的建筑物进行对比,提取效果如图9所示。
表1 各网络模型的处理时间(WHU数据集)
由表1可以看出,随着模型复杂度的提升,模型的训练时间不断增加,其中SegNet耗时最短,CBAM Res-Unet耗时最长。
图9 各网络模型提取结果(WHU数据集)
利用上述数据学习后的4种网络模型处理广州影像,从中挑选出具有建筑物代表性类型的5组提取效果图,并用圆圈标识不同模型效果的显著差异,如图10所示。
图10 各网络模型提取结果(广州市影像)
从图9、图10可以看出,不同方法与标签数据相比有如下特征:
1) 图9中,CBAM Res-Unet方法提取的房屋的边沿平直,与真实房屋边沿形状接近,多余噪点少,提取目标没有缺失,大目标提取完整,提取的小目标轮廓形状完整,变形小,噪点少,边角锐利清晰。在第一行中,SegNet、U-Net、ResUnet都出现了不同程度的误提现象,用红圈标出;第四行中,SegNet出现严重的漏提现象,U-Net出现了建筑物轮廓不平滑现象,ResUnet则出现“空洞”现象;在第五行中,SegNet、U-Net、ResUnet出现了严重漏提,提取结果不完整。
2) 图10中,4种模型的提取效果均不理想,原因是两个不同区域的建筑物几何机构和纹理特征等方面不同,且直接采用WHU的训练结果。但可以通过目视解译看出,整体上CBAM Res-Unet网络比SegNet、U-Net、ResUnet的建筑物提取边界线更为准确,建筑物提取完整性更好。
3) 从总体上看,SegNet提取的建筑物边界多会出现“锯齿”状条纹,建筑物的边界线粗糙不平,且SegNet相比其他方法,误提现象严重;U-Net提取的建筑物边界会出现小型建筑物漏提和建筑物出现残缺等现象,也会出现误提现象;ResUnet则会在提取大型建筑物时,出现“空洞”现象;CBAM Res-Unet方法在WHU数据集上的提取效果均优于其他3种模型,从而有效抑制了建筑物形态的锯齿和空洞现象。
4)SegNet、U-Net、ResUnet模型提取的边界欠清晰,容易出现小尺寸建筑物漏检、大尺寸建筑物提取不完整等问题。CBAM Res-Unet模型对不同类型的建筑物均可以完整地提取,建筑物边界清晰、平滑、完整。CBAM Res-Unet模型在WHU数据集上的分类效果优于SegNet、U-Net、ResUnet模型,说明该模型在不同尺度建筑物提取上具有更好的效果。
为了定量评价本文方法的有效性,利用SegNet、U-Net、ResUnet、CBAM Res-Unet模型在WHU数据集上进行测试,统计了不同模型的精确率、召回率、F1值,如表2所示。
表2 各网络模型的评价指标(WHU数据集)
从表1可以看出,CBAM Res-Unet网络的精确率为95.37%,较SegNet、U-Net、ResUnet分别提高了6.00%、9.41%、1.39%;召回率为95.13%,与U-Net相当,相对于SegNet和ResUnet分别提升了5.56%和1.90%;F1值为95.25%,较SegNet、U-Net、ResUnet分别提高了5.21%、4.13%、1.55%。该指标表明,CBAM Res-Unet在精确度、召回率和F1值的提升上,均有一定的效果。
3. 结束语
本文提出了适用于高分辨率遥感影像建筑物的CBAM Res-Unet网络模型,在跳跃连接阶段融合了通道与空间双注意力机制,在特征图的通道维度和空间维度增加权重信息,可以有效抑制模型学习非建筑物特征的能力,使模型更加高效、有针对性地学习;在编码阶段采用了残差结构代替普通卷积,在加深模型网络深度的同时解决了梯度爆炸的问题,一定程度上消除原始U-Net低层至高层特征的直连鸿沟,保护了信息的完整性,提高模型的特征提取能力。利用SegNet、U-Net、ResUnet、CBAM Res-Unet4种模型在WHU数据集上进行测试。结果表明,CBAM Res-Unet网络模型通过在跳跃连接上引入特征精化模块,编码阶段引入残差结构,能够增强 U-Net 在不同类型地物上的适应能力,减少建筑物漏提、误提和提取不完整等现象;模型在建筑物提取的3项指标上都有一定的提升,验证了模型的有效性。将本文模型应用于不同区域、不同传感器影像,提高双注意力机制对建筑物特征的提取精度,以进一步提升和验证模型的泛化性和稳健性,是后续需要进行深入研究的内容。
作者简介:张越(1997—),男,河南平顶山人,硕士研究生,主要研究方向为遥感影像解译。
E-mail:582789839@qq.com
基金项目:高分航空数据处理系统项目(30-H40B02-9002-19/21);高分辨率对地观测重大专项(30-Y20A15-9003-17/18)
- END -