查看原文
其他

一种基于遥感影像的城市建筑物变化检测模型

GIS前沿 2022-12-04

The following article is from 测绘学术资讯 Author 测绘科学

摘要针对城市建筑物变化检测问题,该文基于U-net深度学习语义分割模型,提出了一种融合残差结构和注意力机制的遥感影像建筑物变化检测模型,以U-net模型为基础,引入ResNet50的残差结构用来代替编码阶段中的卷积层,在加深网络深度的同时解决梯度消失的问题;在解码阶段横向连接结构中引入注意力机制,加强网络对变化建筑物特征的学习。实验表明,在U-net结构的基础上加入残差结构和注意力模块后,建筑物变化检测的精确率、召回率、F1值分别提升了6.28%、6.02%、5.88%。


0 引言

城镇建设用地变化监测对自然资源调查与监测、国土空间管理与规划等具有十分重要的意义。其中,城镇建筑物的变化是建设用地变化的主要内容,是城镇土地利用动态遥感监测的主要对象。目前,利用遥感技术对城市建筑物及变化信息的提取仍以人工解译为主,效率低下。如何借助大数据、人工智能等新技术在保证精度的前提下提高建筑物变化检测的效率,是遥感领域研究的重要技术方向。有研究人员使用传统的图像处理方法进行建筑物变化检测实验。文献[1]将不同变化检测算法所得结果进行融合,基于差值融合结果,通过二值判断得到变化检测结果;文献[2]利用线性合成方法,生成差异图和相应参数,检测出变化区域;文献[3]利用直线段检测算法和结构相似性度量结合,采用比较特征差异的方式提出一种能够进行快速建筑物变化检测的算法;文献[4]提出一种通过识别、提取和比较新旧影像中建筑物轮廓信息的方法完成建筑物变化检测。上述的变化检测方法都依赖于手动构建的特征,且对遥感影像深层次的特征信息提取能力有限。有研究证明[5-7],当使用传统方法处理高分辨率遥感影像时,由于信息量的增加和特征复杂度的提升,出现漏提误提现象,因此,传统方法得到的精度无法满足生产需要。

近年来,深度学习算法得以飞速发展,研究人员提出和改进的图像语义分割方法能有效提取图像特征,并融合图像不同层次的语义信息,一些学者开始将深度学习方法应用到变化检测中进行研究。文献[8]将超列和光流神经网络(FlowNet)融合到U-net中,提出FlowS-Unet,在U-Net的解码阶段对每一层进行预测,再将预测结果融合到下一层,实现对遥感图像建筑物变化检测;文献[9]用非对称卷积块代替U-net编码阶段的标准卷积操作,在解码部分引入注意力机制,设计了一种建筑物变化检测模型;但上述改进并没有针对模型的网络深度和特征融合的部分进行进一步的优化改进。模型的网络深度直接影响到神经网络提取深层次特征信息的性能,将模型的浅层、深层信息直接进行特征融合,该过程可能会干扰模型学习到的深层特征,这些都可能影响模型的训练及模型的精度。

本文将语义分割思想用于变化检测,提出了一种基于注意力残差结构U-net模型的建筑物变化检测方法。将U-net编码阶段的常规卷积层替换为深度残差网络(deep residual network, ResNet)50结构,减少参数量的同时增加网络深度,优化网络特征提取能力,在每个卷积层与激活函数之间添加批归一化层(BatchNorm),对数据进行标准化操作,使数据符合标准分布,从而使得训练更加简单、快速。在U-net的跳跃连接阶段引入注意力机制以突出重要特征,改善遥感影像背景复杂目标容易被误检的问题。

1 U-netResNet方法与注意力机制

1.1 U-net

U-net是由文献[10]提出的U型对称结构网络。网络由两部分组成,分别是压缩路径和扩展路径。压缩路径部分由4个编码块组成,每个编码块包含两个卷积层一个最大池化层,卷积层扩展通道,最大池化层压缩特征图尺寸,每经过一次编码块特征图尺寸缩小为原来的1/2,特征图个数增加为原来的2倍,主要用于提取特征获取上下文信息。扩展路径部分由4个解码块组成,每个解码块包含两个卷积层和一个反卷积层,卷积层压缩通道,反卷积层恢复特征图尺寸,每经过一次编码块特征图尺寸扩大为原来的2倍,特征图个数减小为原来的1/2,主要用于精准定位,逐步还原图像精度。在跳跃连接阶段通过将每个编码块的输出与同级的解码块输入的特征图相拼接,以恢复编码过程中丢失的部分语义信息,从而保证分割的精度。最后将通道数压缩到所进行的分类数目。通过Softmax分类器计算出特征图中每个像素属于哪一类别的概率。U-net模型结构如图1所示。

1.2 ResNet

1.3 注意力机制

深度学习领域的注意力机制从大量的深度学习样本中过滤无关信息,选择出对当前任务目标更为关键的信息,广泛应用于自然语言处理、图像识别以及语音识别等不同类型的任务中。压缩和激励(squeeze-and-excitation,SE)[12]单元是一种简单有效的注意力单元,其对通道间的依赖关系进行建模,可以自适应地调整个通道的特征响应值。在增加很少计算量的情况下,提升网络性能。

2 基于注意力机制的Res-Unet方法设计

2.1 编码部分

本文提出的算法模型结构如图4所示,模型主要分为两部分,编码部分和解码部分。编码部分采用ResNet50里采用瓶颈结构的Conv Block模块和Identiy Block模块代替传统卷积层操作提取特征,Conv Block模块和Identiy Block模块结构如图5和图6所示。其中,Conv Block模块左侧残差映射部分经过了3次卷积核分别为1×1、3×3、1×1的卷积操作,第一次卷积操作步长为2,缩小特征图尺寸其他卷积步长默认为1,每次卷积后连接批归一化层对特征进行归一化操作,每级分布相对稳定,使得模型具有更高的鲁棒性。加快收敛速度、提升模型的容纳能力[13]之后连接ReLU激活函数层,减少梯度消失现象。在右侧的直接映射部分经过一次卷积核为1×1步长为2的卷积层操作,再将残差映射部分输出特征图与直接映射部分输出特征图逐元素相加后输出,输出特征图尺寸为输入特征图尺寸的1/2。Identiy Block模块结构与Conv Block模块结构类似,但Identiy Block模块卷积层步长均为1,在右侧直接映射部分直接将输入特征图与残差映射部分特征图相加后输出。Conv Block模块相比Identiy Block模块压缩了特征图尺寸。在编码阶段Conv Block模块主要用于压缩特征图尺寸,Identiy Block模块主要用于增加网络深度。

编码部分共有5个阶段,分别表示为conv、res1、res2、res3、res4。conv阶段使用传统

卷积层进行两次卷积核个数为64的卷积操作提取特征,res1~res4阶段使用Conv Block残差模块和Identiy Block残差模块,每个阶段Identiy Block残差模块的个数分别2、3、5、2。由于Conv Block残差模块中含有步长为2的卷积层替代最大池化层,每个res阶段后特征图尺寸变为输入图像的1/2、1/4、1/8、1/16,每个阶段后的特征图通道数分别为64、128、256、512、1 024,因此,在提取特征的最后一层加入了Dropout层,将其比率设置为0.5,随机使50%的隐藏节点值为0,可以明显减少过拟合现象,提高网络的泛化能力。

       

            

2.2 解码部分

解码部分共进行4次上采样,每次上采样后进行卷积核为2×2,卷积核数量分别为512、256、128、64的卷积操作用以消除上采样过程中的混淆效应;同时,跳跃连接部分,将编码部分相应级别特征图通过SE模块添加权重信息后与编码部分特征图进行通道叠加,减小由于下采样造成特征图信息丢失所带来的影响,增强模型的鲁棒性。对叠加后的特征图进行两次卷积核为3×3的卷积,压缩通道数。在模型的末尾进行卷积核为3×3的卷积操作将特征图通道数量压缩为2,连入Softmax分类器,对每个像素点进行预测。模型使用的是交叉熵损失函数,其计算见式(1)。

3 实验与结果分析

3.1实验数据与预处理

实验数据选自LEVIR-CD[14]遥感建筑变化检测数据集。该数据来自美国Texas的20个不同区域,包括Austin、 Lakeway、Bee Cave、Buda、Kyle、Manor、Pflugervilletx、Dripping Springs等地区,数据获取时间为2002—2018年,不同地区的图像可能在不同的时间拍摄,从而将季节性变化和光照性变化引入到数据集中。LEVIR-CD包含637对0.5 m分辨率的遥感图像,图像大小为1 024像素×1 024像素。LEVIR-CD涵盖各种类型的建筑物,例如,别墅、高层公寓、小型车库和大型车库,变化信息包括新增建筑物以及拆除建筑物。完整注释的LEVIR-CD总共包含31 333个单独的变化构建实例。

深度学习模型参数量较大,输入图像尺寸太大会导致训练过程出现内存不足的问题,从而影响Batch_size的大小,不利于梯度下降,故将每张影像裁剪为256像素×256像素大小的影像块,加快模型收敛速度,减小训练震荡。裁剪后得到10 192对影像块,为避免数据分布不均,导致训练出现过拟合或欠拟合,将裁剪后的数据集打乱后划分为70%训练集、20%测试集、10%验证集。

3.2实验环境及参数设置

实验环境如表1所示。

表1  实验环境

优化器用于网络训练时的模型参数更新,将损失函数降到最低,模型训练中常用的优化器有SGD、Adagrad、RMSProp、Adam等[15]。本文选用Adam作为优化器在训练时迭代求解,初始学习率为1×10-3,调用回调函数和TensorBoard来检查并监控深度学习模型,监控验证损失值如果在3轮训练后没有改善,将学习率除以2,每隔3轮训练保存一次权重文件以便在测试时选择最佳权重信息。模型一次训练所选的样本数Batch_size设置为4,以避免内存爆炸,迭代次数Epoch设置为40。

3.3 评价指标

选取精确率(Precision),召回率(Recall)和F1值作为精度评价指标,如式(2)~式(4)所示。精确率为预测正确变化类像素个数与预测变化类像素个数之比,召回率为预测正确变化类像素个数与标签变化类像素之比,F1值是综合考虑精确率和召回率来评价模型精度的指标,可以看作精确率和召回率的加权平均值。

  

式中:TP表示预测变化类像素正确个数;FN表示将标签变化类像素预测为无变化类像素个数;FP表示将标签无变化类像素预测为变化类像素个数。

3.4 实验与结果分析

本文通过融合注意力机制和残差结构对U-net进行改进,并利用改进后的模型对遥感图像中建筑物进行变化检测。图7展示了模型训练过程中训练集和验证集的准确率及损失值随迭代次数的变化情况,可以看出,随着模型迭代次数的增多,模型的精度越来越高,而损失值不断下降,模型在验证集与训练集上的准确率与损失值也逐渐趋于一致,当曲线趋于平稳后网络收敛,训练过程结束。模型在20次迭代后达到了精度较高的稳定状态。

针对本文涉及的网络模型,为了验证其网络精度和改进结构的有效性,将其与经典语义分割模型Segnet以及U-net、Res-Unet不同的语义分割结果进行对比。图8显示的是两组不同语义分割模型的建筑物变化检测效果,其中,白色部分表示变化区域,可以看出,不同的网络模型都不同程度地提取到了变化区域,但提取的效果有一定差异。Segnet模型提取到了大致的变化区域,与其他模型相比,没有跳跃连接结构的Segnet模型提取到的变化建筑物的边界比较模糊,出现了椒盐以及孤立点现象,分割结果不够精细;U-net由于添加了跳跃连接结构,在解码阶段补充了语义信息,相比Segnet在边界分割上更为精细,但其在边界轮廓上的分割效果欠佳,形状明显不规则,且出现变化建筑物误提现象,说明其在特征提取能力方面有所欠缺;Res-Unet由于引入了残差结构,相比U-net在变化建筑物轮廓分割上更为精细,分割结果更为饱满,但没有对跳跃连接结构补充的浅层语义信息进行处理,仍存在误提建筑物现象;SE Res-Unet由于同时具有残差结构提取特征的性能和对跳跃连接阶段特征图进行注意力机制处理的SE模块,相对于其他模型具有更好的分割能力,在特征提取和对变化建筑物边界的分割上都展示出更优异的性能,且对非建筑物变化具有良好的抗干扰能力,证明了本文网络模型对建筑物变化检测的精确性和可靠性。

图 8 建筑物变化检测结果对比

模型效率方面,在表2中做出了统计,Segnet因其相较其他模型结构简单,所需训练时间最短,在其他方法中,随着网络结构逐渐复杂,训练花费的时间也越来越长。U-net由于其跳跃连接结构,增加了模型的参数量,从而增加了模型的训练时间;Res Unet是在U-net的基础上将编码阶段的卷积层替换为残差结构,增强了网络对特征图的特征提取能力,但由于增加了网络的深度使模型的训练时间增长;SE Res-Unet是在Res Unet的基础上在跳跃连接阶段融合了注意力机制,进一步的增强模型对变化建筑物特征提取的能力和抗干扰能力,但由于参数量的上升,是模型训练时长增加的主要原因。而在测试阶段,Segnet在测试集上的用时最短,U-net、Res Unet、SE Res-Unet由于网络结构逐渐复杂,测试所需时间也略微增长,但整体差别不大,后续考虑使用高性能计算机进行处理,提升模型训练效率。

表2 不同模型训练时间和测试时间对比

为进一步验证本文所提网络的精度,将本文网络与经典语义分割网络Segnet以及U-net、Res-Unet的检测精度结果进行对比,如表3所示。与其他语义分割网络相比,本文,设计网络的精确率、召回率和F1值均有明显提高。

从表3可以看出,在U-net中引入残差结构后虽然精确率下降了0.16%,但召回率上升了7.34%,F1值也上升了3.85%,证明引入残差模块能有效提高模型召回率,提高模型的综合性能;在Res Unet中引入注意力机制后,召回率受到一点影响,下降了1.32%,但精确率提升为90%以上,模型F1值提高了2.03%,综合性能有所提升。由上述分析可以得出,由于SE Res -Unet模型强大的特征提取能力以及对非建筑物变化良好的抗干扰能力,其建筑物变化检测的精确率达到93.6%,F1值为4个模型中最高值为88.21%,比U-net模型高出5.88%,能够较为准确完整地提取建筑物变化信息,证明其综合性能更优。

表3 实验精度对比

4 结束语

本文在建筑物变化检测深度学习网络模型构建中,引入残差结构和注意力机制对U-net模型进行改进,设计了融合注意力机制Res-Unet模型。该模型以U-net为基础结构,采用ResNet50的残差单元作为U-net特征提取结构增加模型深度,加强模型特征提取能力,在解码阶段的跳跃连接部分将相应层级的特征图进行注意力机制加权处理使每个特征图通道都包含权重信息,提高网络精度,有效提取建筑物变化特征信息。通过与Segnet、U-net、Res-Unet模型实验对比分析,其F1值均优于其他语义分割模型,精确率在90%以上,大大提高了变化检测精度。在后续的研究中,将尝试在网络中增加多尺度提取特征模块,通过使用数据增强扩充数据集,以提高网络对多尺度建筑物变化的提取能力和泛化能力。


原标题:一种融合注意力机制的建筑物变化检测模型


作者:陈良轩1,2,于海洋1,李英成1.2,3,4,何子鑫1,于丽丽1

(1.河南理工大学 自然资源部矿山时空信息与生态修复实验室,河南 焦作454000;

2.中测新图(北京)遥感技术有限责任公司,北京 100039;

3.北京市低空遥感数据处理工程技术研究中心,北京100039;

4.自然资源部航空遥感技术重点实验室,北京 100039)


作者简介:陈良轩(1997—),男,河南平顶山人,硕士研究生,主要研究方向为遥感图像处理。

E-mail:1143137395@qq.com

基金项目:国家重点研发计划项目(2016YFE0205300);云南省刑事科学技术重点实验室资助项目(2020SKF01)

- END -

你需要了解的常用遥感名词汇总
植被遥感信息提取方法研究进展及发展趋势
各种实用航测遥感数据数据免费获取,速来领取!
近48万景、560TB数据免费共享!中国遥感卫星地面站共享数据门户升级改版
干掉卫星、无人机?只用气球就能获取10厘米分辨率遥感影像

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存