查看原文
其他

基于全卷积神经网络的高分辨率航空影像建筑物提取方法研究

地理信息世界 慧天地 2021-09-20

点击图片上方蓝色字体“慧天地”即可订阅

文章转载自微信公众号地理信息世界GeomaticsWorld,版权归原作者及刊载媒体所有。


作 者 信 息

朱岩彬1,徐启恒2,杨俊涛3,莫海林4

( 1. 东莞市地理信息与规划编制研究中心,广东 东莞 523000;2. 东莞水乡特色发展经济区规划和土地测绘中心,广东 东莞 523000;3. 中国地质大学(北京),北京 100083;4. 东莞市天目测绘工程有限公司,广东 东莞 523000 )


【摘要】随着高分辨率航空影像空间分辨率的提高,地物纹理信息变得更加丰富和复杂,使得从高分辨影像中提取建筑物信息面临巨大挑战。因此采用一种基于全卷积神经网络的高分辨率航空影像中建筑物提取方法,实现端到端的建筑物位置等信息提取。整个模型框架以SegNet模型为基础,在上采样阶段结合SegNet模型中的存储最大池化索引和U-Net模型中的跳跃连接,有效地将低层次和高层次的特征图融合,进行更好的建筑物边界定位。在原有框架的基础上,采用迁移学习思想利用构建的训练样本库对权重进行微调,使网络能够输出稳健的适用于建筑物区域识别的高层次视觉特征。实验采用国际摄影测量与遥感学会公开数据集验证采用方法的有效性和稳健性。实验结果表明,此方法能够有效地提取场景中的建筑物区域。而且,与其他方法相比,该方法在召回率上平均优于2.33%,在精确率上平均优于5.33%,在准确率上优于7.22%。

【关键词】高分辨率影像;全卷积神经网络;城市规划;深度学习;建筑物提取;迁移学习

【中图分类号】P237 【文献标识码】【文章编号】1672-1586(2020)02-0101-06


引文格式:朱岩彬,徐启恒,杨俊涛,等. 基于全卷积神经网络的高分辨率航空影像建筑物提取方法研究[J].地理信息世界,2020,27(2):101-106.


正文


0 引 言


高分辨率遥感的发展极大便利了城区土地利用覆盖制图的研究,为城镇发展规划、应急响应和灾害评估等领域的应用提供了重要的参考数据支持。城市场景中建筑物的位置和空间格局等信息对于智慧城市的建立意义重大。然而,随着遥感影像空间分辨率的提高,伴随着更加丰富的光谱和纹理信息,类内的光谱差异增大,类间的光谱差异减少,同物异谱以及同谱异物的现象也变得更加严重,也给从高分辨率影像中提取建筑物带来一定的挑战。因此,从高分辨率遥感影像中识别和提取建筑物区域是当前的一项研究热点。


近些年,一系列从高分辨率遥感影像中提取建筑物的方法被提取。由于提升的空间分辨率导致在遥感影像中显露出更详细的地物细节信息和复杂的光谱纹理信息,使得原有的基于光谱统计的方法,如极大似然估计最小距离,识别效率低下。除此之外,利用机器学习的监督方法也被用于高分辨率影像建筑物的识别和提取,并展现了明显的优势。陈苏婷等从多尺度的分割对象中提取纹理、颜色和形状特征以实现高分辨率影像的分类。张超等将CART决策树和面向对象的分类方法相结合进行土地利用分类。Li等提出利用贝叶斯网络模型融合多源数据分类高分辨率影像并进行土地利用分析。张俊等采用面向对象遥感影像分类方法对高分辨率遥感影像进行了信息提取实验,并将其与基于像元方法的信息提取结果进行了对比分析。李朝奎等则通过发现和挖掘高分辨率影像丰富的光谱和空间特征知识,建立影像对象多层次网络分割分类结构,实现对遥感影像准确快速的地物分类和精度评价。通常情况下,这些利用传统机器学习的监督方法(如支持向量机、决策树和随机森林等)通过人工设计浅层次的视觉特征,来表达和识别地物的类别。然而,这些视觉特征的计算涉及的计算单元有限,很难高效准确地表达复杂的视觉特征与地物类别之间的隐含函数关系。而且,随着训练数据中样本数量的增加以及样本多样性的增强,这些利用浅层次的视觉特征模型也会因难以适应复杂多变的数据,导致识别和提取性能下降。


深度学习框架采用类似金字塔的结构从低层到高层逐渐地进行高层次和更抽象的特征提取,实现了端到端的模式识别,不涉及人为因素,从而提高地物识别的准确率。当前国内外学者对于深度学习提取深层次的视觉特征用于地物识别的方法有很多。最初,在前述基于人为定义视觉特征的方法基础上,利用多层次的神经网络对低层次的视觉特征进行整合精化,用于地物识别。尽管一定程度上提高了识别的正确率,然而其性能受人为定义视觉特征表达能力的制约。随后,以图像块作为基本的处理基元或事先定义一个候选区域集合,直接作为深度学习框架的输入,实现利用神经网络模型学习深层次的视觉特征,并利用分类器(如Softmax)进行分类。尽管这种方法一定程度上提高了识别的性能,但是往往伴随着大量的重复计算以及面临图像块重叠区域的决策问题。全卷积神经网络模型作为多层次神经网络模型的扩展,通过下采样的方式将上下文信息融入到特征提取过程中,然后利用上采样等操作构建稠密特征图,实现端到端的像素级别分类,目前已经被广泛应用于地物识别和分类应用中。


针对从高分辨率影像中提取建筑物区域的挑战,本文利用一种基于全卷积神经网络的高分辨率航空影像中建筑物提取的方法,实现端到端的建筑物位置等信息提取。图1为本文方法的流程图。整个模型框架以SegNet模型为基础,在上采样阶段结合SegNet模型中的存储最大池化索引和U-Net模型中的跳跃连接,有效地将低层次和高层次的特征图融合,进行更好的建筑物边界定位。因此,这种模型不仅可以有效地提取高分辨率影像中更多的语义信息,也尽可能地恢复不同地物间的边界等细节。实验采用国际摄影测量与遥感协会公开数据集验证本文采用方法的有效性和稳健性。实验结果表明,本文采用的方法能够有效地提取场景中的建筑物区域。


图1 本文方法的流程图

Fig.1 Workflflow of the proposed method


1 基于全卷积神经网络的建筑物提取模型


对于高分辨率影像中建筑物区域提取而言,视觉特征向量的选择和表达能力对于识别效果至关重要。如前文所述,高分辨率影像中包含的丰富的光谱和纹理等细节信息,给计算和设计视觉特征带来了巨大挑战。与传统特征工程的思路不同,卷积神经网络利用卷积和池化操作,自动提取高层次语义信息和获取更多的上下文信息,实现端到端的模式分类,获得了更好的分类正确率。但是卷积神经网络在一系列卷积和池化操作后连接的是全连接层,因此只能实现图像级别的分类。全卷积神经网络模型在卷积和池化操作后,利用上采样等操作构建与输入图像同样大小的稠密特征图,实现像素级别的分类,从而解决了语义级别的图像分割问题。因此,本文利用一种基于全卷积神经网络的高分辨率航空影像中建筑物提取方法,实现端到端的建筑物位置等信息提取。


1.1 SegNet模型


SegNet模型是典型的编码-解码型全卷积神经网络模型。网络模型的构架主要包括一个编码网络和一个对应的解码网络,并跟随着一个像素级别的分类层。编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同。每个编码器由卷积层、批归一化层、RELU组成,之后执行具有2×2窗口和步幅2的最大池化,输出结果相当于系数为2的下采样。最大池化用于实现输入图像中小空间位移的平移不变性,而下采样在特征图中捕获和存储每个像素的大范围上下文信息。编码器网络在编码和获取高层次和抽象语义信息的同时,下采样的操作导致了地物间边缘等细节信息的丢失。因此在下采样之前SegNet模型采用存储最大池化索引的策略捕获和存储边界信息,如图2所示。


图2 SegNet模型解码

Fig.2 SegNet model decoder


1.2 U-Net模型


U-Net模型是受全卷积网络(Fully Convolutional Network,FCN)模型的启发,可以利用少量的数据学习到一个对边缘提取十分鲁棒的模型。整个网络由收缩路径和扩张路径组成。其中,收缩路径用于获取上下文信息,而扩张路径用于精确的定位,且两条路径相互对称。因为形似一个字母U,得名U-Net模型。


对于经典的U-Net模型,收缩路径遵循典型的卷积网络结构,其由两个重复的3×3卷积核组成,且均使用修正线性单元(Rectified Linear Unit,ReLU)激活函数和一个用于下采样(Downsampling)的步长为2的2×2的最大池化操作,以及在每一个下采样的步骤中,特征通道数量都在加倍。


在扩张路径中,每一步都包含对特征图进行上采样(Upsampling);然后用2×2的卷积核进行卷积运算,用于减少一半的特征通道数量;接着级联(Concatenation)收缩路径中相应的裁剪后的特征图;在级联过程中,可以实现对收缩路径中每层特征图都有效使用到后续计算中。与其他模型相比,U-Net模型有效地避免了直接在高层次特征图上进行损失函数计算,而是结合了低层次特征图,从而使得最终的特征图不仅包含高层次特征,而且包含低层次的特征,实现多尺度特征的融合,提高模型的表达能力和识别性能。再用两个3×3的卷积核进行卷积运算,且均使用ReLU激活函数。由于在每次卷积操作中,边界像素存在缺失问题,因此有必要对特征图进行裁剪。在最后一层,利用1×1的卷积核进行卷积运算,将每个64维的特征向量映射网络的输出层。


1.3 U-Net模型和SegNet模型的结合


SegNet模型在将低分辨率特征图转换为高分辨率特征图的上采样过程中使用下采样时的位置信息,上采样将值填入扩大分辨率后的特征图中。这个过程不仅节省了内存空间,而且上采样过程中无需学习。同时,U-Net模型的“U形”结构拼接和整合高层特征图与底层特征图,使得模型能够组合上下文信息和细节信息得到更加精确的输出特征图,有效地还原影像的位置信息,尤其是地物的轮廓边界。由于实际场景中绝大部分建筑物轮廓为多边形形状,因此本文综合SegNet模型和U-Net模型的优势,采用U-SegNet模型[11]结合场景中上下文信息和建筑物轮廓边界,实现端到端的建筑物区域识别与提取。


2 实验与分析


为了验证本文采用方法的有效性和稳健性,采用国际摄影测量与遥感协会公开发布的Vaihingen市高分辨率遥感数据作为验证数据集。该数据集为典型的城市区域,包含大量的建筑物和植被,以便验证本文方法对建筑物区域提取的效果。图4为本文所用的部分实验数据,将本文方法的提取结果与真值进行对比,以验证模型的性能。同时,将实验结果与当前主流的方法得到的识别结果进行对比分析。


图3 本文所用的部分实验数据

Fig.3 Part of experimental data


本文采用召回率(Re)、精确率(Pr)和准确率(OA)对分类结果进行评价。假设原始样本中有两类,其中有P个建筑物的样本,且假设建筑物为正例,有N个其他的样本,且假设其他为负例,则



式中,TP个建筑物的样本被系统正确判定为建筑物,FN个建筑物的样本被系统误判定为其他,FP个其他的样本被系统误判断定为建筑物,TN个其他的样本被系统正确判为其他。


2.1 模型训练


本文数据包含5张带标签的遥感影像(top_mosaic_09cm_area3、top_mosaic_09cm_area13、top_mosaic_09cm_area15、top_mosaic_09cm_area23和top_mosaic_09cm_area30),每张影像均包含不同类型、不同空间分布形态和密度的建筑物区域。为了使训练得到的模型满足平移和旋转不变性,在本文实验中首先对原始的训练影像重复随机裁剪512×512 pixel大小,并对该影像片做以下数据增强处理:①原始影像图和对应的label图分别90°、180°和270°;②原始影像图和对应的label图沿y轴镜像;③对原始影像图做高斯模糊运算;④对原始影像图做光照调整;⑤向原始影像图中添加高斯噪声和椒盐噪声。经过增强处理后,10 000张512×512 pixel的影像构成训练数据集。同时,参考之前工作的训练方法,为了减少训练成本和获得稳健的结果,本文采用的是迁移学习的策略对现有网络参数进行微调,使网络能够输出稳健适用于建筑物区域识别的高层次视觉特征。


在本文实验中,设置batch大小为16,epoch为30,迭代次数设置为10 000,使用交叉熵损失函数作为训练网络的目标函数,设置学习率为0.1,动量为0.9,采用随机梯度下降算法[17]进行目标函数最小化得到最优的模型。对于文中设置的参数,均采用交叉检验的方法获取最优的试验结果。


2.2 实验与分析


2.2.1 定性分析

为了验证本文所用方法的有效性,将其应用于包含不同类型建筑物的实验场景中,并对其识别和提取性能进行定性分析。在实验中,随机地从实验数据中裁剪大小为512×512 pixel的影像,将其输入到训练好的网络模型中进行建筑物的标记。图5为部分实验识别结果。实验结果表明,本文所用方法可以有效地提取出实验场景中建筑物的位置,而不受建筑物分布密度和类型的限制。同时,由于网络结构本身进行下采样和上采样的操作过程,导致建筑物的提取结果中,建筑物的边界会存在不完整或者模糊的现象。而且,建筑物周围的树木遮挡也会对其识别和提取造成一定的影响。


图5 部分实验识别结果

Fig. 5 Part of experimental results


2.2.2 定量分析

为了进一步客观地验证本文所用方法的有效性,将其与主流方法进行比较(基于易康软件的方法和基于多特征的方法)。基于易康软件的方法主要是利用多尺度的分割思想并计算分割对象的特征,最后采用最近邻方法进行分类。而基于多特征的方法则是综合利用了光谱、形状和纹理特征对建筑物进行逐层次的提取。表1总结了不同方法之间在召回率、精确率和准确率方面的对比。实验结果表明,本文所用方法能有效地提取建筑物的区域。而且,与基于易康软件的方法和基于多特征的方法相比,本文所用的方法提取的建筑物区域在召回率方面平均优于2.33%,在精确率方面平均优于5.33%,在准确率方面优于7.22%。


表1 与其他方法对比

Tab.1 Comparisons among difffferent methods


3 结束语


建筑物作为城镇场景中重要的组成构建,其位置和空间格局等信息为城镇发展规划、应急响应和灾害评估等领域的应用提供了重要的参考数据支持。而且,建筑物的三维建模及其可视化也是建立智慧城市的重要环节。然而,高分辨率影像中所展示出的更细节和复杂的地表物体覆盖,使得从高分辨影像中提取建筑物信息面临巨大挑战。因此,本文采用一种结合SegNet模型和U-Net模型的高分辨率航空影像中建筑物提取方法,实现端到端的建筑物位置等信息提取。这种模型不仅可以提取高分辨影像中更多的深层次抽象的语义信息,也尽可能恢复不同地物,特别是建筑物的边界等细节。实验采用国际摄影测量与遥感学会公开数据集验证本文提出方法的有效性和稳健性。实验结果表明,本文提出的方法能精确地对高分辨率影像进行建筑物区域的标记。然而,在建筑物和植被纹理相似的情况下,依然存在错误提取的情况。下一步将融合三维的高度信息辅助影像中建筑物的提取。同时,全卷积神经网络存在的下采样操作导致的提取边界模糊问题,下阶段将引入建筑物边界信息对结果进行约束以改善提取结果。


(点击图片即可查看详细信息)




内容转载、商务活动、投稿等合作请联系

微信号:huitiandi321

邮箱:geomaticshtd@163.com

欢迎关注慧天地同名新浪微博:

ID:慧天地_geomaticser

往期精彩推荐
基于夜间灯光遥感的城市垂直空间扩展研究——以武汉为例
基于多源大数据的武汉城市圈城际通勤分布及影响因素研究
基于百度指数的生态文明关注度时空分析



《慧天地》敬告

《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,探索企业核心竞争力,传播测绘地理信息文化,为测绘、地信、遥感等相关专业的同学提供日常学习、考研就业一站式服务,旨在打造政产学研用精准对接的平台。《慧天地》高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章开头显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!


——《慧天地》运营团队

编辑:富裕  审核:韩政
指导:万剑华教授
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存