查看原文
其他

一种深度学习的无人机影像道路自动提取方法

GIS前沿 2022-12-04

The following article is from 测绘学术资讯 Author 测绘科学

 
摘  要:针对无人机影像道路提取自动化程度低、道路信息不完整及道路交叉口不连通等问题,该文提出了一种结合拓扑结构和全局上下文感知的无人机影像道路提取方法,通过构建一种编码/解码模式的深度学习方法实现自动化提取。在网络模型中,设计了聚合特征模块及增强型扩张卷积模块以获取更多的道路信息,并引入拓扑感知损失函数以保证道路的连通性,实现道路拓扑结构特性的反演。实验结果表明,基于改进后的网络模型对道路信息的提取效果较好,在无人机影像测试集上的准确率、召回率、F1得分和交并比(IoU)分别达到了89.07%、84.74%、86.86%和72.45%;在马萨诸塞州道路公共影像集通用性测试中,提取原始遥感图像的道路信息也表现了出色的提取性能。
 关键字:拓扑结构;全局上下文;无人机;道路提取;聚合特征

0 引言

随着无人机(unmanned aerial vehicle,UAV)技术的发展与广泛应用,无人机遥感在道路等地表附着物精细化量测、城市建筑三维重建等方面发展至关重要[1]。目前,利用无人机影像提取地理空间道路信息是一个重要的研究课题。针对高分辨率遥感影像,传统的人工解译道路提取方法费时费力,研究自动化提取方法将能够有效提高道路获取和更新的效率。
近年来,继许多学者利用卷积神经网络实现图像识别后[2,3],深度学习方法在遥感图像的信息提取领域[4-5]获得了越来越多的应用。文献[6]将深度学习方法应用于道路提取,并取得了良好的效果。文献[7]首先基于卷积神经网络预测遥感图像中属于道路区域像素的概率图,然后利用线性积分卷积算法进行平滑,从而保留道路边缘信息。文献[8]提出局部和全局关注单元,并基于密集网络构造了一种新的道路提取方法,该方法可以有效地从具有本地和全局信息的遥感图像中提取道路网络。文献[9]提出了一个新的坐标卷积模块,添加两个通道到原始卷积中,用来存储水平和垂直像素信息,从而获取多层次的空间信息。这些道路提取方法都致力于寻找更深的网络结构,或者更强的功能来满足构造分类器。在本文研究的网络模型中全局上下文感知模块是重要的组成部分之一,该模块可提取全局上下文语义信息并整合生成更高级的特征图。目前,用于语义分割的最佳架构之一是U-Net模型[10]。U-Net模型在编码器部分使用两个卷积层进行特征提取,并用一个平均池化层下采样。与这种方式相比,ResNet模型[11]通过添加快捷机制的方法来加深训练模型的层数,有效避免了梯度消失并加速网络收敛。在利用遥感影像提取道路上下文信息过程中,已经有一些研究提出了多尺度和多层次特征来利用影像中像素的类别和空间信息两个功能,例如,PSPNet[12]使用空间金字塔模块来收集多层次特征作为上下文信息。后来有一些研究使用扩张卷积的方式来扩大接受场以获取上下文信息,例如,Deeplabv2[13]组合不同扩张速率的扩张卷积提出了扩张卷积模块,可以在不增加计算负担的情况下捕获大范围的多尺度上下文信息。但是,当前的上下文信息建模机制在道路提取上仍有改进的余地,即这些方法具有很强的视觉特征提取能力,但很难识别出被遮挡的道路。此外,传统的深度学习中经常使用交叉熵损失函数作为训练损失函数[14],这就使得在获取道路等曲线及复杂拓扑结构信息过程中造成的损失是局部的,对所有的错误都采取了同样的惩罚,并没有考虑几何拓扑因素的影响。而遥感图像中的道路信息往往像素占有率较小且道路信息具有很强的拓扑结构[15],可见交叉熵损失对于道路分割不是最佳的。在模型训练过程中,经过编码器编码后的特征图会包含更多的特征信息[16],包括边界、纹理及空间结构等。但由于编码过程中的池化操作,会导致部分语义信息的缺失,同时也会产生较多的背景噪声。相比之下,未经过编码的特征图中则保存了更多的语义信息[17],结合使用未编码和编码后的特征图像对于特征的定位及噪声的抑制很有帮助。
因此,本文提出一种结合拓扑结构和全局上下文感知的聚合网络(TGCA-Net)无人机影像道路提取方法。该方法首先对道路特定的上下文信息进行建模,结合特征编码和特征解码模块构建全局上下文感知网络训练模型。有效地将道路高维度与低维度信息结合,从而获取更多的道路信息。此外,本文通过考虑道路拓扑结构来适当增加拓扑特性的提取结果,进而提高提取的准确性。
 

1 数据源与预处理

本次研究使用了两个影像集,分别如图1和图2所示。图1为一个自制的无人机影像道路集,采集时间为2019年11月,拍摄区域为天津市京津新城地区。原始无人机图像分辨率为0.1 m,使得拼接后的无人机影像尺寸较大。由于使用大尺寸的训练图像进行训练,对计算机性能的要求更高,训练阶段将更长。因此,将训练图像切成尺寸为1 024像素×1 024像素的图像块,并且标注每个训练图像中道路像素值为0,其他区域像素值为255,制成与之一一对应的真实道路标签。这里共得到1 979张训练图像和111张验证图像。图2为一个公开的马萨诸塞州影像道路集,该影像集原始尺寸为1 500像素×1 500像素,由1 108张训练图像和14张验证图像组成。此外,为避免模型在训练阶段过分适应某个区域的图像特征,所有区域的原始图像和相应的标签图像都按照无序排列并存储在不同的文件夹中。


2 道路提取方法

这里分别介绍设计的无人机影像道路提取TGCA-Net模型的特征编码模块、全局上下文感知模块和特征解码模块,如图3所示。给出了在训练过程中使用的拓扑几何感知加权交叉熵损失函数及实施细节和评估指标。

2.1 特征编码模块

在本次工作中,特征编码模块采用经过预训练的ResNet编码部分作为主干方法,该模块中保留了4个残差学习单元块。如图4所示,每个ResNet的残差学习单元内部,输入的训练图像共经过两次3×3卷积层(Conv 3×3),且每一次卷积层后都经过批处理归一化(BN)层和整流线性单元(ReLU)激活层处理。最终,经过特征编码后可以得到较高级特征图像。

2.2 全局上下文感知模块

在ResNet和PSPNet获取上下文信息机制基础上,本文提出了增强型扩张卷积模块(enhanced dilated convolutionmodule,EDCM)来捕获全局上下文信息。在该模块中,使用3个级联分支,每个分支中同时叠加扩张卷积和多尺度核卷积结果,最终整合每个分支结果为高级特征图。在感知全局上下文信息过程中,如图5所示,扩张卷积的卷积率(dilated)从1到2、4依次增加,即每个分支的感受野为3×3、7×7、15×15。对应的利用大小分别为3、7、15的卷积核(Conv)进行卷积,然后采用双线性插值法对低维特征图进行上采样(Upsample),叠加整合以获得与输入特征图相同的尺寸特征。这种结构通过提取具有各种大小的对象特征,从而提高了网络提取特征的能力。

2.3 特征解码模块

经过增强型扩张卷积模块(EDCM)处理后,会生成更高级的信息特征图,这有助于从全局的角度推断不同显著对象之间的关系。因此,在特征解码模块中设计了聚合特征模块(IFAM),以集成来自3个级别的特征图。如图6所示,IFAM被设计为3个输入部分,其中一个用来接收同一级输出的特征图,这种输入方式类似于U-Net的跳跃连接结构,将未经过编码的特征图直接传递到IFAM中;第二部分接收相应编码后的特征图,第三部分则接收经过EDCM后生成的上下文信息特征图。成功接收3部分输入特征图后,首先对第一部分输入通过全局平均池化生成权重值,然后与第二部分输入的特征图进行乘法操作生成新的特征图。接下来,对新的特征图用全局平均池化生成新的权重,再与第二部分输入的特征图继续进行乘法操作。最后,将新特征图与第一部分输入特征图结合以作为IFAM的输出结果图。经过3个连续的IFAM,最后一层利用1×1卷积层,使用S形激活函数来生成与输入图像的大小相等的二进制掩码作为输出。

2.4 拓扑感知损失函数

本文拟议的框架是一种编码-解码模式的深度学习方法,用结合了拓扑几何感知加权交叉熵损失[18]的新损失函数来代替交叉熵损失函数,从而将拓扑感知中几何边界光滑度纳入深度完全卷积网络的学习中。具体操作是在交叉熵损失函数的基础上引入惩罚项,如式(1)~式(3)所示。

2.5 实施细节和评估指标

本文使用动量SGD训练拟议的TGCA-Net模型,训练的硬件配置是NVIDIA GeForce GTX1660 Ti GPU,软件配置为Windows系统下的PyTorch环境。实验中超参数设置分别为:批大小为4,初始学习率为0.001,动量为0.9,拓扑损失函数中设置值为0.1。为了定量比较结果,采用了式(4)~式(7)的评估指标,分别为准确率、召回率、F1得分和交并比(IoU)。

3 实验结果与分析

3.1 道路提取结果

为了验证本文方法对道路分割具有较优结果,利用 U-Net、FCNs和D-LinkNet[19]网络同时对该数据集进行分割处理。将训练好的模型,使用相同的验证数据集进行对比。同时,在验证模型预测效果的时候,本次基于验证数据集中是否包含曲线道路要素进行可视化比较。即把验证集中仅含有直线道路要素的图像视为预测数据集1,把验证集中含有曲线道路要素的图像视为预测数据集2。
图7分别展示了预测数据集1的原始图像、标注图像、采用FCNs的分割结果、采用D-LinkNet的分割结果、采用U-Net的分割结果以及本文方法的分割结果。将提取结果与原始图像对比可知,在预测数据集1中,道路的分布多为直线或交叉直线,且道路周边的地物类型相对一致,突出较明显。道路部分也只存在较少的遮挡部分。在这种情况下,相比于FCNs模型,D-LinkNet、U-Net以及本文方法均表现出较好的道路分割效果。但是,图7红色圈内对比显示,D-LinkNet、U-Net模型在部分道路交叉口存在断裂现象。通过观察对应的原始图像部分,可以发现在这些道路交叉口,即出现断裂的部分并没有遮挡现象。相比之下,本文的方法在全局上下文感知的基础上,将道路的拓扑性质考虑在内,在相同的训练条件下,道路的连通方面表现效果更好。
图8中分别展示了预测数据集2下原始图像、标注图像、FCNs的分割结果、D-LinkNet的分割结果、U-Net的分割结果以及本文方法的分割结果。将提取结果与原始图像对比可知,在预测数据集2中,道路的形状结构变得复杂,有更多的曲线道路,道路周边的建筑物等地物类型也变得多样。并且部分道路中间存在全遮挡现象。在这种情况下,基于相同的训练条件利用FCNs模型提取效果不是很理想。同样的,图8红色圈内显示,无论是基于D-LinkNet还是U-Net模型,在相同训练条件复杂背景下的道路分割交叉口依然存在断裂现象。此外,观察原始图像部分道路交叉口有树木遮挡现象,此处的道路分割结果也有断裂。相比之下,利用本文提出的方法分割道路结构较完善,在道路遮挡部分也很好地分割出了属于道路的部分。

3.2 定量对比分析

为了更加直观地对分割结果进行分析,基于上述的评价标准统计了各个分割模型的评价结果。表1展示了不同网络结构在评价标准下的结果,可以看出,本文提出的TGCA-Net模型在自制的无人机影像测试集上准确率、召回率、F1得分和IoU分别达到89.07%、84.74%、86.86%和72.45%。其中,IoU相比其他道路分割网络FCNs高出7.41个百分点,相比U-Net和D-LinkNet高出近3个百分点。F1得分与FCNs相比提高了6.96个百分比,与U-Net相比提高了2.78个百分比,与D-LinkNet相比高出1.11个百分比。通过4种指标定量对比结果显示,改进的TGCA-Net模型对于无人机遥感道路信息提取准确率有所提升。其主要原因在于综合考虑道路的拓扑结构,使得获取的道路结构更完整,可以得到更多的道路信息,进而提高准确率。

3.3 模型的通用性检验

通过定量对比分析结果可以看出,本文的TGCA-Net模型在自制的无人机影像道路集上取得了较好的效果。为了进一步验证TGCA-Net模型的通用性,选用马萨诸塞州道路影像集对其进行训练及测试验证。首先对原始数据集进行图像裁剪,共得到9 945张尺寸大小为500像素×500像素的训练图像,通过训练模型和实验,得到验证结果如图9所示,可以看到马萨诸塞州道路数据集中原始遥感图像提取出来的道路框架。图9红色圈显示,提取的道路图像中缺少部分道路,但是图像中的大多数道路已被提取,主干道上的提取效果特别出色,与标签的一致程度很高。此外,图中黄色圈显示,本文提出的模型对于提取标签没有进行标记的小道路也有一定的成效。
另外,为了定量评估马萨诸塞州道路数据集中本文提出模型的性能,在表2中列出了各种评估指标。可以看出,本文提出模型在马萨诸塞州道路测试集中平均准确率、召回率、F1得分和IoU分别达到67.45%、75.32%、71.13%和56.40%,表明本文提出模型具有出色的道路自动提取能力,并且对道路提取任务具有很强的概括性。


4 结束语

无人机遥感的广泛应用及地理空间对道路要素信息的需求,针对道路的曲线及复杂拓扑结构信息自动准确提取难度大等背景,本文提出了一种遥感影像自动获取道路信息的方法。该方法基于改进的TGCA-Net模型,结合拓扑结构和全局上下文信息感知道路,可以在无人机获取的高分辨率遥感图像自动提取道路信息。
与目前常用于提取道路信息的网络模型对比分析,结果表明,基于改进后的训练模型可以获取更多的道路信息。引入拓扑结构感知进行复杂情景道路提取可行,且能够考虑道路的拓扑结构,使得获取的道路连通性更强。定量分析结果表明,本文网络模型在无人机影像测试集上的准确率、召回率、F1得分和IoU分别达到了89.07%、84.74%、86.86%和72.45%,相比于其他网络模型各项指标均得到了有效提高,能够很好地还原真实道路。此外,在马萨诸塞州道路影像集通用性测试中,原始遥感图像的道路框架基本上被提取出来,其平均准确率、召回率、F1得分和IoU分别达到67.45%、75.32%、71.13%和56.40%,表现了出色的道路自动提取能力。但由于不同的道路类型和宽度等因素的干扰,有部分道路信息结果仍然显示不连续。因此,下一步的研究重点放在算法的优化及使用不同平台的数据源,以实现更好的应用。


作者简介:王晓霏(1993—),男,山西晋中人,硕士研究生,主要研究方向为遥感技术应用、无人机遥感数据处理应用。
E-mail:wxf05644@163.com
王晓霏,叶虎平,廖小罕,岳焕印,施  冬
1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101;
2.长江大学地球科学学院,武汉 430100;
3.天津中科无人机应用研究院,天津 301800;
4. 中国科学院无人机应用与管控研究中心,北京 100101)
基金项目:中国科学院重点部署项目(ZDRW-KT-2020-2-1);国际自然科学基金项目(41771388,41971359);天津科技计划项目智能制造专项(Tianjin-IMP-2018-2)

- END -

让遥感在线计算拥抱人工智能!用AI赋能遥感图像智能解译

“北京2000坐标系”2022年1月1日启用

美遥感创企获准出售10厘米分辨率遥感影像

全球10米遥感数据免费下载及预处理(附软件下载)

深度学习搞定遥感影像目标检测


戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存