查看原文
其他

论文推荐 | 郑鑫,潘斌,张健:可变形网络与迁移学习相结合的电力塔遥感影像目标检测法

测绘学报 智绘科服 2021-09-21

《测绘学报》

构建与学术的桥梁        拉近与权威的距离

复制链接,关注《测绘学报》抖音!

【测绘学报的个人主页】长按复制此条消息,长按复制打开抖音查看TA的更多作品##7NsBSynuc88##[抖音口令]

本文内容来源于《测绘学报》2020年第8期,审图号GS(2020)4062号。


可变形网络与迁移学习相结合的电力塔遥感影像目标检测法



郑鑫,潘斌,张健    

武汉大学遥感信息工程学院, 湖北 武汉 430079

摘要:电力塔是电力基础设施的重要组成部分,对其进行检测是必不可少的工作。针对当前遥感影像电力塔检测算法精度低,效果差的问题,本文基于可变形网络和迁移学习对Faster R-CNN进行改进,提出一种基于遥感影像的电力塔检测框架。该框架主要分为两个部分:①特征提取子网络,即利用可变形网络模型改进卷积层,来提高模型对于电力塔几何形变的特征提取能力;②目标检测子网络,即通过模型迁移,将由特征提取子网络训练获得的模型参数迁移至此子网络,由RPN网络和可变形区域池化结合非极大值抑制(NMS)精确获取电力塔位置,利用Fine-tuning技术快速训练此子网络,最终实现高精度的遥感影像电力塔检测。本文算法在测试集中对电力塔检测结果为AP0.5 0.886 1,AP0.6 0.839 6,ACC 0.894 8,与SSD、YOLOv3、Faster R-CNN等相比,各检测指标至少高0.2。由对比试验可以看出,该框架对电力塔遥感影像可以实现较高精度检测,表明该方法在电力塔检测上拥有较大应用潜力。

关键词:目标检测    遥感影像    可变形网络    迁移学习   Faster R-CNN


引文格式:郑鑫, 潘斌, 张健. 可变形网络与迁移学习相结合的电力塔遥感影像目标检测法. 测绘学报,2020,49(8):1042-1050. DOI: 10.11947/j.AGCS.2020.20190356.
阅读全文:http://xb.sinomaps.com/article/2020/1001-1595/2020-8-1042.htm   
全文概述



随着遥感技术的快速发展, 遥感影像数据越来越丰富, 对遥感影像的处理与应用具有重大的科学研究意义和实际应用意义。电力塔是国家电力基础设施的重要组成部分,电力塔检测在电力巡查,抢险救灾等方面具有重要作用,近年来越来越受到广泛的关注。传统的目标检测方法是,通过对遥感影像进行预处理操作后利用滑动窗口对影像进行区域候选框的筛选,并使用HOG[1]、SIFT[2-3]、SURF[4-5]等算法进行特征提取, 通过SVM[6]、AdaBoost[7]等方法对所提取的特征进行分类来判断区域候选框目标所属类别,最后对区域候选框进行边框回归。卷积神经网络(CNN)[8]诞生后,基于其强大的特征提取能力,传统目标检测方法逐渐被替代。文献[9]设计了R-CNN目标检测框架,该框架基于AlexNet[10],使用Selective Search[11](SS)方法提取区域候选框并采用独立训练的SVM分类器以及线性回归模型对目标进行分类和边框回归。文献[12]改进R-CNN框架并成功应用在遥感影像飞机目标识别,取得良好效果。文献[13]通过引入图像金字塔,有效地避免了图像尺度对卷积计算的影响,提出了SPP-net。该方法可实现不同尺度的多层卷积计算,保留了底层细节特征。文献[14]通过改进SPP-net在SAR图像变化检测方向获得成功。文献[15]结合R-CNN和SPP-net的优点,提出了目标检测模型Fast R-CNN。该模型将CNN应用到目标分类和边框回归,引入了多任务损失函数,实现了端到端的训练。文献[16]在Fast R-CNN的基础上,通过使用区域推荐网络(RPN)来获取区域建议框,并提出了目标检测模型Faster R-CNN,使得检测速率大幅度提高。文献[17]基于Faster R-CNN对电网进行异物检测,取得显著效果。由于目前没有相关的开源数据集以及电力塔遥感数据采集与标注需要耗费大量人力与时间,当前常用目标检测算法在遥感影像上检测电力塔存在精度低、效果差等问题。本文提出一种基于可变形网络和迁移学习[18]的遥感影像电力塔检测框架。该框架可有效提高电力塔检测精度,并在各种场景下都具有良好的适应性。


1  基于可变形网络和迁移学习的遥感影像电力塔检测框架


由于当前常用的目标检测算法在遥感影像上检测电力塔存在着一定的局限性,本文基于Faster R-CNN针对遥感影像电力塔检测提出了一种新的检测框架。该框架主要分为两个部分。第1部分通过可变形卷积模型改进ResNet101网络的卷积层并在自然电力塔图像数据集上训练,强化ResNet101对电力塔特征的提取能力。第2部分运用迁移学习思想,以第1部分训练好的网络参数为基础,结合RPN网络和可变形区域池化来精准获取电力塔在遥感影像上的位置,利用Fine-tuning技术对ResNet101网络进行微调,在保证模型检测精度的前提下提高训练速度,形成最终模型。具体的算法框架见图 1

图 1 算法框架 Fig. 1     Algorithm framework      

图选项


第1部分:研究发现,电力塔在自然图像与遥感影像上的纹理和形状等特征存在着一定的相似性。因此,只需要构建小型的电力塔遥感影像数据集,通过将自然图像与遥感影像变换至同一特征空间,使其具有同样的可学习参数,从而简化特征学习过程,这样便能解决常用的目标检测算法在电力塔检测上存在的局限性。首先利用可变形卷积模型重新构建ResNet101网络,如图 1所示,将ResNet101中的Conv2(Res2c)、Conv3(Res3b3)、Conv4(Res4b22)中的卷积核大小为3×3的传统卷积层替换为3×3可变形卷积层,提高网络对电力塔的特征的提取能力。利用该改进的网络训练自然电力塔图像数据集获得基础模型。

第2部分:以第1部分所得模型为基础,利用迁移学习的思想,将该模型参数作为预训练参数迁移至第2部分。电力塔遥感影像经过可变形卷积网络提取特征后,将特征图输入到RPN网络生成区域建议框,经过改造的可变形区域池化层同时接收特征图和区域建议框,结合非最大值抑制(NMS)[19]算法对区域建议框进行筛选,提高对电力塔在遥感影像中精准位置的获取能力。使用Fine-tuning技术固定卷积层参数,以防止过拟合并加快训练速度,最后运用框回归算法获取电力塔的精确位置,得到最终模型。

1.1  可变形卷积

传统卷积网络中的几何结构是固定的,这种固定的几何结构使得卷积核只能在图像特定的位置进行采样,卷积核提取的特征表征能力较弱。为保证电力塔的检测精度,本文算法引入文献[20]提出的可变形卷积网络模型,利用该模型重构了ResNet101[21]的网络结构来提升对电力塔特征的提取能力。图 2为可变形卷积和常规卷积采样方式的对比。

图 2 传统卷积与可变形卷积对比 Fig. 2     The comparison between traditional convolution and deformable convolution      

图选项


可变形的卷积模型在常规卷积模型的基础上引入了空间几何形变的学习能力,这使得其能够更加准确地完成空间形变目标的特征提取与目标检测的任务。如图 2所示,图(b)、(c)、(d)为可变形卷积的采样方式,相对于图(a)来说,将常规卷积的固定位置采样拓展为带有偏置量Δpn|n=1,2,…,N}的偏置Offset采样,该偏置可以通过一个平行的标准卷积得到。其中N=|R|,对于3×3,且膨胀系数为1的卷积核来说,R[22]可以表示为

 (1)

为适应电力塔遥感影像的形状变化,可变形卷积核在每个采样点的位置上加上2维的偏置量来相适应,并和特征图共同输入到下一个卷积层中[23],即每个特征点增加了偏置量Δpn。对输入的遥感影像中的每一个位置上的变形卷积的计算方式可以表示为

 (2)

式中,ΔPn是一个值为分数的偏置量;W是采样点的权重。由于距离、光照和角度等原因,遥感影像上的电力塔是多方向分布的,其形状和尺度存在不确定性,传统的卷积网络(如图 3(a)所示)基于其固定的采样方式使得其对方向、尺度和形变目标的特征提取能力受限,提取的特征不够准确。本文通过可变形卷积网络模型改变传统卷积网络的结构来提取遥感影像上电力塔的特征,由于引入了可变形卷积,卷积时的采样位置可以自由变换,偏置矩阵定义的R接收域指向的采样点对目标趋向性更强,使得输出的特征信息更多,提取的特征更加稳定,能够自适应不同电力塔的方向和尺度变化以及形状差异。根据电力塔的方向、形状和尺度来动态调整卷积核感受野的分布(如图 3(b)所示),使得模型对几何形变特征的提取能力有较大提高。

图 3 可变形卷积与传统卷积计算过程 Fig. 3     The computation of deformable convolution and traditional convolution      

图选项


1.2  可变形区域池化

传统的池化层按照固定的比例降低图像的空间分辨率,没有考虑到目标特征在图像上的分布情况,这在一定程度上使得模型的拟合能力变弱,导致模型检测精度较差。基于此,本文算法引入文献[20]提出的可变形区域池化。相较于传统的区域池化来说,可变形区域池化将任意大小的区域转化为固定大小的特征图,有利于提取方向和形状变化显著目标的高级特征。可变形区域池化类似于可变形卷积,通过对每一个输出的像素添加一个偏置量Δpij,即通过一层全连接层,加上其产生的可偏置矩阵{Δpij|0≤ij < k},即得到可变形区域池化模型。参考式(1)得到可变形区域池化计算公式,可以表示为

 (3)

式中,Δpij是一个值为分数的偏置量;p0是感兴趣区域左上角的点;nij是固定大小(ij列)总的像素数。具体的实现过程是通过区域池化操作和全连接层得到偏置量。由于不同感兴趣区域的大小不一致[24],不能直接使用,需要使用公式进行改正,其中γ是标量经验参数,设定γ=0.1。

传统池化结构如图 4(a)所示,主要有最大值池化和均值池化等方式。对于遥感影像中的电力塔来说,由于光照和角度等原因,可能存在着多方向的旋转,这种特性会造成目标位置的定位能力变弱。引入可变形区域池化模型,如图 4(b)所示,类似于可变形卷积的思想,对区域池化引入偏置,在池化操作时对于位置变化更加敏感,根据电力塔在遥感影像中的位置变化动态调整池化操作,有利于提取遥感影像上电力塔位置特征。结合RPN网络,使得网络模型对于电力塔精确位置确定的能力得到提高。

图 4                         3×3可变形区域池化与传统池化计算过程 Fig. 4     The computation of 3×3 deformable area pooling with traditional pooling      

图选项


2  数据集



由于电力塔遥感影像数据获取困难,相对而言,电力塔自然图像数据获取简单。电力塔在自然图像与遥感影像上的纹理和形状等特征存在着一定的相似性,通过将自然图像与遥感影像变换至同一特征空间,通过迁移学习思想可以大量减少数据集数量。因此本文分别制作了电力塔自然图像数据集和少量电力塔遥感影像数据集。首先利用网络爬虫技术爬取自然数据集,经过加噪、旋转和翻折等数据增强方法得到8040张自然图像数据集。本文算法的影像数据来源于Google Earth,所截取的电力塔影像主要分布在湖北、河南等省份,其分辨率为0.5~2 m。截取不同形状、方向的电力塔影像,经过旋转,翻折等数据增强方法获得2100张遥感影像数据集。

按照VOC2007数据集格式,将图像命名为000000.jpg-008039.jpg和00000.jpg-002099.jpg的格式,使用labelImg软件分别标注电力塔自然图像和电力塔遥感影像上的电力塔的位置,并按照2:1:1的比例划分训练集、验证集、测试集。部分数据集样本如图 5所示。

图 5 电力塔示例 Fig. 5     Examples of power tower      

图选项


3  试验结果与分析



本文算法试验均在64位Ubuntu16.04 TLS设备上运行,配置情况为12 GB TITAN X显卡,16 GB内存,8核Intel i7-6700CPU。为验证所提算法有效性,本文算法设置了常用目标检测算法对比试验和算法自身对比试验,主要包括以下几种情况:①SSD[25]目标检测框架;②YOLOv3(arXiv preprint, arXiv:1804.02767, 2018)目标检测框架;③Faster R-CNN目标检测框架,不采用迁移学习思想,在自然图像数据集上训练,遥感影像数据集上测试;④Faster R-CNN目标检测框架,不采用迁移学习思想,在遥感影像数据集上训练,自然图像数据集上测试;⑤Faster R-CNN目标检测框架,不采用迁移学习思想,在遥感影像数据集上训练,遥感影像数据集上测试;⑥不采用迁移学习思想,在Faster R-CNN框架的基础上加入可变形卷网络模型,在自然图像数据集上训练,遥感影像数据集上测试;⑦采用迁移学习思想,不采用可变形网络模型,第1阶段在自然图像数据集上训练,并将模型参数迁移至第2阶段用于遥感影像数据集训练,在遥感影像数据集上测试;⑧完整算法试验。本文采用的评价指标是平均精度(AP),包括AP0.5、AP0.6,以及准确率(ACC)。交并比(IoU)是指模型检测框与预标注框(Ground Truth)的交集与并集间的比例,计算方式可以表示为

 (4)

式中,area(C)检测框面积;area(G)表示预标注框面积。通过比较计算所得IoU与所设置的阈值,可将图像分为TP(被正确划分为正例的数量),FP(被错误地划分为正例的个数),FN(被错误的划分为负例的个数)和TN(被正确划分为负例的个数)。通过上述划分,可计算查准率(precision)和召回率(recall),计算方式可以表示为

 (5)

 (6)

做出P-R曲线,曲线下方面积即为AP。其中0.5、0.6为IoU阈值。ACC计算公式可以表示为

 (7)

最终算法试验对比结果见表 1。

表 1 算法对比试验结果Tab. 1 Experimental results of the proposed algorithm and other algorithms

网络结构AP0.5AP0.6ACC
SSD_300_VGG16(1)*0.625 70.572 80.623 3
YOLOv3_DarkNet53(2)*0.522 70.472 50.563 1
Faster R-CNN(3)*0.617 20.582 60.641 8
Faster R-CNN(4)**0.260 20.191 60.307 2
Faster R-CNN(5)***0.632 90.604 30.682 9
Faster R-CNN(含可变形模型)(6)*0.645 80.593 10.662 5
本文算法(不含可变形模型)(7)****0.867 40.825 30.863 5
本文算法(8)****0.886 10.839 60.894 8
注:*表示在自然图像数据集上训练,遥感影像数据集上测试;**表示在遥感影像数据集上训练,自然图像数据集上测试;***表示在遥感影像数据集上训练,遥感影像数据集上测试;****表示第1阶段在自然图像数据集上训练,第2阶段在遥感影像数据集上训练,遥感影像数据集上测试。

表选项


各试验算法验证的结果如图 6所示。

注:Faster R-CNN(4)在在遥感影像数据集上训练,在自然图像数据集上测试,验证算法结果图中未列出。图 6 算法试验结果对比示例 Fig. 6     Contrastive examples of results of algorithm experiments      

图选项


本文通过与常用目标检测算法来验证本文所提算法的有效性,常用目标检测算法包括Faster R-CNN、SSD、YOLOv3等,其中SSD算法其骨干网络采用VGG16,YOLOv3骨干网络采用DarkNet53。从表 1可以看出,本文算法在评价指标AP0.5、AP0.6和ACC上均大幅优于常用目标检测算法。由可变形网络模型构建的Faster R-CNN变体相比于Faster R-CNN在检测性能上有一定的提升,模型参数的迁移对检测性能有较大的提升。因此,可认为可变形网络和模型参数迁移对于模型的检测性能有积极的影响。

另外,本文设置了多组自身对比试验,来验证所提算法的有效性。从试验3与试验4可以看出,由于电力塔遥感影像数据集数量少,空间分辨率相比于自然图像较低,卷积网络提取特征的能力大幅下降,模型检测性能差,不适宜直接在电力塔遥感影像数据集上进行训练测试。试验3与试验7对比可以看出,迁移学习对于小型数据集检测性能具有显著的提高。从试验3与试验6、试验7与试验8可以看出,可变形网络模型构建的Faster R-CNN变体相对于Faster R-CNN在检测性能上有一定的提升。完整算法在评价指标AP0.5、AP0.6、ACC上均大幅优于其他自身对比算法,说明可变形网络模型和模型参数迁移对于模型检测性能有积极的影响。

针对电力塔在遥感影像中的一些特点,本文算法和对比算法在测试数据集中选取一些代表样本上进行检测,结果见图 6。对于误检、错检和漏检目标用黑色箭头标注。从图 6可以看出,对于正常目标以及背景相似目标本文算法,SSD、YOLOv3、Faster R-CNN均正确地给出了检测框。对于背景干扰目标,YOLOv3给出了错误检测框。对于弱目标,SSD、Faster R-CNN与预标注框(Ground Truth)存在较大差别,对于密集小目标,SSD、YOLOv3、Faster R-CNN等均出现了一定程度的误检、错检和漏检。说明YOLOv3、SSD、Faster R-CNN对干扰特征,微弱特征较敏感,特征区分度较弱,对密集小目标的检测能力较差,检测性能不稳定。本文算法在正常目标、背景相近目标、背景干扰目标、弱目标均表现稳定,仅在密集小目标检测上出现了漏检情况,总体获得了较为完成的检测框,与预标注框(Ground Truth)重合度较好,对干扰特征和微弱特征区分度较好,误检、错检和漏检较少。总体来看,本文算法对于遥感影像上电力塔检测性能优于常见目标检测算法。

分析认为,常用目标检测算法对分辨率相对较低的小型遥感影像数据集检测精度低,直接使用Faster R-CNN框架对电力塔遥感影像进行检测效果较差。主要原因是电力塔遥感影像数据集小,且分辨率相对于自然图像较低,卷积网络提取特征困难,导致误检、错检和漏检的情况增多。可变形卷积与池化网络模型相对于传统卷积与池化更加灵活,卷积与池化时的采样位置可以自由变换,对目标趋向性更强,输出的特征信息更多,可以自适应不同电力塔图像的尺度变化和位置差异,对电力塔在遥感影像多视角情况下尺度、形态、位置更加敏感,使得模型对几何形变的特征提取的能力和目标位置定位能力有较大提高,对检测性能有较大的改善,可以显著的减少误检、错检和漏检的情况,取得了较好的结果。自然电力塔图像和遥感电力塔影像具有较大的特征相似性,基于电力塔自然图像数据集提取特征,将自然电力塔图像特征和遥感电力塔影像特征变换至相同的特征空间,使其具有同样的可学习的参数,将模型参数迁移至电力塔遥感影像数据集,通过Fine-tuning技术快速训练使得检测结果具有显著性的提高,可认为ResNet101在电力塔自然图像数据集下能够有效地提取特征并迁移至电力塔遥感影像数据集,迁移学习对于分辨率相对自然图像较低的小型数据集检测任务具有显著效果。可以发现,本文算法在分辨率低的小型电力塔遥感影像数据集上检测效果明显优于各常用目标检测算法。



4  结论



由于电力塔遥感影像数据集的获取与标注困难,常用目标检测算法在该项任务上的局限性较大。针对电力塔遥感影像目标检测存在的问题,本文基于可变形网络模型对Faster R-CNN进行改进,有效地提高了卷积层对于特征的提取能力,并结合RPN网络和可变形区域池化提高检测准确性,利用迁移学习在任务中有效地解决了分辨率相对较低,样本不充足情况下遥感影像电力塔检测困难问题,在算法对比试验中取得了较好的结果。表明该方法在电力塔检测上拥有很大的应用潜力,但仍然面临着进一步提高检测精度和稳定性的问题。笔者今后将进一步利用迁移学习和可变形模型优化目标检测模型,尝试引入多尺度特征,进一步提高检测精度,并对电力线监测的应用进行探索。


作者简介

第一作者简介:郑鑫(1995-), 男, 硕士生, 研究方向为目标检测, 遥感影像变化检测。E-mail:zhengx@whu.edu.cn

通信作者:潘斌, E-mail:panbin@whu.edu.cn




《测绘学报(英文版)》(JGGS)专刊征稿:LiDAR数据处理


论文推荐 | 张作宇,廖守亿,孙大为,张合新,王仕成:稀疏差异先验信息支持的高光谱图像稀疏解混算法


测绘图书 | 卫星导航定位技术文集(2020)


资讯 | 南京师范大学“陈述彭大讲堂”开讲暨“地理信息科学专业陈述彭班”开班仪式议程





权威 | 专业 | 学术 | 前沿

微信、抖音小视频投稿邮箱 | song_qi_fan@163.com



微信公众号中搜索「测绘学报」,关注我们,长按上图二维码,关注学术前沿动态。



欢迎加入《测绘学报》作者QQ群: 751717395


进群请备注:姓名+单位+稿件编号










: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存