查看原文
其他

基于深度学习的监控建筑变化影像识别

地理信息世界 慧天地 2022-09-22

点击上方“慧天地”关注我们

文章转载自微信公众号 地理信息世界GeomaticsWorld,版权归原作者及刊载媒体所有。

【作者信息】

王 雪1, 2,黄建华1, 2,蒙钰天3,孙希延1, 2

1.桂林电子科技大学 广西精密导航技术与应用重点实验室,广西 桂林 541004;2.桂林电子科技大学 卫星导航与位置服务国家与地方联合工程研究中心,广西 桂林 541004;3.桂林市国土资源研究中心,广西 桂林 541004


【摘要】传统方法对长焦距摄像头影像进行变化区域提取时,由于光照、摄像头抖动等影响,导致像素点不能精确配准,变化检测不能准确识别建筑物变化的问题,本文提出基于深度学习的监控建筑影像变化检测算法。首先利用图像相似性进行筛选,粗略提取变化区域图像;再利用Faster R-CNN网络对变化区域图像进行建筑物识别与提取。通过桂林西站图像采集试验,结果表明本文方法相比差值法提取变化区域进行变化检测,虚检率降低0.126,漏检率降低0.518,正确率提高0.124,完整率提高0.519,质量提高0.12,在城乡结合部由于建筑物与背景区别更大,具有更好的检测结果和泛化能力。


【关键词】城市监控影像;建筑物变化检测;深度学习;图像相似性


【中图分类号】P2;TU196


【文献标识码】A


【文章编号】1672-1586(2022)04-0030-05


引文格式:王 雪,黄建华,蒙钰天,等.基于深度学习的监控建筑变化影像识别[J].地理信息世界,2022,29(4):30-34

正文

0  引  言

自然资源执法监督监管工作的一项重要任务是及时发现在城乡建设过程中,不经审批改建、扩建或者违规占用农田等违规建房现象。传统监控“两违”建房,主要是利用卫星遥感数据变化检测技术,结合人工举报、人工实地调查等方法对建筑物进行调查和筛选,需要大量的人力、物力和财力。但卫星遥感变化检测通常利用的是正射影像数据,不容易发现高度上的变化,同时卫星回返周期长,导致发现违法建筑物变化周期长,拆除经济损失大。与卫星遥感变化检测相比较,城市周边建设的长焦距摄像头可以从建筑物侧面更清晰地观测到建筑物高度的变化。长焦距监控摄像头监控距离可达5km以上,通常用于海域监控、森林防火、自然保护区保护等领域。在城乡结合部部署或利用已有的带云台控制的长焦距摄像头,结合人工智能图像分析技术,可实现实时、较大范围的违规建房的早期发现,是一种成本较低、发现变化快的自然资源监测管理技术。


目前,建筑物变化检测方法可分为两类:非深度学习变化检测方法和深度学习变化检测方法。深度学习方法先利用语义分割网络模型精确检测图像中的建筑物,再将检测结果进行像元差值从而得到建筑物变化检测区域。王明常等提出用FPN Res-Unet语义分割网络对建筑物进行变化检测。王民水等提出用 DeepLabv3+语义分割网络对建筑物进行变化检测。余晓娜等基于Segnet网络对街区影像进行变化检测。但是城市景观下建筑物密集,遮挡严重,不能精确检测出各个建筑物。非深度学习变化检测方法一般先提取变化区域,然后利用建筑物的阴影特性提取变化图像中的建筑物。卢丽琛等提出将BMI和CVA算法结合的方法对建筑物进行变化检测。王慧贤提出顾及多特征的建筑物变化检测方法。刘升龙等提出用影像差值法和主成分分析法融合对变化区域进行提取。利用长焦距摄像头开展建筑物变化检测,通常是采集相同地理位置不同时相的两幅影像进行利用上述算法进行分析,但由于变化受到光照、摄像头抖动等环境影响,导致摄像头不同时相的两幅影像不能精确配准,难以实现建筑物的变化检测。


为解决上述问题,提出一种基于深度学习的监控建筑变化影像的识别算法。本文从亮度、对比度和结构性3个方面对摄像头采集的每个图像子块的结构相似度进行计算,结合像元之间的纹理联系,采用自适应阈值方法对变化进行筛选,弱化城市景观下建筑物密集、遮挡严重的影响,得到粗略变化区域影像。然后再利用Faster R-CNN目标检测网络对上述的粗略变化区域影像进行建筑物的识别与提取,从而分析提取出长焦距监控摄像头下的建筑物变化情况。


1  研究区概况


本文的数据分为训练数据和测试数据。测试数据所用的监控建筑物影像,由架设在桂林西站的长焦摄像头获得,能够清晰观测到桂林西站半径5km范围内的建筑物及周围自然资源变化情况。训练数据以桂林市监控建筑影像为主,公开建筑数据为辅,共1200张监控建筑物影像,每幅影像大小为1000×1500像素,用于目标检测网络的训练。图1显示了3组6幅长焦监控下建筑物有变化的实验数据,用于测试变化检测的有效性。实验数据以在建区域为主,有以下特点:相同地理位置不同时相的两幅影像光照条件有差别;背景环境存在像素点抖动现象,如风吹动树叶导致树木背景的变化。


图 1 研究区建筑物前时相与后时相数据样例

Fig.1 Examples of pre-and post-temporal image in study area


2  研究方法


2.1  数据预处理


图2显示了变化区域的提取流程。首先将输入的两幅前、后时相影像分别裁为N×N个图像子块,然后将对应位置的图像子块采用高斯加权方法计算每一窗口的均值、方差以及协方差,从而计算对应图像子块的结构相似度。结构相似度SSIM可表示为:



上3式中, ,β ,γ>0;l(xy) 为亮度比较;c(xy) 为对比度比较;sxy)为结构比较;μxμy分别为xy的平均值;σxσy分别为xy的标准差;σxyxy的协方差;c为常数,避免分母为0。


由于每幅影像中变化区域尺寸不同,从而导致每幅影像的图像子块的结构相似度大小不同。为了提高模型的泛化能力,利用自适应阈值方法对变化的图像子块进行筛选,提取变化区域,将所有图像子块结构相似度的均值作为阈值。同时为了避免环境因素对变化区域提取的影响,将每行图像所保留的图像子块个数进行统计,若图像子块个数大于等于,则保留整行的图像子块,否则舍去整行影像。



图 2 变化区域影像提取

Fig.2 Image extraction of changing regions


2.2  模型原理


2.2.1  Faster R-CNN 模型


与RCNN和Fast RCNN算法相比,Faster R-CNN算法创造性地使用RPN( 特征提取网络 ) 代替原来的Selective Search方法产生建议窗口,通过共享特征层大大减少了计算量,从而提高了算法的检测速度。Faster R-CNN算法原理图如图3所示。


图 3 Faster R-CNN 算法原理图

Fig.3 Algorithm structure of Faster R-CNN


Faster R-CNN算法对输入进来的粗略变化区域影像在保持原有纵横比的前提下重新调整为固定尺寸大小,然后通过主干网络进行特征提取得到特征图,将特征层输入到卷积层,再分别对每个先验框进行分类和计算对应先验框的偏移量,然后计算出proposals,Roi Pooling层利用proposals从特征层中提取的proposal feature送入后续全连接层和Softmax网络进行分类,从而得到粗略变化区域影像的建筑物部分,实现建筑物的变化检测。


2.2.2  主干特征提取网络


模型训练是在Telsa P100 GPU,以及CUDA、Python、Tensorflow等环境下进行的。Faster R-CNN主干特征提取网络采用残差网络Resnet50,每个残差网络包括两条路径,一条路径是输入特征的直通路径,另一条路径是对该路径进行卷积操作得到的该路径的残差,最后将两条路径上的特征相加。如图4所示,假设输入的特征为x,经卷积操作得到的残差为F(x),最终学习到的特征为H(x)=F(x)+x

图 4 残差网络架构

Fig.4 Residual network architecture


2.3  模型训练


模型训练等流程如图5所示。数据预处理后得到粗略变化区域影像,同时对Faster R-CNN进行参数设置及模型训练,然后调用最优模型对粗略变化区域影像进行目标地物信息的提取。


图 5 Faster R-CNN 模型应用流程图

Fig.5 Application flow chart of Faster R-CNN model


本文将epoch训练周期设置为200,训练样本个数设置为960,测试样本个数设置为240,RPN批处理数量设置为128进行模型训练。通过对训练得到的模型进行测试,得到目标地物信息。研究结果表明通过训练,模型训练中损失函数输出结果随着epoch的增加,损失函数越来越小,表明了整个模型的收敛状态。PR曲线反映了对正例的识别准确度,PR曲线越靠近右上方时,PR曲线所包围的面积越大,表明模型性能越好。其中,Precision指的是查准率,Recall指的是召回率,将Precision作为PR曲线的纵坐标,当Precision=1.0时表示查准率为100%,Recall作为PR1曲线的横坐标,当Recall=1.0时代表召回率为100%(图6)。


图 6 训练周期至 200 次时的 PR 曲线

Fig.6 PR curve when training cycle reaches 200 times


3  结果与分析


本文对桂林市西站的建筑物进行建筑物变化检测。为了定量进行精度评价,以正确率、虚检率、漏检率、完整率和检测质量来衡量检测结果,具体计算方法如下:

式中,Ctd为检测出的真实变化建筑物像元总数;Ct为研究区域中真实变化建筑物的像元总数;Ptd为变化检测正确率,表示建筑物变化检测结果的可靠程度,越大表明建筑物变化结果越可靠;Cfd为实际没有发生变化却被检测为变化的虚检建筑物的像元数量;Cd为实验检测出的变化建筑物的像元总数;Pfd为虚检率,表示非建筑物变化像元被检测到的概率,越小表明建筑物变化结果错误越低;Cod为漏检的真实变化建筑物像元数量;Pod为漏检率,表示建筑物变化像元被漏检的概率,概率越低建筑物变化结果越准确;Pcd为完整率,表示变化建筑物像元被实际检出的概率,完整率越大表明检测效果越好;Q为检测质量,表示实际检测出的像元占真实变化像元的比率,是建筑物变化检测精度的总体度量,检测质量越大,变化检测的效果越好。


3.1  分割尺度的影响分析


影像的分割尺度对建筑物变化检测结果具有重要影响。以桂林西站采集的变化区域数据为例,为了得到最佳的分割阈值,将分割尺度N分别设为1到20的整数,分别计算正确率、完整率、检测质量、虚检率、漏检率。图7为不同分割尺度下对应的正确率、完整率、检测质量、虚检率、漏检率的折线图及其平均值。从图中综合5个指标进行分析,可以得出当分割尺度N为2、4、5、7、16时,各个指标均大于平均值,建筑物变化检测结果较为理想。表1为分割尺度N为2、4、5、7、16时的具体评价数值,当分割尺度为7,建筑物变化检测精度最佳。图8为分割尺度为7时建筑物变化检测得到的检测结果,图中红框标定部分“build 1.00”表示检测到的变化区域为建筑物的概率为1.00(100%)。


图 7 不同分割尺度的指标

Fig.7 Indicators of different segmentation scales

表 1 不同分割尺度检测精度比较

Tab.1 Comparison of detection accuracies of different segmentation scales

图 8 分割尺度为 7 的检测结果

Fig.8 Building change detection when the segmentation scale is 7


3.2  不同方法结构比较


由于长焦监控易受到风等环境的影响,使得摄像头抖动,导致相同地理位置不同时相的两幅影像对应像元不能精确配准,利用差值法提取变化区域时,对建筑物变化检测结果产生严重干扰。利用图像的亮度、对比度和结构相似度分析影像的变化区域,对配准精度要求不高,以桂林西站的影像为例,图9a为本文方法可视化结果,其中变化部分为建筑的概率为1.0,图9b为差值法可视化结果,变化部分为建筑的概率为0.99。不同方法的检测精度见表2,从中可以看出本文方法的各项精度指标都优于差值法。


图9 不同方法检测结果

Fig.9 Detection results of different methods

表2 不同方法检测精度比较

Tab.2 Comparison of detection accuracy of different methods


4  结  论


本文结合图像结构相似性和深度学习算法对长焦距摄像头相同地理位置不同时相的两幅影像进行分析比较,弱化了光照强度变化、摄像头抖动等复杂环境对像素灰度值的影响,实现了两幅前、后时相监控影像的变化区域提取以及建筑物变化检测。实验表明,本文方法比差值法提取得到的变化区域图像质量更高,轮廓效果更好,且受环境因素影响较小,实现了对建筑物的变化检测,为自然资源违法监督提供了新方法。


作者简介:王雪(1998―),女,河北衡水人,电子信息专业硕士研究生,主要研究方向为变化检测

E-mail:2044709778@qq.com




荐读

PPT分享| 李维森:中国地理信息产业发展报告(2022)

PPT分享|李昕博士:北斗PPP-RTK快速精密定位与多源增强

丁仲礼院士:深入理解碳中和的基本逻辑和技术需求

《慧天地》敬告

《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,发现企业核心竞争力,传播测绘地理信息文化,为时空信息类相关专业学子提供日常学习、考研就业一站式服务,打造政产学研金服用精准对接的平台。

《慧天地》借鉴《读者》办刊理念,把时空信息领域的精华内容汇聚到平台上。我们高度重视版权,对于精选的每一篇推文,都会在文章开头显著注明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!


——《慧天地》运营团队

投稿、转载、商务等合作请联系

微信号:huitiandi321

邮箱:geomaticshtd@163.com

编辑:朱奔宇  审核:马冉冉指导:万剑华教授

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存