查看原文
其他

VNLSTM-PoseNet:一种新的用于城市街道场景的六自由度相机再定位深度卷积网络|GSIS

李明等 地球空间信息科学学报GSIS 2022-07-17

本文发表于Geo-spatial Information Science(地球空间信息科学学报,GSIS)


基于图像的相机实时再定位是户外场景中众多新应用需要解决的一个重要问题,近些年随着智能传感器技术和新颖图像处理算法的涌现,使其重新成为了科学界和产业界的关注焦点,有望取得新的研究突破与创新应用。


深度学习的兴起,更加激起了广大研究人员在该领域的探索,剑桥大学的Alex Kendall等学者正是在其启发下,首次提出了通过卷积神经网络(CNN)来实现基于单张图像的实时相机姿态解算方法PoseNet。



为了更好地解决PoseNet及其改进算法在户外复杂环境中的位姿估计精度和鲁棒性问题,武汉大学李明副教授团队提出并实现了一种新的基于深度卷积神经网络的视觉重定位方法(VNLSTM-PoseNet)。


该成果题名为:


VNLSTM-PoseNet: A novel deep ConvNet for real-time 6-DOF camera relocalization in urban streets


发表于Geo-Spatial Information Science(地球空间信息科学学报,GSIS)上。

欢迎扫描二维码查看原文


引用本文 /

Ming Li, Jiangying Qin, Deren Li, Ruizhi Chen, Xuan Liao & Bingxuan Guo (2021) VNLSTM-PoseNet: A novel deep ConvNet for real-time 6-DOF camera relocalization in urban streets, Geo-Spatial Information Science, 24:3, 422-437, DOI:10.1080/10095020.2021.1960779




本文主要研究内容 /

  • 本文提出了一种新的深度卷积神经网络结构,它解决了仅从RGB图像在城市街道场景中进行基于图像的相机再定位的巨大挑战,而不是像传统的基于匹配的视觉再定位技术那样需要预先计算局部特征点并构建场景的3D真实稠密模型。


  • 在提出的VNLSTM-PoseNet方法中,首先,通过采用新的剪裁方法,训练图像以获得更大的感受野,从而可以获得更多的关键图像信息,进而提高定位精度。接着,将LSTM结构引入到PoseNet网络中,对全连接层进行结构化降维,并选择最有用的相关特征进行实时相机姿态回归。最后,为了获得更合适的深度卷积网络超参数,在Pytorch框架下使用Nadam优化器对网络进行优化。


  • 通过实验对现有的两个公开室外数据集进行系统评估表明:与本文实验中其他基于PoseNet的方法相比,VNLSTM-PoseNet可以显著提高定位性能,并在OldHospital数据集中实现了小于0.9米的定位精度。



/ 前沿观点/

基于图像的摄像机再定位是许多计算机视觉应用中的一个基本问题,如自动车辆驾驶、移动机器人、增强现实(AR)、行人视觉定位、运动结构(SfM)。


Image-based camera relocalization is a basic problem in many computer vision applications, such as autonomous vehicle driving, mobile robots, Augmented Reality (AR), pedestrian visual positioning, Structure from Motion (SfM) (Li et al. 2020b; Tateno et al. 2017; Asadi et al. 2019; Liu et al. 2020; Acharya et al.2019a; Niu et al. 2019), and so on.


2015年,Kendall、Grimes和Cipolla(2015)创新性地将卷积神经网络(CNN)引入基于图像的相机再定位领域,并提出了PoseNet方法。该方法利用大规模分类数据的迁移学习,从单个图像以端到端的方式直接获取相机的六自由度位姿,其鲁棒性和效率显著高于基于局部特征的几何定位方法和在传统机器学习中利用特征向量词袋模型和随机森林图像检索技术进行定位的方法。


In 2015, Kendall, Grimes, and Cipolla (2015) innovatively introduced Convolutional Neural Networks (CNN) into the field of image-based camera positioning and proposed PoseNet method. This method uses transfer learning from large-scale classification data to directly obtain 6-DOF camera pose from a single image in an end-to-end manner. It significantly improves the robustness and efficiency of geometric positioning based on local features and positioning using bag of word vectors and random forests image retrieval technology in traditional machine learning. 



尽管PoseNet克服了现有方法的诸多局限性,特别是减少了对丰富纹理的依赖,提高了定位的鲁棒性和效率,但在局部特征表现良好的情况下,其定位精度仍远远落后于基于几何的视觉重定位方法。


Although PoseNet overcomes many limitations of existing methods, especially reduces the dependence on rich textures, and improves the robustness and efficiency of localization, its localization accuracy is still far behind the geometric-based visual relocalization method when the local features perform well.



通过改进输入图像的剪裁方法,图像可以获得更大的感受野,从而获得更多用于图像定位的特征信息。


By improving the clipping method of 

input image, the image can obtain a larger receptive field, thereby obtaining more characteristic information for image positioning.



基于Pytorch框架,使用Nadam优化器对网络进行优化,以获得更优的网络参数。将LSTM结构引入PoseNet网络,以在完全连接层(FC)上执行结构降维,并为相机再定位任务选择最有用的相关特征。实验表明,该方法比PoseNet具有更好的精度和更强的鲁棒性。


Based on the Pytorch framework, the Nadam optimizer is used to optimize the network to obtain more suitable network parameters. The LSTM structure is introduced into the PoseNet network to perform structural dimensionality reduction on the Fully Connected (FC) layer and select the most useful relevant features for camera relocalization tasks. Experiments show that the method proposed in this paper has better accuracy and stronger robustness than PoseNet.



与PoseNet相比,LSTM-PoseNet的位置误差也有了很大的改善。大多数图像的位置误差在10米以内,方向误差在20度以内。Nadam-PoseNet只有少数图像的位置误差在15至20米之间,但方向误差在18度以内。对于VNLSTM-PoseNet,最大位置误差和方向误差仅略大于15 米和15度,且此类图像的数量非常少,与PoseNet相比,其位置精度和方向精度有很大提高。


The position errors of LSTM-PoseNet are greatly improved compared with PoseNet as well. The position errors of most images are within 10 m and the orientation errors are within 20 degrees. Nadam-PoseNet has only a few images whose position errors are between 15 m to 20 m but the orientation errors are within 18 degrees. For VNLSTM-PoseNet, the maximum position errors and orientation errors are only slightly larger than 15 m and 15 degrees while the number of such images is very small, and the position accuracy and orientation accuracy are greatly improved compared with PoseNet.


通过本文实验对两个公开的室外数据集进行系统评估表明,与本文实验其他基于PoseNet的方法相比,VNLSTM-PoseNet可以显著提高定位性能,并在OldHospital的数据集中实现了约小于0.9米的定位精度。


With a systematic evaluation on the two existing outdoor datasets through experiments, we show that VNLSTM- PoseNet can lead to drastic improvements in positioning performance compared to other PoseNet-based methods, and achieving a localization accuracy of approximately less than 0.9 m in the dataset of Old Hospital. 



除了改善与纹理信息丰富条件下基于局部特征匹配的图像定位在精度上的差距外,新方法在鲁棒性和效率上具有巨大优势,而如户外城市街道等这些具有挑战性的场景往往会明显影响基于局部特征匹配的图像定位算法的成功率与精度。

然而,这些卷积神经网络通过深度特征学习在这些问题的解决上具有优势。在今后的研究中,我们将对这些问题的相关性进行更深入的研究和探索,并引入更多的约束和信息,以提高基于卷积神经网络的相机姿态估计的精度。


Besides aiming to close the gap in accuracy between local feature matching-based image localization, it has a vast advantage with robustness and efficiency.

The localization errors definitely can be affected  by  those  challenging  scenarios. Alternatively, the errors could be an effect of the features learnt by the deep ConvNet for localization. In future work, we will conduct more in depth research and exploration on the correlation of these problems, and introduce more constraints and information to improve the accuracy of camera pose regression based on convolutional neural network.

作者简介

李明

武汉大学副教授,ETH Zürich博士后。他的主要研究兴趣是机器学习、摄影测量计算机视觉、机器人学、水下摄影测量和遥感的原理和方法。


Ming Li is an associate professor of Wuhan University and a postdoctoral research fellow of ETH Zürich. His main research interests are the principles and methods of machine learning, photogrammetric computer vision, robotics, and underwater photogrammetry and remote sensing.



覃江颖

武汉大学硕士,她的主要兴趣是机器学习和摄影测量计算机视觉,尤其是基于几何和机器学习的室内定位和导航。

Jiangying Qin is a master of Wuhan University. Her main interests are machine learning and photogrammetric computer vision, especially in indoor positioning and navigation based on geometry and machine learning.



李德仁

中国科学院和中国工程院院士,主要研究内容为地理空间信息学的理论创新、集成创新和协同创新。

Deren Li is an academician of the Chinese Academy of Sciences and the Chinese Academy of engineering. The main research contents are the theoretical innovation, integrated innovation and collaborative innovation of geospatial informatics.



陈锐志

武汉大学教授,他的研究兴趣包括智能手机定位和卫星导航。


Ruizhi Chen is a professor of Wuhan University, and his research interests include ubiquitous positioning of smart phones and satellite navigation.



廖  萱

2020年硕士毕业于武汉大学摄影测量与遥感系,目前是香港理工大学的研究助理和博士生。她目前的研究重点是基于遥感和空间信息技术的全球太阳能计算、深度学习和变化检测。


Xuan Liao received her master’s degree from Wuhan University of Photogrammetry and Remote Sensing in 2020. She is currently a research assistant and doctoral student at Hong Kong Polytechnic University. Her current research focuses on global solar computing based on remote sensing and space information technology, deep learning, and change detection.



郭丙轩

武汉大学教授,主要从事数字摄影测量、计算机视觉,图形和图像、室内定位和人工智能的研究。


Bingxuan Guo is a professor of Wuhan University, mainly engaged in digital photogrammetry, computer vision, graphics and imaging, indoor positioning and artificial intelligence.


文章图表

图1 提出的姿态回归网络的体系结构


图2 PoseNet图像预处理的例子


图3 GoogleNet的结构


图4 PoseNet的结构


图5 改进的图像预处理效果


图6 PoseNet和本文方法的视野对比图


图7 deep ConvNet结构 


图8 实验数据集示例图像(a)光线充足的教堂图像(b)光线不足的教堂图像 (c)建筑大视野图像(d)建筑贴近局部视野图像



表1 几种方法的定位结果。


图9 不同epoch的训练损失(a) 不同epoch的位置误差(b)不同epoch的方向误差



图10 查询图像的定位误差散点图 (a) PoseNet(b)Bv-PoseNet(c)LSTM-PoseNet(d)Nadam-PoseNet(e)本文方法



图11 定位误差的累积直方图

(a) 位置误差(b)方向误差


图12 真实位姿和估计位姿的比较

(a) PoseNet(b)VNLSTM PoseNet


图13 可视化轨迹不同部分的误差

(a) PoseNet(b)VNLSTM PoseNet



# 扫描二维码查看原文 #


Ming Li, Jiangying Qin, Deren Li, Ruizhi Chen, Xuan Liao & Bingxuan Guo (2021) VNLSTM-PoseNet: A novel deep ConvNet for real-time 6-DOF camera relocalization in urban streets, Geo-spatial Information Science, 24:3, 422-437,

DOI:10.1080/10095020.2021.1960779

翻译:王浩天     制作:王浩天

编辑:王晓醉     审核:张淑娟



Call for papers

# 01

 COVID-19大流行对人类流动性的影响

点击标题,获取更多专刊信息


# 02

位置智能:地球空间信息科学的未来趋势

点击标题,获取更多专刊信息


# 03

基于多源数据的森林积蓄量、生物量、碳含量建模

点击标题,获取更多专刊信息



期刊简介

Geo-spatial Information Science(GSIS)是由武汉大学主办的测绘遥感专业英文期刊,主编为中国科学院院士、中国工程院院士李德仁教授。2020年9月被SCIE收录,IF2020:4.288;CiteScore2020 7.4。


GSIS 采用开放(OA)获取形式,文章一经发表,可马上被全球读者免费全文下载,这种模式可以让你的文章有更多的曝光度。如果您有需要抢首发权的高质量文章,可与我们联系gsis@whu.edu.cn,主编/国际副主编亲自为您处理,编辑部提供随时随地的疑问解答与状态跟踪。


期刊官网:

https://www.tandfonline.com/tgsi

投稿网址:

https://mc.manuscriptcentral.com/tgsi




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存