IROS 2020 | 从单目视频中无监督学习深度和帧间运动中的光度误差深入分析
AIRS 智能机器人研究中心林天麟教授、钱辉环教授、计算机视觉研究中心黄锐教授和国际合作项目的 Sethu Vijayakumar 教授分别作为通讯作者的共九篇论文被本届 IROS 接收,其中更有两篇获最佳奖提名。
IROS 2020 举办期间,AIRS 也带着大家一起来学习观摩这几篇论文。以下介绍的是 DiPE: Deeper into Photometric Errors for Unsupervised Learning of Depth and Ego-motion from Monocular Videos(从单目视频中无监督学习深度和帧间运动中的光度误差深入分析)一文。
研究背景
深度和帧间运动的估计是SLAM(simultaneous localization and mapping,同时定位与地图构建)的核心问题。基于学习的方法在解决传统方法的一些困难上,如缺乏纹理的场景,是有更有希望的,因此最近几年变得很流行。
从无标记的单目视频中无监督地学习深度和帧间运动不依赖于真值,因此有非常好的推广性。这种无监督学习的基本假设是场景是静态的并且在不同视角下是可见的, 并且利用帧间图像重建的光度误差作为目标函数训练网络(图1),因此受到场景里的运动和遮挡的影响。
图1: 无监督学习深度和帧间运动的流程和外点蒙版法的效果
研究概要
本文提出了一种外点蒙版技术,来将无监督单目深度估计中的运动车辆,特别是对向开过来那种,处理得更好。一些最新的先进模型,如 Struct2depth, EPC++ 和 Monodepth2 明显低估这一类运动物体的距离,如图2所示,我们提出的DiPE却能更好的处理这种情况。我们的关键观察是,被遮挡和运动的区域通常产生更大的重建光度误差。
图2:对向运动物体的解决
理论上的原因是,这些物体违反了无监督学习的基本假设所以难以得到很好的重建。技术上,我们把这些物体作为统计外点排除,图1 右边展示了我们的统计外点蒙版法的效果。结合另一个提出的多尺度加权技术,我们也将单目深度估计里面的伪影处理得比基线方法更好,如图3所示。
图3:伪影的解决
论文作者
> 本文第一作者为香港中文大学(深圳)在读博士生蒋华烈,其导师是黄锐教授。博士期间,他开展各种不同情形下的深度估计研究,包括室内的监督深度估计,室内的无监督深度估计还有球形全景图像的深度估计。
输12
< 本文通讯作者为香港中文大学(深圳)理工学院副教授黄锐。黄锐教授也是 AIRS 计算机视觉研究中心副主任。黄教授在数据降维和子空间分析、可变形模型、概率图模型等方法以及它们在计算机视觉、模式识别、(医学)图像处理中的应用等方面做过大量研究工作。目前研究兴趣集中在计算机视觉在机器人领域的应用。黄教授已发表相关领域学术论文50余篇,主持过包括国家自然科学基金在内的多项科研课题。
输12
IROS
IROS 是国际机器人与自动化领域的两大影响最大的学术会议之一,自机器人技术发展初期的 1988 年开始,IROS 每年举办一届。每年,来自世界各个顶尖机器人研究机构的专家和业界人士汇聚在这个盛会,探讨和展示机器人行业最前沿的技术。