科研速递 | 黄锐教授团队在IEEE Sensors Journal发表文章并被选为当期Featured Article
近日,香港中文大学(深圳)理工学院的黄锐教授团队在《IEEE Sensors Journal》发表题为“Unsupervised Monocular Depth Perception: Focusing on Moving Objects”的文章,并从当期的95篇文章中被选为唯一的Featured Article。
《IEEE Sensors Journal》介绍
《IEEE Sensors Journal》于2001创刊,是传感器工程和技术领域的权威期刊,征稿涉及信号处理与分析、通信、网络与广播技术、元件、电路、器件与系统以及机器人与控制系统等和传感器技术密切相关的主题。《IEEE Sensors Journal》的2021年影响因子为3.301,JCR分区Q1。自2020年以来,《IEEE Sensors Journal》每期会选出一篇特色文章(Featured Article),以此来推广热点话题和优秀文章,被选出的文章将在6个月内免费开放(Open Access)。
研究背景
作为一种灵活的被动 3D 感知手段,从单目视频中无监督学习场景的深度正成为一个重要的研究课题。这种方法利用目标视图与其相邻源视图的合成视图之间的光度误差作为损失,而不依赖于真实的深度标签,因此有非常好的推广性。尽管这种方法已经在驾驶场景有了很多的研究,但现实世界场景中的场景动态因素仍然对学习产生不利影响。并且,仍没有文献量化地评测各种深度估计方法在驾驶场景下对运动物体的效果,这对自动驾驶是至关重要的。
图1:无监督深度估计方法通常会对向车辆估计得过近
研究概要
本文是机器人会议IROS 2020论文的拓展版,在会议论文中,黄锐教授团队已经提出了解决无监督深度估计在运动物体和遮挡上的问题的一些方法,详情可以参考IROS 2020 文章。在基于单目视频训练的无监督深度估计领域中,由运动物体引起的问题经常被研究者注意到并指出,但是,仍没有对其进行定量方面的研究。在本文中,黄锐教授团队,提出了进一步提出将静止背景和运动物体来分开评测,从而更好的评价各种深度估计方法。具体来说,在自动驾驶领域的著名KITTI数据集的测试集中划定了驾驶场景的五个不同的常见运动模式,并手动标记了它们以进行详细的定量研究。
图2:被标记的一些不同运动模式的物体样本
评估表明,对于静态背景、一般运动物体和相异运动车辆,在IROS 2020论文中所提出的离群点掩码方法在深度估计准确度(δ<1.25)上获得了0.3%、1.8%和2.9%的提高,这表明离群点掩码对运动物体,尤其是那些与相机不同的运动物体,更有效果。此外,我们还评估了一种深度监督方法和一种基于立体图像的无监督方法,结果表明它们也受到动态因素的影响,虽然程度较轻。基于单目视频的无监督方法与其他的两种方法的在运动动物体的比较大差距,说明单目无监督方法仍有一定的改进空间。
考虑到另一个自动驾驶数据集CityScapes提供也驾驶场景中物体的语义分割标签。黄锐教授团队也在CityScapes上也对背景和前景物体进行了分开的深度估计评测。虽然CityScapes上的被标记的物体不一定运动的,评测的结果与KITTI上的结果是也类似的。为了促进进一步的研究,本文的源代码和标记数据已经开源,详情请参考以下链接:
https://github.com/HalleyJiang/DiPE
图3:CityScapes 上的深度估计结果比较
作者介绍
香港中文大学(深圳)黄锐教授为本文的通讯作者
黄锐,香港中文大学(深圳)理工学院副教授,计算机视觉实验室主任,中国图象图形学学会学工委委员、青工委委员。黄教授在Subspace Analysis、Deformable Models、Probabilistic Graphical Models等方法和模型以及它们在计算机视觉、模式识别、图像处理中的应用等方向做过大量研究工作。目前研究兴趣集中在计算机视觉在视频监控和机器人领域的应用。黄教授已发表相关领域学术论文80余篇,主持过包括国家自然科学基金在内的多项科研课题,曾获2018年中国计算机学会科学技术奖自然科学二等奖。
本文的第一作者是2021年毕业于理工学院的蒋华烈博士
蒋华烈是黄锐教授的博士生,他的研究兴趣集中于3D计算机视觉及其在虚拟现实和自主机器人的应用, 目前已发表国际期刊和会议论文10余篇,包括 IEEE RAL和IROS等机器人领域旗舰期刊和会议。
本文的作者还包括黄锐教授的硕士生丁来言同学和理工学院的孙正隆教授。