深圳AIRS智能机器人团队在顶级期刊IEEE TNNLS发表文章
近日,我院智能机器人中心团队在人工智能领域顶级期刊IEEE Transactions on Neural Networks and Learning Systems发表题为“Lifelong-MonoDepth: Lifelong Learning for Multi-Domain Monocular Metric Depth Estimation”的文章,深入研究了基于终身学习的机器人场景深度估计问题。
面向机器人在不同尺度场景的多域(multi-domain)深度估计需求,论文提出了一种基于终身学习的单目深度估计模型框架,通过构建轻量级多分支深度估计网络,以实现机器人硬件资源受限情况下的实时绝对深度估计;提出基于终身学习的实现算法,能够实现模型的快速更新和迭代,从而快速兼容新目标交互场景。
论文链接:https://ieeexplore.ieee.org/document/10293000
01
期刊介绍
IEEE Transactions on Neural Networks and Learning Systems是计算机科学、神经网络和人工智能领域顶刊之一,其影响因子为10.4,为SCI一区和中科院一区顶刊,录取率低于10%。
02
研究背景
多域深度估计对于真实世界的机器人应用,如测距、避障和导航等,发挥着重要作用。已有的多域深度估计方法预先收集不同室内和室外场景下的大量数据,通过混合大规模数据,执行有监督学习的方式进行模型的训练。然而,由于场景尺度的差异,如室内和室外深度差异达10倍,这些方法只能预测相对深度。另一方面,虽然通过混合不同场景数据的方式能够提高模型在不同交互环境的泛化能力,但当新的分布外场景出现时,此类方法仍然需要收集新场景数据并重新训练模型,这就带来了在电力、训练时间、存储空间等各方面的成本增加,难以满足机器人实际部署的需求。因此,通过终身学习算法,以最小化模型训练时间和数据收集代价为目的,让模型兼容新目标域,并保留其在原始域的感知能力具有重要意义。基于终身学习的深度估计方法在已有工作中得到了初步探索,然而这些方法只探索了相似场景的终身学习方式,域差异较小;同时,由于场景尺度的差异,已有工作只估计相对深度。本文所提算法仅需保留在原始域上的少量训练数据,因而可以节省数据存储空间并节省模型训练成本。另外,所提算法在原始域和新域大尺度差异挑战下均可精确地估计场景绝对深度,具有较高的准确性和鲁棒性。
03
研究内容
1. 模型设计
为应对机器人硬件资源受限以及高实时性要求的挑战,本文构建一种轻量级深度估计模型,以便在资源受限的条件下使机器人高效地执行深度估计任务。由于真实交互场景尺度差异大,深度范围不一。因此,本文提出轻量级的多分支模型框架,其中包括一个域共享的编码器以及多分支深度预测器,各预测器能够独立学习以适应不同场景的深度范围。当需要在新域进行学习时,只需动态添加一个参数较少的域特定预测器,而无需重新设计整个模型结构。该动态扩展的能力可赋予模型更大的灵活性和可扩展性,以适应机器人目标交互场景不断变化的需求。
图1给出了可视化了模型在三个不同领域的学习框架。该模型从一个深度预测器f1开始,用于在目标域D1的学习,并动态地扩展其预测器f2和f3,从而依次在目标域D2和D3上进行学习。在模型推断时,通过对比输入数据在特征空间中与各域之间的距离,自适应地选取相应的预测器进行深度估计。
图1:多分支场景深度估计模型
2. 模型训练
面对不同场景的数据分布差异,本文引入深度一致性和不确定性约束,提出基于不确定性损失的新目标域深度估计能力获取和原始域深度估计能力保留方法。其中,深度一致性约束有助于确保在不同场景下,模型对深度估计任务的执行保持一致性,避免了不同域之间的明显性能差异。另一方面,不确定性约束则使模型能够更好地捕捉各域之间的数据差异,从而缓解各域之间的尺度差异。此外,为防止模型在学习新域时对原始域深度估计能力的灾难性遗忘,采用少量原始域数据的回放策略。通过不断巩固对原始域任务的深度估计能力,确保在多域学习过程中保持稳定的性能水平。
3. 模型部署
在完成在所有目标域的学习之后,理想情况下,该模型能够从多个目标域中取样的任何图像都正确估计其深度图。由于模型具有多个分支预测器,一个实际的挑战是如何识别该图像的所属域,并相应地自动选择相应的预测器。为了解决这个问题,本文提出识别给定图像与特征空间中每个域之间的最小距离。由于我们保留了每个域的一个小子集,因而可以得到每个域的平均特征近似值,通过对比输入数据与各域在特征空间中的差异,从而判定相应的预测器。
4. 实验结果
如图2所示,所提方法能够对不同尺度场景下进行精确的深度估计。
图2:三个不同场景下的深度估计示例
04
研究结论
本文提出了面向不同尺度场景下多域深度估计的终身学习模型。与已有方法相比,所提模型在域差异大的挑战下,具有较高的精度和实时性。本文方法是首次能够在域差异较大的情况下,进行终身学习并估计绝对深度。
05
作者简介
第一作者:AIRS智能机器人中心助理研究员胡君杰
本文第一作者胡君杰博士是我院智能机器人中心助理研究员,深圳市海外高层次人才、深圳市龙岗区深龙英才。于2020年3月毕业于日本东北大学,研究方向为人工智能、模式识别、机器人。已在 T-PAMI、TNNLS、T-RO、RA-L、ICCV、IJCAI、ICRA、IROS 等顶尖国际期刊及会议发表论文20余篇。
通讯作者:AIRS智能机器人中心主任、香港中文大学(深圳)助理教授林天麟
林天麟,香港中文大学(深圳)助理教授,博士生导师,广东省杰出青年基金获得者,IEEE高级会员,担任机器人与智能制造国家地方联合工程实验室常务副主任、深圳市人工智能与机器人研究院(AIRS)智能机器人中心主任。师从徐扬生院士,分别于2006年和2010年在香港中文大学获得一等荣誉学士学位和博士学位。研究方向包括模块化机器人、多机器人系统及特种机器人等。林教授至今在T-RO、TPAMI、TIP、TMECH、ICRA、IROS等知名期刊及会议发表论文100余篇,其中2023年以独立通讯作者身份在T-RO发表论文5篇;获TMECH年度最佳论文奖,IROS机器人机构设计最佳论文奖;作为项目负责人,主持国家自然科学基金委、国家科技部、广东省科技厅、深圳市科创委的多项科研项目;相关研究成果被路透社、探索频道、日本放送协会NHK、IEEE Spectrum等众多国际知名媒体报导。
06
团队介绍
AIRS智能机器人中心由林天麟教授领导,旨在研究多机器人系统自由组成各种形态以解决不可预知问题的关键技术,通过简单智能体的集群实现复杂的智能群体行为,让机器人系统拥有可复用、自由构型、可拓展、故障自修复等通用特性,为机器人设计领域创造出一种全新切实可行的实现形态。
团队长期从事机器人和人工智能研究,开发了十余种机器人和智能系统;承担来自国家自然科学基金委、国家科技部、广东省科技厅、深圳市科创委等多项重要研究项目;科研成果发表于T-RO、TPAMI、TIP、TMECH、ICRA、IROS等机器人与人工智能领域的国际期刊和会议上,其中2023年在T-RO发表论文5篇。关于模块化自重构机器人FreeBOT的研究成果获2020年IROS机器人机构与设计最佳论文奖,IEEE Spectrum、日本放送协会NHK和Engadget 等多家国际知名媒体对其进行了广泛报道。
扫码了解团队更多论文和视频信息:
团队主页:
团队B站:
CUHKSZ-RAIL
* 相关论文信息由论文作者提供
相关阅读:
林天麟教授团队在IEEE T-RO发表论文,提出一种驱动集成球形齿轮机构
林天麟教授团队提出一种新型自由连接的模块化自重构机器人,相关论文被T-RO接收
高源博士与林天麟教授开发异构机器人团队围捕系统,相关论文被T-RO接收
我院林天麟教授团队再发IEEE Transactions on Robotics,本年度T-RO两连发
我院林天麟教授团队在IEEE Transactions on Robotics上发表文章
AIRS in the AIR | “多机器人系统”系列讲座回顾
AIRS in the AIR | 模块化自重构机器人系列讲座精彩回顾