科研速递 | 理工学院韩晓光教授团队三篇论文被ECCV2022收录(含一篇口头报告)
近日,香港中文大学(深圳)理工学院韩晓光教授团队的三篇研究论文《TO-Scene: A Large-scale Dataset for Understanding 3D Tabletop Scenes》、《Towards High-Fidelity Single-view Holistic Reconstruction of Indoor Scenes》和《Pose2Room: Understanding 3D Scenes from Human Activities》被欧洲计算机视觉国际会议ECCV2022收录,其中一篇被选为口头报告。ECCV的全称是European Conference on Computer Vision,每两年举办一次,是计算机视觉领域三大会议(另外两个是ICCV和CVPR)之一。
论文介绍
1. TO-Scene: 用于三维室内桌面场景理解的大规模数据集
本文提出的数据集,是第一个大规模桌面场景数据集,可服务于三维检测、语义分割、实例分割、机器人SLAM等多种任务。数据集构建过程的人机交互界面,赋予了数据集灵活的扩展性。项目论文获选ECCV2022 Oral Presentation (2.7%) 。
论文链接:
https://arxiv.org/abs/2203.09440
Idea
在人们的生活中,大量的室内活动都是围绕各种不同的桌面展开的(比如:咖啡桌,课桌等)。在人/机器人与室内环境的交互中,桌面常常扮演者不可或缺的角色。在机器人ROS系统中,地面和桌面、桌面和其他小物体部件之间的Supporting 关系,也常常是室内场景建模、游戏逻辑生成的关键因素。因此,对于理解三维室内场景或者发展相关的应用(比如AR、VR、机器人抓取和交互)来说,研究桌面场景都是一个至关重要的部分。
但是,三维桌面场景在现有数据集中几乎无处可寻,因此我们很难直接应用深度神经网络等数据驱动的算法来开展实验和研究。为了弥补这一缺失,我们构建了一个用于三维桌面场景理解的大规模数据集 —— TO-Scene。
数据的获取
大规模三维数据集的获取和标注需要极其巨大的人力和时间成本,为了解决这个问题,我们设计了一套高效的构建框架:首先,我们从现有的ModelNet和ShapeNet这两个含有丰富物体 CAD模型的数据集中挑选出生活中常见的桌面物体 CAD模型(如笔,碗,杯子等52类物体),并从现有的ScanNet这一真实三维室内场景数据集中提取出各色各样的桌面(如课桌,橱柜,梳妆台,茶几等)。接下来,我们自主开发了一个网页端的图形化人机交互界面,并寻找大量的众包用户在这一界面上进行操作,将桌面物体的 CAD模型放置到的真实室内的桌面上。在这一过程中,我们的数据集保证了物体会被放置在适合它的桌面上(如咖啡杯通常会被放置在茶几而不是梳妆台上),并且我们寻找了来自不同职业、不同年龄段的用户以实现数据的丰富性和多样性,以使得我们的数据更加贴近于实际应用中的真实扫描数据。
数据集详情
为了实现数据的丰富性,我们将数据集扩展并分为三种变体,分别为单个桌面级别的简单模式TO_Vanilla、拥挤模式TO_Crowd、以及包含桌面物体和整个室内场景的全场景级别TO_ScanNet,以服务于更加广泛的实际应用场景。
具体地,我们构建了TO-Scene —— 全球首个大规模室内桌面场景数据集,包括20, 740个场景(16,077个单个桌面级别场景),52个桌面物体类别,三种变体。所有的场景都具有精细的三维实例和三维单点标注,并提供三维点云和网格两种格式。用户可在此数据集上进行三维检测、语义分割、实例分割等任务,未来也可支持机器人SLAM等多种实际应用。
真实数据TO-Real
此外,项目还开源了部分真实扫描数据 —— TO-Real,由深度相机直接扫描和人工标注。实验结果显示,由 TO-Scene 上训练的深度神经网络模型,在TO-Real上直接测试时也能表现出不错的性能,验证了TO-Scene数据在实际运用中的价值。
图形化人机交互界面
值得一提的是,数据集构建过程中用到的人机交互界面,简单易用,且同样开源,使得任何人都可以便捷地通过该界面扩充此数据集,或构建其他类似的数据,赋予了我们数据集极高的可扩展性。
Tabletop-object Descriminator
为了证明 TO-Scene 数据的价值,我们专注于3D语义分割和3D目标检测任务,以便从点和实例级别理解场景。
在 TO-Scene 中,由于桌子以及其他家具相比小物体,在尺寸上差异很大。因此桌面实例的分割自然是困难的,特别是对于有很多大家具的 TO-ScanNet。另外,现有的3D网络大多采用经典的下采样,比如最远点采样来扩大感受野。尽管如此,经过这些方案的采样,桌面小物体的点密度明显比大家具稀疏(见图6 (a)),这损害了桌面物体的感知。
为了解决这些问题,我们的想法是通过添加一个 Tabletop-object Descriminator (本质上是一个二分类器)来引导网络感知桌面对象的存在。网络Loss为桌面对象二分类器和分割(或检测)损失的总和,进行联合优化。
具体来说,Tabletop-objectDescriminator进行了两个操作:
如图5所示,将Descriminator最后一层FC层之前的特征向量,concat到主分割或检测分支提取的特征向量上,使得主分支的预测由二分类辅助驱动。
提出了一种动态采样策略,其中Descriminator得分较高的点(即桌面对象的点)更有可能被采样(如图6 (b))。在所有骨干网络的特征提取过程中,我们都使用动态采样代替原有的采样方式。
在实践中,Tabletop-objectDescriminator通过几个FC层实现,并通过K近邻(KNN)点特征的 Max Pooling 来辅助融合上下文信息。我们的联合学习概念可以推广到处理类似的具有较大方差数据的问题。
实验
为了证明 Tabletop-object Discriminator 的作用,我们在三维语义分割和物体检测任务上进行了大量的实验。
三维语义分割
网格化:3D数据的一个常见任务是语义分割。我们预先体素化点云,这将带来更规则的结构和上下文信息。体素化之后,每个体素存储一个带有类别label的表面点。然后我们从一个场景的所有体素中随机抽取80,000个点进行训练,并将所有点用于测试。
网络:我们对PointNet,PointNet++,PAConv和Point Transformer进行了基准测试。pointnet++和Point Transformer作为 Tabletop-object Discriminator 模块的backbone。
结果和分析:我们使用mIoU作为评价指标。从表3中可以看到,仅仅基于geometry输入,模型就可以表现出良好的效果。此外,我们的 Tabletop-object Discriminator 学习模块稳定地提高了模型的性能。
三维实例检测
数据预处理:在实例层面理解室内场景也很重要。我们遵循原始的state-of-arts的数据预处理方法。
网络:我们在TO-Scene上训练了VoteNet,H3DNet和Group-Free 3D等经典网络。VoteNet和Group-Free 3D作为 Tabletop-object Discriminator 模块的backbone。
结果和分析:对于评估指标,我们使用mAP@0.25。如表4所示,深度网络在均取得了较好的结果,我们的桌面感知学习方法再次显著提高了模型性能。
图7显示了语义分割、目标检测以及桌面物体分类的结果。我们可以看到,网络通过 Tabletop-object Discriminator 成功地分割或检测对象。分割和检测结果都表明,TO-Crowd比TO-Vanilla更具挑战性,而TO-ScanNet难度最大。
真实世界数据测试
数据集的最终目标是服务于真实世界的应用。
数据:由于没有真正的数据集能够与TO-Scene的三种变体完美匹配,所以首先要做的就是获取真实世界的数据。我们雇佣了专业用户对TO-Real进行手工扫描和标注,包括三组数据(见图8),分别表示为Real Vanilla、Real Crowd、Real scan。
实现:我们训练Point Transformer用于语义分割,VoteNet用于目标检测,对于不同变体的 TO-Scene 都进行了实验,并在对应的 TO-Real 上测试,不进行任何微调。
结果和分析:整体上,TO-Real上的测试结果是稳定的。尤其是,在 Vanilla 和 Crowd 设置下,对于检测任务,TO-Real上某些类别的 Test mAP甚至比TO-Scene上的还要好。这证明了TO-Scene桌面场景数据的价值。
作者简介
本论文共同第一作者为理工学院在读博士生许牧天及在读硕士生陈沛,他们的导师是韩晓光教授,该工作由韩教授指导完成。其他理工学院参与者还包括在读博士生刘浩霖。
2. Towards High-Fidelity Single-view Holistic Reconstruction of Indoor Scenes
我们的工作实现了输入一张RGB图片,就能得到如下的场景重建结果:
人们对室内场景的高科技都有着各种各样的想象。比如,一个机器人能够在家里,帮我们完成各种各样的任务,并且跟场景内的物体能够实现高度交互。对于室内场景的理解与重建,则是这些未来科技的第一步。对于一个室内场景,我们需要理解场景的布局,以及物体的位置和姿态,甚至于物体的形状。
然而,先前的单视角场景理解,仅能对物体进行粗糙的形状重建,并且只能对室内进行一个简单的布局估计。该文章提出了一个新的方法: InstPIFu。该方法第一次提出了使用像素对齐的隐式表达(pixel-aligned implicit representation)对物体进行高精度重建,并且也能够重建高精度的房间背景。
论文链接:
https://arxiv.org/abs/2207.08656
方法
该工作的方法框架如下图。输入一张RGB图片,该工作首先对图片进行二维物体检测,进而进行三维物体检测从而得到物体的位置和姿态信息。然后,RGB图片作为InstPIFu模块的输入,使用像素对齐的隐式函数(pixel-aligned implicit function)对物体进行高精度重建。背景也使用同样的方法进行高精度重建。
然而,在室内场景使用像素对齐特征(pixel-aligned feature)来进行物体重建有着进一步的挑战——物体之间的相互遮挡。当图像上的某个像素处于多个物体的遮挡重合区域时,该像素的特征,通过反投影到三维空间中,可能对应多个不同的物体。这导致了在网络训练过程中,该像素的特征将会同时包含多个物体的几何信息。因此,使用同样的像素对齐特征(pixel-aligned feature)来重建不同的物体是不合理的,并且可能会造成重建精度的下降。如下图所示。
通过观察,研究者发现了图片特征中的某些通道更容易捕捉某种物体的信息,而不容易捕捉其他物体的信息。因此,只需要保留某些图片特征的相关通道,而筛除其他通道的信息,就能够使得过滤后的特征只包含特定物体的信息。研究者使用attentional channel filtering 以及spatial-guided supervision两个模块,联合对像素对齐特征(pixel-aligned feature),根据被重建的对象来进行特征过滤。从而使得该像素对齐特征,只包含被重建物体的信息,而不会被其他物体的信息所干扰。
首先,对于输入RGB图片,提取图片特征图F。再根据先前得到的物体2D bounding box从F中裁取出该物体的特征图Fʳ,维度为H×W×C。编码器Gᶦ用于提取该物体的特征向量,在经过MLP (multi-layer perception) 得到逐通道、维度为C的注意力权重,而后再将该注意力权重与进行相乘,这等价于Fʳ为的每个通道进行加权。上述操作的目的是增强与对应物体相关的通道,并且筛除无关通道的信息。另外,在网络训练过程中,过滤后的特征图还会被输入到一个MLP进行全监督的物体前景分割。此过程被称为spatial-guided supervision。前景分割的梯度在训练过程中将会被回传至attentional channel filtering模块,从而帮助网络学到更好的注意力权重。
另外,从单张图像预测得到的室内背景及物体,将会按估计的相机参数和物体姿态被组合成一个完整的室内场景。
实验
房间背景重建
房间背景重建的对比如下图表。我们首先在3D-FRONT上使用chamfer距离对不同方法的场景重建进行了数值结果比较。其中使用三维包围盒作为背景表的Im3D效果最差,基于平面检测的PlaneRCNN效果也不佳。本文方法也明显优于基于深度信息重建背景的Factored3D以及Adabins。在视觉对比中,得益于隐式表达,本文方法可以精细地重建出墙壁、天花板处的几何信息,其他方法受限于不恰当的背景表达形式均表现不佳。
室内物体重建
该工作在室内物体重建上与先前的工作MGN与LIEN进行了数值以及视觉上的比较。在3D-FUTURE合成数据集上,该工作的方法优于先前的方法。在pix3D真实数据集上,作者纠正了先前工作不恰当的基于图像的训练集/测试集分割,使用了新的基于不同三维模型的训练集/测试集分割(non-overlapped split)。结果显示,MGN和LIEN在不恰当的测试集上表现出的过拟合能力更强,但在non-overlapped split上的泛化性能明显逊色于InstPIFu。数值以及视觉比较如下。
场景重建对比
我们还与先前的工作Total3D, IM3D进行了场景整体重建的视觉对比(下图)。本文方法在视觉效果上大幅优于先前的方法,并且能重建精细的房间背景模型。
消融实验
为了验证InstPIFu的有效性,我们对本文提出的网络设计进行了消融实验。实验设置如下:
视觉和数值对比结果如下图表,这验证了InstPIFu的有效性及各个模块的必要性。
作者简介
该论文共同第一作者刘浩霖、郑玉健均为理工学院在读博士生,导师为理工学院崔曙光教授和韩晓光教授(通讯作者)。
3. Pose2Room: Understanding 3D Scenes from Human Activities
仅从人体轨迹信息,本文提出的方法 P2R-Net,就能构建出房间内可能存在的物体,如沙发、书架等。
一个人在房间里走来走去,根据人的行走轨迹、身体动作等,就能建模出房间内的物体摆设。例如下面动图中,当人走到右边有坐下的动作时,表明与人交互的场景中有沙发或椅子这个物体。
在计算机视觉任务中,有一项基础任务是了解真实世界的 3D 环境,我们可以将输入介质如 RGB、RGB-D 视频或单个图像等进行 3D 重建来了解周围物体。这种使用有源相机(active cameras)的方法表明:利用强视觉信号可以有效的捕获物体几何结构。现在我们考虑这样一种情况(一种非常规的被动 3D 场景感知视图):在缺乏视觉信息的情况下,我们想要查看人体姿态数据,并询问「我们可以仅从人体姿态轨迹信息中了解 3D 环境的哪些信息?」这些为探索可穿戴设备开辟了新的可能性。
特别的,有研究表明 3D 环境中的人类运动经常与环境中的对象进行被动或主动交互,从而为可能存在的物体及其位置提供强有力的线索。例如,人在房间里走动表明有空的地板空间,人的坐姿动作表明椅子或沙发很可能支持着人体,单臂伸出表明拿起 / 放下某些物体。
因此,我们不禁会问:我们能否仅从人类轨迹信息中推断现实环境中的对象结构?至关重要的是,我们观察到人类运动和交互往往会提供有关场景中物体的强大信息——例如,坐着的人表明可能存在椅子或沙发。
来自慕尼黑工业大学、香港中文大学(深圳)的研究者提出了一种新的场景估计方法 P2R-Net :仅仅依靠 3D 人体姿态序列观察,就能估计与人交互的物体在场景中的排列,该模型的特征是其类别和定向 3D 边框。结果表明,P2R-Net 在 PROX 数据集和VirtualHome平台上始终优于基线。
论文地址:
https://arxiv.org/pdf/2112.03030.pdf
论文主页:
https://yinyunie.github.io/pose2room-page/
由于仅从场景中的人体姿态轨迹进行 3D 物体定位存在固有模糊性,因此该研究提出 P2R-Net 来学习场景中最可能的物体配置模式概率模型。在姿态序列中,P2R-Net 利用姿态关节位置投票选出参与观察到的姿态交互的潜在对象中心。然后,引入一个概率解码器,该解码器学习对象框参数的高斯混合模型,从中可以对对象排列的多种不同假设进行采样。为了实现大规模训练,该研究引入带有VirtualHome平台的大规模数据集,以从人体运动中学习对象配置。在VirtualHome和真实数据集 PROX 上的实验证明,P2R-Net 比基线方法表现出较强的优越性。
本文效果是这样的:观察到一个人在室内场景中进行日常活动的姿态轨迹,之后进行学习以估计这些交互背后的场景的可能对象配置。
方法介绍
仅将人体姿态轨迹作为输入,依据此来估计对象可能的配置分布,其中可以将场景中对象的合理假设作为类类别标签和定向 3D 边界框的集合进行采样。研究者观察到环境中的大多数人类交互都是针对特定对象的,并且运动行为通常受到场景中对象排列的影响。因此,他们的目标是发现每个姿态可能与之交互的潜在对象。
研究者首先使用位置编码器从人体姿态序列中提取有意义的特征,以将每帧分解为相对位置编码和与位置无关的姿态,以及使用姿态编码器来学习连续帧中每个姿态的局部时空特征。然后,利用这些特征为每个姿态投票选出一个潜在的交互对象。从这些投票中,文中方法学习了一个概率混合解码器,为每个对象提出框建议,描述对象、类标签和框参数的可能模式。方法如图 2 所示:
给定具有 N 帧和 J 个关节的姿态轨迹,位置编码器将每个骨架帧解耦为相对位置编码(从其根关节作为臀部质心)和与位置无关的姿态。在组合它们之后,姿态编码器从每个骨架的身体关节(空间编码)及其在连续帧中的变化(时间编码)学习局部姿态特征。然后,作为种子的根关节用于投票选出每个姿态可能与之交互的附近对象的中心。概率混合网络学习可能的对象框分布,从中可以对对象类别标签和定向 3D 框进行采样。
相对位置编码
该研究将具有 N 帧和 J 个关节的输入姿态轨迹视为 3D 位置序列。此外,他们还用表示每个姿态的根关节,其中姿态的根关节是与身体臀部对应的关节的质心。为了学习信息丰富的姿态特征,该研究首先将每一帧的绝对姿态关节坐标分解为一个相对位置编码和一个与位置无关的姿态特征,公式为:
其中 f_1(∗)、 f_2(∗) 是 point-wise MLP 层。N (r)表示 r 中每个根关节的 k 个时间近邻集合,Pool(*) 表示近邻平均池化。通过求和,输出P^r = P + Q 用于进一步的空间 - 时间姿态编码。
空间 - 时间姿态编码
编码P^r为人的相对姿态轨迹提供信号,然后,该研究进一步对这些特征进行编码以捕捉关节运动,从而了解局部人与物体的交互。也就是说,从P^r中学习空间 - 时间域中的关节运动:(1)在空间域中,从骨架内关节中学习以捕获每帧姿态特征;(2) 在时间域中,从帧间关系中学习来感知每个关节的运动。
受 2D 姿态识别的启发,该研究首先使用图卷积层来学习骨架内关节特征。图卷积中的边是按照骨架骨骼构造的,骨架骨骼对骨架空间信息进行编码。然后,对于每个关节,该研究使用 1-D 卷积层从其帧间邻居中捕获时间特征。一个图形层和一个 1-D 卷积层通过残差连接连接成一个块,以处理输入P^r(见图 3)。
通过堆叠六个块,该研究获得了更深的空间 - 时间姿态编码器,在时间域中具有更宽的感受野,从而能够对更多的时间邻居进行推理以进行对象框估计。最后,该研究采用 MLP 来处理每个骨架的所有关节以获得姿态特征
对于每个姿态特征 p ^st∈ P ^st,研究者使用它的根关节作为种子位置,并通过学习种子的位移来投票给对象中心:
实验
在实验中,数据集考虑两种类型的评估方式:跨不同交互序列的序列级拆分 S1,以及跨不同房间和交互序列的房间级拆分 S2。对于 S1,训练和测试的比例为 4:1;S2 是一个更具挑战性的设置,有 27 个训练房间和 2 个测试室。
S1 比较:图 5 展示了对不可见交互序列进行预测的可视化结果。Pose-VoteNet尝试识别一个物体的存在,但出现了漏检情况,不过这种方法在预测物体时会给出合理的物体位置。Pose-VN 缓解了漏检问题,但是很难估计对象框的大小 (第 1、3 行)。这些结果表明,在没有共享姿态特征的情况下,检测物体是很困难的。
S2 比较:图 6 展示了在未知房间中的比较结果。在这种情况下,大多数基线方法无法定位对象,而本文方法仍然可以生成合理的对象布局。
多模态预测:图 8 表明本文方法能够从运动轨迹推断出对象的空间占用,并能够对对象位置、方向和交互大小进行多样化、合理的估计。
在 PROX 上的比较:图 7 展示了来自 PROX 的真实运动数据的定性结果。结果表明,本文方法可以有效地处理真实的、有噪声的姿态轨迹输入。
检测准确率:表 1 显示了拆分 S1 的定量比较,可以观察到 Pose-VoteNet和 Pose-VN 难以识别某些对象类别(例如,床、冰箱和厕所)。
表 2 中比较了 mAP@0.5 在拆分 S2 上的得分,与在新房间中场景对象配置估计的挑战性场景中增加的相对改进。
表 3 将 PROX 的真实人体运动数据与基线进行定量比较。结果表明,在本文的数据集上进行预训练可以显著提高所有方法在真实数据上的性能,本文方法优于所有基线。
作者简介
论文作者之一聂隐愚博士,目前是 TUM 视觉计算小组的博士后研究员,师从 Matthias Niessner教授(也是本篇论文作者之一)。在此之前,聂隐愚获得了博士学位,由 Jian Chang 教授和 Jian J Zhang 教授指导。博士期间,聂隐愚曾作为访问研究员访问了香港中文大学(深圳)和深圳市大数据研究院,在那里由韩晓光教授指导。
教授简介
韩晓光
香港中文大学(深圳)理工学院与未来智联网络研究院助理教授,校长青年学者
韩晓光教授于2017年获得香港大学计算机科学专业博士学位。研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议发表论文近50篇,包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等,他目前担任Computer&Graphics期刊编委以及Frontiers of Virtual Reality客座编辑。他获得2021年度吴文俊人工智能优秀青年奖,IEEE TVCG 2021年度最佳审稿人荣誉提名,他的工作曾获得CCF图形开源数据集奖(DeepFashion3D),2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表(入选率分别为0.8%和0.4%),IEEE VR 2021 最佳论文荣誉提名, 计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖等。
- END -
点击以下链接,进入理工时刻:
日程安排 | 第五届聚集诱导发光国际研讨会暨翔龙鸣凤科学论坛
喜讯 | 理工学院韩晓光教授和吴辰晔教授入选2022 CCF-腾讯犀牛鸟基金名单
通信工程硕士 | 香港中文大学(深圳)2022年研究生自主招生简章
科研速递|赵俊华教授团队在Cell子刊Patterns上发表论文并被选为本期焦点论文
喜讯 | 理工学院周艳教授荣获霍英东教育基金会第18届高等院校青年科学奖
科研速递 | 理工学院俞江帆教授团队在Science子刊Science Advances上发表文章
活动回顾 | 香港中文大学(深圳)理工学院2022年优秀大学生夏令营