查看原文
其他

论文解读:高质量三维物体大型数据集OmniObject3D|CVPR 2023

Shanghai AI Lab 上海人工智能实验室 2023-09-21

人工智能领域最有学术影响力的顶级会议之一CVPR 2023在上周公布了最佳论文等奖项,由上海人工智能实验室(上海AI实验室)、香港中文大学、商汤科技、香港科技大学以及南洋理工大学S-Lab联合提出的高质量三维物体大型数据集OmniObject3D入围本届CVPR最佳论文候选(Award Candidate)。本届CVPR论文投稿总量达9155篇,最佳论文候选为12篇,入选率仅为1.3‰,入围者包括谷歌、上海AI实验室、斯坦福大学、康奈尔大学等在内的世界顶尖企业及机构。


上海AI实验室联合团队在题为《OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation》的论文中提出目前学术界最大的真实世界三维扫描模型数据集——OmniObject3D 。该项工作将为未来的三维视觉研究提供广阔空间。


项目主页:

https://omniobject3d.github.io (点击阅读原文直达链接)

数据集下载:

https://opendatalab.com/OpenXD-OmniObject3D-New

OmniObject3D覆盖200余个类别约6千个三维物体的数据;同时含有丰富的标注,包括了高精表面网格、点云、多视角渲染图像,和实景采集的视频;此外还通过专业的扫描设备保证了物体数据的精细形状和真实纹理。该数据集将有力促进真实世界中感知、重建和生成领域的发展。利用该数据集,研究人员探讨了点云识别、神经渲染、表面重建、三维生成等多种学术任务的鲁棒性和泛化性,提出了众多有价值的发现,并验证了其从感知、重建、到生成领域的开放应用前景。OmniObject3D及其对应的标准将为学术研究和工业应用带来新的启迪和发展机会。

大规模、高质量数据集:解决3D视觉研究及应用痛点

面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题,也在近年来取得了飞速的进展。然而,由于社区中长期缺乏大规模的实采 3D 物体数据库,大部分技术方法仍依赖于 ShapeNet等仿真数据集。再者,仿真数据与真实数据之间的外观和分布差距巨大,限制了它们在现实生活中的应用。为了解决这一困难,近年来也有一些优秀的工作如 CO3D 等,从视频/多视角图片中寻求突破点,并利用 SfM 的方式重建 3D 点云。然而这种方式得到的点云往往难以提供完整、干净、精准的 3D 表面和纹理。因此,迫切需要一个大规模且高质量的真实世界 3D 物体扫描数据集,以推进3D视觉研究和下游应用的发展。仿真数据与真实扫描数据的对比:仿真数据的纹理和几何往往比较简单且失真多视角图片重建点云与真实扫描数据的对比。重建点云往往含有噪声,且无法恢复精细的表面与纹理,在没有拍摄到的位置存在大面积空洞

涵盖四种模态信息、四大下游任务评估

OmniObject3D 为每一个物体提供了四种模态信息,包括:带纹理的高精模型、点云、多视角渲染图像、实景拍摄的环绕视频。同时针对每段拍摄视频平均抽取了 200 帧,并提供前景掩码和 SfM 重建的相机位姿和稀疏点云。模态示例与文件层级数据集的整体类别内物体数量呈长尾分布,与 ImageNet、COCO、LVIS 和 ShapeNet 等热门 2D 及 3D 数据集中的常见类别高度共享。

每个类别内物体数量分布图

OmniObject3D 为学界带来了广泛的探索空间,在本篇论文中,研究团队通过点云分类鲁棒性、新视角合成、表面重建、3D 物体生成等四个下游任务对OmniObject3D进行了评估与分析。



点云分类鲁棒性

Point Cloud Classification Robustness

物体点云分类是 3D 感知中最基本的任务之一。OmniObject3D 可通过解耦 out-of-distribution styles & out-of-distribution corruptions 来实现更全面的点云分类鲁棒性分析。

OmniObject3D 提供了一个干净的真实世界物体点云数据集,实现了针对 OOD styles & OOD corruptions 的鲁棒性进行细粒度分析

具体来说,OmniObject3D 针对CAD 模型与真实扫描模型之间的差异引入了 OOD styles,以及针对常见点云破坏因子产生了 OOD corruptions。

在之前的研究工作中,含噪的真实物体数据集如 ScanObjectNN 将两种情况耦合,无法实现解耦分析;主动加入破坏因子的仿真数据集如 ModelNet-C则仅仅反映了第二种情况。OmniObject3D 则具备将两种情况解耦分析的要素。

通过对十种最常见的点云分类模型进行测试,可以揭示其与 ModelNet-C 数据集中结论的异同。在应对这两个挑战时,如何实现一个真正鲁棒的点云感知模型仍需深入探索。

点云分类鲁棒性实验结果



新视角合成

Novel View Synthesis

自NeRF提出以来,新视角合成一直是领域内的热门方向。基于OmniObject3D,团队研究了两种赛道下的新视角合成方法:其一是利用密集视角图片输入,对单一场景进行优化训练;其二则是挖掘数据集中不同场景之间的先验,探索类 NeRF 模型的泛化能力。

首先,对于单场景优化的模型,可以观察到,基于体素的方法更擅长建模高频纹理信息,而基于隐式模型的方法则相对更能抵抗表面凹陷或弱纹理等容易产生几何歧义的情况。

数据集中,物体多变而复杂的形状和外观为这项任务提供了一个全新的评估基准。

多个常见方法的单场景优化效果示例

相对于拟合的单个场景的模型,跨场景可泛化框架在本数据集上的表现更令人期待。网络从很多同类别、甚至跨类别的数据中学习到可以泛化的信息,即可针对一个全新场景的稀疏视角输入做出新视角预测。

实验表明,作为一个几何和纹理信息丰富的数据集,OmniObject3D 有助于促使模型学到对新物体甚至新类别的泛化能力。

泛化性模型效果示例



表面重建

Surface Reconstruction

除新视角合成外,如果能恢复物体的显式表面,将更加有助于下游应用的开发。同时,OmniObject3D的数据具备精准且完整的三维表面,能够充分支持表面重建精度的评测需要。团队也为表面重建任务设置了两条赛道:稠密视角采样下的表面重建,以及稀疏视角采样下的表面重建。

稠密视角下表面重建结果展示了数据集内几何形状的显著多样性。精准的扫描使得Chamfer Distance 可以作为重建精度的度量。通过将类别划分为三个“难度”等级,可以观察到所有方法在不同等级上的结果存在明显的差距。

与仅包含 15 个场景的标准 DTU基准相比,OmniObject3D在这项任务上提供了更全面的评估结果。


稠密视角表面重建示例

稀疏视图表面重建是一个更具挑战性的任务,在所有方法的结果中都观察到了明显瑕疵,均未达到能够满足实际应用的水平。

除了专为稀疏视角表面重建设计的方法外,团队还评估了前面提到的泛化性新视角合成模型的几何恢复能力——数据集提供的精准 3D Ground Truth 在评测中再次发挥了优势,然而其表现同样无法令人满意。

综上所述,该问题的探索空间仍然巨大,而 OmniObject3D 为该领域的进一步研究提供了扎实的数据基础。

稠密和稀疏视角表面重建效果示例


3D 物体生成

3D Object Generation

除了重建之外,OmniObject3D 还可以用来训练真实 3D 物体的生成模型。团队采用 GET3D框架同时生成形状和纹理,并尝试使用单个模型从数据集中同时学习多种类别的生成。

带纹理的 3D 物体生成

通过在隐空间插值,可以观察到生成模型跨类别变化的特性。在论文中,团队还着重探讨了由于训练数据不平衡导致的生成语义分布失衡特点。

形状和纹理低维隐码插值结果

未来,上海AI实验室联合团队将致力于不断扩大和更新OmniObject3D数据集以满足更广泛的研究需求。除了现有的应用,团队还计划进一步发展其他下游任务,如 2D / 3D 物体检测和 6D 姿态估计等。除了感知和重建任务外,OmniObject3D有望在AIGC 时代为推动真实感 3D 生成发挥至关重要的作用。

论文标题:

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation


论文连接:

https://arxiv.org/abs/2301.07525


项目主页:

https://omniobject3d.github.io/


Github:

https://github.com/omniobject3d/OmniObject3D/tree/main


数据集下载:

https://opendatalab.com/OpenXD-OmniObject3D-New

扫码下载数据集

扫码关注OpenDataLab


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存