查看原文
其他

ECCV 2020 | GRNet: 用于稠密点云补全的网格化残差网络

让创新获得认可 将门创投 2023-03-11

关注并星标

从此不迷路

Jiangmen



ECCV 2020系列文章专题

第·2·期




本文将分享来自哈尔滨工业大学的在读博士谢浩哲等人在ECCV的工作。为了解决多层感知机无法很好地获得点云的几何结构和上下文信息的问题,他们提出了Gridding Residual Network(GRNet)将无序的点云规则化至3D Grid,并且在ShapeNet、Completion3D和KITTI上的实验结果超越了state-of-the-art方法

 福利来啦!


每一期,作者都会抛出一个跟其paper有关的互动话题,我们将从留言区抽取回答最走心/最干货/最有想法的 名幸运同学,分别送出大红包🧧一个,中奖名单将会在一周后于本文留言区公布,快来参与吧!



#本期互动话题#
 

你觉得点云补全的实际应用有哪些?

目前的工作距离应用还有多远?

 
快去评论区留言吧!




作者:哈尔滨⼯业⼤学在读博⼠ 谢浩哲
Paper: https://arxiv.org/pdf/2006.03761
Project Page: 
https://haozhexie.com/project/grnet
GitHub: https://github.com/hzxie/GRNet

引  言

由于传感器本身的分辨率限制或物体的遮挡,现实场景中采集的点云往往不完整,而完整的点云对于点云理解有很大帮助。因此,点云补全在现实应用中有着非常重要的意义。

早期的工作(如3D-EPN [1])将该问题转换为体素的补全问题,然而转换为体素时会引入量化误差,从而丢失物体的细节。近几年的方法(如PCN [2]、TopNet [3]和Cascade Point Completion [4]等)直接使用多层感知机回归点云的坐标值。但由于点云的无序性,多层感知机无法很好地获得点云的几何结构和相邻点的上下文信息。

反观近几年点云分割的方法(如SPLATNet [5]和InterpConv [6]),它们在Permutohedral Lattice和3D Grid中进行卷积操作,从而考虑点云的空间结构和上下文信息。然而这两个方法假定点云中点的坐标和数量在输入输出时保持不变,因此无法直接用于点云补全

为了解决上述问题,本文提出了Gridding Residual Network(GRNet)将无序的点云规则化至3D Grid,从而在点云补全中考虑了点云的空间结构和上下文信息,最终在点云补全任务中取得了更好的效果。

一、工作亮点

点云补全在计算机视觉和机器人领域都有着重要的应⽤前景。现有的工作(如PCN、TopNet和Cascade Point Completion等)直接将多层感知机(Multi-layer Perceptrons,MLP)应用于点云,然而多层感知机无法很好地获得点云的几何结构和上下文信息


为了解决这个问题,本文提出了Gridding Residual Network(GRNet)将无序的点云规则化至3D Grid,并提出了Gridding, Gridding Reverse和Cubic Feature Sampling更好地感知点云的几何结构和上下文信息。


此外,相比于Chamfer Distance,基于Gridding的Gridding Loss可以帮助网络更好地恢复点云的细节。本文所提出的GRNet在ShapeNet、Completion3D和KITTI上的实验结果超越了state-ofthe-art方法


二、解决方案

本文所提出的GRNet包含了5个元素:Gridding3D CNNGridding ReverseCubic Feature SamplingMLP,如图1(a)所示。


图1. GRNet的概览


图2. GRNet的网络结构

2.1 Gridding
2D和3D卷积已经被广泛用于规则的数据中(如像素和体素),但它们在处理点云这类不规则且无序的数据时依然充满挑战。相比多层感知机(可看作卷积核大小为1的1D卷积),卷积层往往具有大于1的卷积核,因此可以更好地获得数据中的上下文。
GRNet使用了3D Grid规则化无序的点云,并提出了Gridding层将无序的点云 转换至3D Grid 的同时保留点云的空间结构,其中 的顶点集和值集可分别表示为:
其中表示点云中点的个数,表示3D Grid的分辨率。如图1(b)所示,3D Grid中包含了若干个Cell,每个Cell包含8个顶点。对于Cell中的每一个顶点,若点云中的点的坐标满足:
落在顶点的邻域 中,即
如图1(b)所示,给定顶点,该顶点对应的权值可定义为:
其中:
特别地,对于
  2.2 3D CNN
在Gridding将无序且不规则的点云数据转换为规则的3D Grid之后,可以对3D Grid的值集应用3D卷积神经网络,从而填补缺失值达到补全的目的。3D CNN的设计主要延用了U-Net的思想,网络结构如图2所示。
给定3D Grid的值集,3D CNN 的过程被形式化地描述为
其中
  2.3 Gridding Reverse
Gridding Reverse为Gridding的逆操作:将3D Grid转换回点云。给定3D CNN 生成的3D Grid
,Gridding Reverse将其作为输入生成一个粗糙的点云。如图1(c)所示,对于中的每个Cell,Gridding Reverse将为这个Cell生成一个点,其坐标可由这个Cell的8个顶点的坐标和权值加权得到:
其中 表示这个Cell顶点的下标索引的集合。
分别表示这个Cell的顶点集和值集。
特别地,如果,那么Gridding Reverse不再为这个Cell生成点
  2.4 Cubic Feature Sampling
早期基于多层感知机的方法(如PCN [2])可视为使用了多个Kernel Size = 1的1D的卷积层。又因为点云的无序性,无法直接使用Kernel Size > 1的卷积核。因此这些方法无法获得点云的上下文信息。
为了解决这个问题,本文提出了Cubic Feature Sampling,它可以从3D的特征图中抽取点云中点的特征并保留上下文信息。如图1(d)所示,给定3D CNN某个特征图的特征集合和粗糙点云中的某个点所对应的特征可表示为:
其中, 表示连接(Concatenation)操作, 表示所在的Cell的8个顶点的特征集合。
为了减少特征冗余,GRNet从粗糙点云中随机采样(Random Sampling)2048个点,Cubic Feature Sampling从3D CNN的前3个转置卷积层的特征图中抽取特征并生成这2048个点的特征
  2.5 MLP
MLP被用于从粗糙点云中恢复细节。对于采样后的粗糙点云中的点,它为每一个点估计出个偏移量,从而生成最终的点云。具体来说,给定粗糙点云和其对应的特征,MLP将生成最终的点云
其中Tile将重复次生成一个新的大小为的张量。在GRNet中,,即最终的点云中将包含16384个点。
  2.6 Gridding Loss
现有的点云重建/补全的方法主要使用倒角距离(Chamfer Distance)作为损失函数训练网络。倒角距离的优化目标是最小化两个点集的最小距离之和:
其中为两个点集。相比于应用于像素的L1/L2 Loss和应用于体素的Binary Cross Entropy Loss,倒角距离无法完成点对点的监督;另一方面,由于点云的无序性,导致无法像体素和像素一样找到点到点的对应关系。这些问题最终容易导致预测结果中细节的丢失。
但现在有了Gridding,无序的点云就可以被规则化到一个规则的结构上,从而可以非常容易地找到点对点的对应关系并实现点对点的监督。令分别表示预测输出和Ground Truth在Gridding之后生成的值集,则Gridding Loss可以定义为的L1距离:
其中表示3D Grid的分辨率。

三、实验结果

  3.1 ShapeNet

对于ShapeNet,本文使用了PCN [2]所生成的数据集,并使用了Chamfer Distance和F-Score@1%度量GRNet的结果,如表1-2和图3所示。

表1. ShapeNet测试集上的点云补全定量结果,使用L2范式的Chamfer Distance作为度量指标。


表2. ShapeNet测试集上的点云补全定量结果,使用FScore@1%作为度量指标。

图3. ShapeNet测试集上的点云补全定性结果。GT表示Ground Truth。

  3.2 Completion 3D

除了ShapeNet,本文还在Completion 3D Benchmark上提交了结果,如表3所示。截止撰稿时,GRNet在Benchmark位居第一

表3. Completion 3D测试集上的点云补全定量结果,使用L2范式的Chamfer Distance作为度量指标。

  3.3 KITTI

图4展示了GRNet和其他对比方法在KITTI数据集上的结果。输入点云来自于雷达扫描的数据,并使用3D Detection的Bounding Box对其进行裁剪和标准化,使其具有相同的位姿和尺度。

图4. KITTI测试集上的点云补全结果


希望进一步了解该工作的朋友点击下方视频,查看作者详解~


//


作者介


谢浩哲 | 哈尔滨工业大学 计算机科学与技术学院在读博士

谢浩哲,目前在哈尔滨工业大学计算机科学与技术学院攻读博士学位。他的研究方向主要包含3D重建和计算机视觉。目前在CVPR/ICCV/ECCV/IJCV等计算机视觉顶级会议和期刊上发表多篇论文。

个人主页:https://haozhexie.com/about


最后,别忘了

#本期互动话题#
 

你觉得点云补全的实际应用有哪些?

目前的工作距离应用还有多远?

 

我们将从中选出 位送出大红包一个~

更有机会与论文一作深入交流切磋哦!


参考文献

[1] Dai et al. Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis. CVPR 2017.

[2] Yuan et al. PCN: Point Completion Network. 3DV 2018.

[3] Tchapmi et al. TopNet: Structural Point Cloud Decoder. CVPR 2019.

[4] Wang et al. Cascaded Refinement Network for Point Cloud Completion. CVPR 2020.

[5] Su et al. SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018.

[6] Mao et al. Interpolated Convolutional Networks for 3D Point Cloud Understanding. ICCV 2019.



将门 ECCV 2020 鲜声夺人云际会

预报名开启】

点击下方小程序报名



扫码观看!

本周上新!


来扫我呀


关于我“门”


将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。


将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。


将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。


将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。


如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 

bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com


点击“❀在看”,让更多朋友们看到吧~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存