本文在非参数化网络 Point-NN 的基础上,提出了用于小样本 3D 场景分割的模型 Seg-NN,而进一步提出的一种参数化的变体 Seg-PN 在 S3DIS 和 ScanNet 数据集上的小样本分割任务取得了 SOTA 性能,分别超过第二名 4.19% 和 7.71%,同时将训练时间减少了 90%。
论文地址:https://arxiv.org/pdf/2404.04050.pdf
代码地址:
https://github.com/yangyangyang127/Seg-NN
背景和介绍
为了解决数据标注成本的问题,当前 3D 场景的小样本分割任务逐渐引起了关注。现有的 3D 小样本分割方法基本上遵循元学习的策略,训练一个 3D 编码器和类别原型(class prototype)生成模块。如图 1(a)所示,这些算法通常需要以下三步:(1)预训练:通过监督学习在“可见”类别上预训练。考虑到 3D 领域中缺乏预训练模型,这一步骤通过训练学习了一个 3D 编码器,例如 DGCNN。(2)Episodic 训练:在“可见”类别上进行元学习形式的训练,主要微调了上一步的 3D 编码器和训练了一个分割头。
(3)测试:模型在“未见过”的类别上测试小样本分割的性能。
然而,该流程包含两个比较大的问题:1)在“可见”类别上预训练和微调的 3D 编码器,在“未见过”的类别上测试必然会性能不佳,因为可见类别和未见类别存在 domain gap;2)复杂的预训练和 Episodic 训练,会带来大量时间和资源开销。为了解决这些问题,本论文在非参数化网络 Point-NN 的基础上,提出了用于小样本 3D 场景分割的模型 Seg-NN,Seg-NN 是一个不需要训练的 3D 编码器。如图 1(b)所示,Seg-NN 不需要训练,但性能与一些基于训练的方法相当。这种无需训练的特性简化了小样本训练流程,资源消耗最小,并缓解了由于训练集和测试集类别不同引起的 domain gap。此外,论文基于 Seg-NN 进一步提出了一种参数化的变体 Seg-PN。Seg-PN 只需要训练一个额外的 QUEST 模块,以缓解由于数据集过小引起的原型偏置(prototype bias)问题,如图 1(b)所示。Seg-PN 在 S3DIS 和 ScanNet 数据集上的小样本分割任务取得了 SOTA 性能,分别超过第二名 4.19% 和 7.71%,同时将训练时间减少了 90%。
Seg-NN
Seg-NN 继承并改进了 Point-NN 的非参数化编码器来对 3D 场景进行编码,但做了以下修改:1)将位置和颜色信息投影到共享的表征空间并聚合;2)为了减少自然 3D 场景中的噪声和扰动,Seg-NN 只采样鲁棒的低频信号,并滤除高频噪声。提取每个点的表征后,通过相似性匹配来预测的分割 mask。初始编码:把每个点的位置和颜色信息通过三角函数形式的位置编码映射到高维表征空间,然后将两者相加,这样可以为每个点得到一个综合的表征,记为初始编码。
表征操纵:图 2 是两个初始编码的示例,其中假设表征的维度是 120。从中可以很容易地观察到,每个点的初始编码是带限信号。因此我们可以可视化一下每个点的频谱,得到了图 3 左边所示的频谱。从图 3 左边可以看到,点的表征的频率主要分布在低频和高频范围内。考虑到本文的目标是对自然 3D 场景进行编码,这些点通常包含噪声和扰动,而高频范围中可能存在的幅度较大的尖锐噪声可能导致表征的严重扰动。