查看原文
其他

CVPR 2024 | 基于自动提示网络的跨域小样本语义分割

何伟钊 深大计算机与软件学院 2024-05-24


APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation
Weizhao He1†,  Yang Zhang1†*,  Wei Zhuo1*,  Linlin Shen1,  Jiaqi Yang2,  Songhe Deng1,  Liang Sun1

1Shenzhen University

2University of Nottingham


导读

论文APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation发表在计算机视觉与模式识别顶级会议CVPR 2024上,由深圳大学计算机与软件学院计算机视觉研究所沈琳琳教授团队类脑计算课题组完成。
该工作提出了一种适配Segment Anything Model到跨域小样本语义分割(CD-FSS)任务的方法,该方法首先通过循环一致性提出查询原型来增强跨域特征转换过程,随后基于转换的特征,自动生成提示嵌入来实现全自动分割。该方法在CD-FSS 数据集上取得更佳的性能表现。



引言

小样本语义分割(FSS)的旨在通过少量标注样本指导模型迅速识别并分割图像中的新类别对象。然而,现有的FSS方法普遍基于一个假设:训练数据和测试数据源自同一领域。一旦这些方法应用于未知的领域,其性能往往会大幅下降。为此,我们提出适配Segment Anything Model(SAM)到跨域小样本语义分割(CD-FSS),以增强模型泛化能力。本文旨在利用具备丰富标注的自然领域数据集训练模型,进而将所学到知识迁移至数据稀缺的目标领域。如图1所示,在CD-FSS任务中,训练(源)数据集和测试(目标)数据集分属不同的领域,且测试集中的类别在训练阶段是完全未知的。

图1. CD-FSS任务介绍

为解决训练数据与测试数据之间的领域偏移和SAM本身无法实现全自动语义分割的问题,本文提出了一种自动提示网络的方法。考虑到类内方差的因素,本文利用循环一致性提取伪查询原型与支持原型融合,以增强特征转换过程。考虑到SAM的分割效果对人工视觉提示的质量敏感,本文利用转换后的特征直接生成提示嵌入,驱动SAM实现全自动的语义分割。


技术贡献

本工作主要贡献如下:
  • 提出了一种新的方法可有效地将 SAM 适配到 CD-FSS 任务。
  • 提出的DPAT 模块通过融合支持原型和伪查询原型,可有效地将输入特征转换到与领域无关空间,缓解领域偏移的不良影响。
  • 提出的MPG模块基于元学习的方法自动生成提示嵌入,从而建立一个全自动的分割框架
  • 在四个跨域数据集上广泛实验表明我们的模型取得了先进的性能表现。


方法介绍

该方法的具体结构如图2所示,APseg主要由DPAT和MPG两个核心模块构成。在源域完成训练的模型将直接应用于目标域进行元测试。

图2. APSeg模型结构图

当给定支持图像  ,支持掩码  ,和查询图像  时,我们首先利用SAM的图像编码器来提取出多层级特征。然后采用DPAT模块将支持和查询特征转换到与领域无关的空间当中,从而缓解领域偏移带来的不良影响。由于类内方差的影响,支持原型不能很好地表示类别的完整信息。因此,我们提出循环一致性选择(CCS)提取查询原型来增强支持原型,进而提升特征转换的效果。接着,我们引入MPG模块,其任务是利用转换后的特征,通过元学习的方式为SAM的掩码解码器生成稀疏和密集提示嵌入。最后,我们将生成的提示嵌入与转换后的深层查询特征传递给SAM的掩码解码器,以进行目标掩码预测。


结果展示

如表1所示,我们提出的模型比之前的CD-FSS方法在1-shot和5-shot设定下平均提升5.24%和3.10%的性能。图3展示了APSeg在不同数据集下的分割结果。

表1. 与现有方法的性能比较

图3. 分割结果可视化。支持标签以蓝色覆盖,查询图像的预测和标签分别为绿色和红色

总结展望

本文提出了APeg,一种将SAM适配到CD-FSS任务的方法,以便模型只需少量标注样本即可快速泛化到其他领域中的未见类别。结合DPAT和MPG模块,构建了一个全自动的分割框架,释放了SAM在跨域场景的分割能力。实验结果证明了APSeg在CD-FSS任务中的优越性。未来,我们将专注于自动生成提示的设计,高质量的提示可以更好的发挥SAM的跨域分割能力。


思考讨论

Q: 为什么要用融合支持原型和查询原型?

A: 在小样本学习的场景下,通常仅依靠一张或几张支持图像为特定类别提供有限的参考信息。因此,从这些图像中提取的支持原型往往难以涵盖足够的类别信息。当查询图像中的目标对象与支持图像中的对象在外观、姿态等方面存在显著差异时,仅凭支持原型计算得出的转换矩阵往往无法有效转换查询特征。为了解决这一问题,本文提出了一种基于支持特征与查询特征之间循环一致性,在没有查询掩码的情况下提取查询原型,并将其与支持原型进行融合,从而增强特征转换过程。

 

以下是开放型问题,欢迎各位读者交流讨论:

Q: 跨域小样本语义分割、领域泛化以及领域自适应任务之间存在密切的关联性。那么,视觉基础模型如SAM是否也能够在提升这两个任务的表现方面发挥积极作用呢?

深圳大学计算机与软件学院

计算机视觉研究所

Computer Visual Institute



深圳大学计算机视觉研究所凝聚了图像处理、模式识别、智能优化等计算机视觉理论与应用相关学科人才,从事图像特征提取、选择优化以及机器学习等理论研究,并将其应用于生物特征识别、医学图像辅助诊断以及遥感数据挖掘等领域。研究所在人脸检测、识别,指纹识别、医学图像以及机器学习领域和华为、唯品会、大华以及欧蒙等企业广泛展开了产学研合作。


官网地址:http://cv.szu.edu.cn/合作电话:0755-86935089



转载申请



联系电话:0755-26534078联系邮箱:wuyazhou@szu.edu.cn


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存