查看原文
其他

基于 Visual Transformer 的分割模型综述

OpenMMLab 2023-09-21

【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~





本期精彩



分割是一个基础性质的视觉任务,其目标是把输入的图像,视频,点云等划分成为带有语义性质的区域块。作为一个重要的场景理解任务,分割任务有着广泛的应用价值,包括自动驾驶,机器人导航,短视频分析。在深度学习时代,分割领域采用以卷积神经网络为基础的全卷积网络,在各个子方向上取得了突破性的进展。


近期,以 Transformer 为基础的一些方法在 NLP 以及 CV 领域各个方向上也取得了突破性的进展。相比于 CNN 模型,Transformer 模型结构上更灵活,更适用于多模态,多任务的输入。


在分割与检测领域,基于 Transformer 的模型在各个基准上也取得了领先的效果。自从 ViT 和 DETR 出现后,在各个子方向上,最新的研究方法均建立在 Transformer 为骨干网络和解码器的基础框架上。


鉴于目前这个领域近期快速进展,我们课题组对整个领域做了系统性地回顾与总结。整个 Survey 的内容包括基础知识与任务设置介绍,Transformer 的基础内容介绍,CNN 分割模型的系统性回顾,基于 Transformer 的分割模型回顾,相关基准数据集的评估与测试,以及未来可行的研究方向探索。




分享时间


北京时间

2023 年 6 月 15 日(周四)

20: 00 - 20: 40(分享)

20: 40 - 21: 00(Q&A)



分享嘉宾


李祥泰


南洋理工大学 S-Lab 博士后研究员,博士毕业于北京大学,研究方向包括计算机视觉和机器学习,图像视频分割与检测,多模态场景理解等。曾以第一作者身份在 CVPR,ECCV,ICCV,PAMI 顶级会议以及期刊上发表一些相关研究。



分享内容


  • 近期 3-4 年内常见的分割方法系统回顾与探索

  • 基于 Transformer 的分割与检测方法的系统性回顾,包含图像,视频,点云三个不同的领域

  • 近期与分割大模型相关的研究回顾

  • 近期与开集模型相关的研究回顾


相关工作

Transformer-Based Visual Segmentation: A Survey


paper:

https://arxiv.org/abs/2304.09854


论文十问:(文末点击阅读原文可直达)

https://readpaper.com/paper/1747364221319973376?channel=OpenMMLab


code:

https://github.com/lxtGH/Awesome-Segmentation-With-Transformer



交流群


同时为了方便大家交流沟通,我们还建立了技术交流群,欢迎大家扫码加群,与大佬 1v1,赶紧加入我们吧~






往期回顾


6 月 8 日社区开放麦,来自新加坡国立大学计算机系在读博士生孔令东分享了他们针对 LiDAR 点云分割系统受制于人工标注而开展的基于半监督学习的 LIDAR 点云感知工作。分享内容包括:自动驾驶 3D 场景感知概述、激光雷达点云中的分割与检测、半监督激光雷达点云分割。


超多干货,可以通过回放温习一下哦~





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存