超越SAM,三大角度全新探索分割一切模型!
【社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
SAM 是 Meta 提出的分割基础模型,其在数据量与泛化性上都取得不错的结果。SAM 作为 Prompt based 分割模型,其仍然有些美中不足的地方。
本期开放麦,我们特别邀请到新加坡南洋理工大学 MMLab 实验室的三位嘉宾带来专场分享,他们将带领大家从三个不同的角度重新思考分割模型:一是如何把 SAM 应用到移动端;二是如何结合 Vision Language Model,使得 SAM 拥有识别开集物体的能力;三是如何把 SAM 和其他各种分割任务,比如视频分割,语义分割等等能够结合起来。
更多精彩内容请锁定本周四晚 20:00 的社区开放麦直播。
分享内容
SAM 模型的基础知识以及相关工作介绍
EdgeSAM,可以在 iPhone 实时运行的 SAM 变体模型
Open-Vocabulary SAM,开放场景下交互式分割与识别的模型
OMG-Seg,可以统一视频,图像,交互式,开集的四种不同任务的分割模型
分享时间
北京时间
2024 年 2 月 1 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
周冲
南洋理工大学 S-Lab 博士生,目前研究方向为 Foundation Model Optimization。
原昊博
南洋理工大学 S-Lab 研究助理,目前的研究方向为 Foundation Model。
李祥泰
南洋理工大学 S-Lab 博士后,目前研究方向为多模态大模型以及其应用。
内容详情
本次分享重点讲述三个分割相关的工作,分别是 EdgeSAM,Open-Vocabulary SAM 和 OMG-Seg。
EdgeSAM
Segment Anything Model(SAM)虽然作为可交互分割领域的标杆大模型,但由于其庞大的参数量和计算复杂度,无法直接部署在移动端。本次分享将为大家介绍一种 SAM 的变体——EdgeSAM。它比 SAM 快了近 40 倍,并可以在 iPhone 14 上以 30FPS 的速度实时运行。具体而言,EdgeSAM 基于一种崭新的蒸馏方法,将 SAM 庞大的编码器压缩到一个纯 CNN 结构的小型网络上,同时为了提高性能,我们在蒸馏的过程中,加入 prompt 信息,以便可以更准确的地捕捉复杂的交互信息。
EdgeSAM Demo
Open-Vocabulary SAM
SAM 在分割中展示了强大的性能,而 CLIP 则在开放场景的识别中表现出色。本次分享将为大家介绍 Open-Vocabulary SAM, 一种统一的交互式分割与识别的模型。它显著优于简单的将 SAM 与 CLIP 结合的基线,同时在图像分类数据的帮助下可以识别超过 22,000 的类别。具体而言,Open-Vocabulary SAM 包括 SAM2CLIP 和 CLP2SAM 两个模块。前者通过蒸馏将 SAM 中的知识融入 CLIP,而后者将 CLIP 的知识转移至 SAM,以增强其识别能力。
OMG-Seg
SAM 虽然可以分割任意给出的 visual prompt,但是对于传统的一些分割任务,比如图像语义分割,全景分割等等有自己的缺陷。为此,我们提出了一个更加通用的分割模型,其能够高效而有效地处理所有分割任务,包括图像语义分割、实例分割、全景分割,以及它们的视频对应任务、开放词汇分割、交互分割(SAM)和视频目标分割。我们提出的 OMG-Seg,是第一个能够处理所有这些任务并取得令人满意性能的模型。本文展示了 OMG-Seg,这是一个基于 Transformer 的编码器-解码器架构,具有任务特定的查询和输出,可以支持十多种不同的分割任务,并显著减少跨各种任务和数据集的计算和参数开销。
EdgeSAM
Paper:
https://arxiv.org/abs/2312.06660
Code:
https://github.com/chongzhou96/EdgeSAM
Demo:
https://huggingface.co/spaces/chongzhou/EdgeSAM
Open-Vocabulary SAM
Paper:
https://arxiv.org/abs/2401.02955
Code:
https://github.com/HarborYuan/ovsam
Demo:
https://huggingface.co/spaces/HarborYuan/ovsam
OMG-Seg
Paper:
https://arxiv.org/abs/2401.10229
Code:
https://github.com/lxtGH/OMG-Seg
Demo:
https://huggingface.co/spaces/LXT/OMG_Seg
交流群
同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行 1v1 沟通 ,扫码即可入群~
往期回顾
上期开放麦,我们特别邀请到清华大学计算机系直博四年级研究生张瀚镭同学为大家带来 USNID 文本聚类框架的分享。
感兴趣的同学,可以通过直播回放学习一下哦~
2024-01-30
2024-01-29