SAM 时代，图像/视频分割将何去何从？

OpenMMLab 2024-04-23

【OpenMMLab 社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

大型语言模型，依靠大规模并行计算和训练数据，无可争议地证明了它们在自然语言理解和生成方面的价值。因此，如何构建视觉基础模型成为一个重要问题。"Segment Anything Model"（SAM）是这个问题的一个强有力的答案。

在这次报告中，我们将简要回顾 SAM 及其功能，并讨论我们对 SAM 进行拓展和应用的进一步研究。特别地，我们将介绍 HQ-SAM 以及 SAM-PT。

HQ-SAM，全称 Segment Anything in High Quality，是在现有的 SAM 基础上进行改进的一个能够分割任何物体的算法，具有更好的分割能力，特别是在处理具有复杂结构的对象时，能够更准确地分割。同时，HQ-SAM 保留了 SAM 的可提示性、高效性和零 -shot 泛化能力。

SAM-PT，全称 Segment Anything Meet Point Tracking，是一项集稀疏点跟踪和 SAM 于一体的创新技术。它借鉴了 SAM 在图像分割领域的强大实力，结合了点驱动的方法，只需在视频的第一帧中注释稀疏点，便可成功追踪目标项目。SAM-PT 方法有效地将 SAM 扩展到视频领域，为视频分割提供了强大的支持，而无需对任何视频分割数据进行训练。

虽然 SAM 是通向视觉基础模型的重要一步，但仍然存在许多挑战，特别是在为视频任务收集训练数据方面。我们最近的研究成果 MaskFreeVis，表明对于视频任务，我们可能不需要类似规模的标记数据。它有助于开发未来更强大的视觉基础模型。

HQ-SAM 示意图

SAM-PT 示意图

我们准备了 HQ-SAM 的在线 Demo，在线 GPU 资源供大家体验~

传送门：（文末点击阅读原文可直达）

https://openxlab.org.cn/apps/detail/keleiwhu/sam-hq

分享时间

北京时间

2023 年 8 月 3 日（周四）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

柯磊

苏黎世联邦理工学院 Computer Vision Lab 博士后研究员，博士毕业于香港科技大学计算机科学与工程系。他的研究方向为计算机视觉，包括图像/视频中物体的分割、追踪及检测等基础感知问题。他主导的相关开源项目代码在 GitHub 平台累计获赞近 5000 次，并在 CVPR/ICCV/ECCV/NeurIPS/TPAMI 等顶会和期刊上一作发表多篇高质量论文。

分享内容

视觉基础模型 SAM 的简要回顾
HQ-SAM 以及如何对 SAM 做高效的adaptation/tuning
SAM-PT：零样本视频分割
MaskFreeVIS：在没有 mask 标注的情况下进行视频分割
图像/视频分割的新研究趋势

相关工作

Segment Anything in High Quality

ReadPaper 论文十问：https://readpaper.com/paper/4763261193129295873?channel=OpenMMLab

Paper：

https://arxiv.org/abs/2306.01567

Code:

https://github.com/SysCV/SAM-HQ

HQ-SAM 在线体验 Demo：

https://openxlab.org.cn/apps/detail/keleiwhu/sam-hq

Segment Anything Meets Point Tracking

ReadPaper 论文十问：

https://readpaper.com/paper/4773793206072508417?channel=OpenMMLab

Paper：

https://arxiv.org/abs/2307.01197

Code:

https://github.com/SysCV/sam-pt/tree/main

Mask-Free Video Instance Segmentation

Paper：

https://arxiv.org/abs/2303.15904

Code:

https://github.com/SysCV/MaskFreeVis

交流群

同时为了方便大家交流沟通，我们还建立了 SAM 相关的交流群，提供与大佬 1v1 的机会，扫码即可入群~

往期回顾

更多 SAM 相关工作？北京航空航天大学的博士生陈科研，探讨如何设计一种适用于遥感图像的自动实例分割方法——RSPrompter。通过 RSPrompter，SAM 可以生成具有语义识别性的遥感图像分割结果，这在一定程度上解决了 SAM 依赖于手动先验引导以及其在遥感图像分割任务能力的局限性。

通过此次分享，你不仅可以了解到 SAM，也可以了解到基于 SAM 研究实例分割的挑战及一些可能的解决方案，还将深入解析 RSPrmopter 设计思路以及未来可能的研究方向。

超多干货，可以通过回放温习一下哦~

AI 大神何恺明官宣加入 MIT，正式回归学术界!

2023-07-31

PapersWithCode 榜首 | AI 动画生成框架 AnimateDiff 开源，更丝滑的动画制作体验，附在线应用教程

2023-07-28

MMBench：为你的多模态模型找到北极星

2023-07-26

继续滑动看下一个

OpenMMLab

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

SAM 时代，图像/视频分割将何去何从？

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

SAM 时代，图像/视频分割将何去何从？

您可能也对以下帖子感兴趣