速递 | Meta最新视频视觉模型Segment Anything 2,视频也可以分割!
图片来源:Youtube截图
Meta 去年推出的Segment Anything 一炮打响,这是一个机器学习模型,可以快速可靠地识别和勾勒出图像中的任何事物。公司首席执行官马克-扎克伯格(Mark Zuckerberg)周一在 SIGGRAPH 大会的舞台上首次推出了续集,将该模型应用到了视频领域,以显示该领域的移动速度。
分割是一个专业术语,是指视觉模型观察图片并找出其中的部分:希望是 "这是一只狗,狗后面是一棵树",而不是 "这是一棵从狗身上长出来的树"。这一过程已经持续了几十年,但最近变得更好更快了,其中 "Segment Anything "是一大进步。
Segment Anything 2 (SA2)是一个自然的后续模型,因为它不仅适用于静态图像,还适用于视频;当然,您可以在视频的每一帧上单独运行第一个模型,但这并不是最有效的工作流程。
"科学家们用这些东西来研究珊瑚礁和自然栖息地之类的东西。扎克伯格在与 Nvidia 首席执行官黄仁勋(Jensen Huang)的对话中说:"但是,能够在视频中做到这一点,而且是零拍摄,并告诉它你想要什么,这就很酷了。
当然,处理视频对计算要求更高,SA2 可以在不融化数据中心的情况下运行,这证明了整个行业在效率方面取得的进步。当然,这仍然是一个需要大量硬件才能运行的庞大模型,但快速、灵活的分割在一年前几乎是不可能的。
图片来源:Meta
该模型与第一个模型一样,将是开放和免费使用的,目前还没有托管版本的消息,而这些人工智能公司有时会提供托管版本。但有一个免费演示版。
当然,这样的模型需要大量数据来训练,Meta 还发布了一个包含 50,000 个视频的大型注释数据库,它就是为此目的而创建的。在描述 SA2 的论文中,另一个包含 10 万多个 "内部可用 "视频的数据库也被用于训练,但这个数据库并没有公开--我已经要求 Meta 提供更多信息,说明这是什么,以及为什么没有公开。(我们猜测这些视频来自 Instagram 和 Facebook 的公开资料)。
图片来源:Meta
几年来,Meta 一直是 "开放 "人工智能领域的领军者,尽管事实上(正如扎克伯格在对话中所说),它很早就开始这样做了,并推出了 PyTorch 等工具。但最近,LLaMa、Segment Anything 和它免费发布的其他一些模型,已经成为这些领域人工智能性能的一个相对可及的标准,尽管它们的 "开放性 "还有待商榷。
扎克伯格提到,Meta 公司的开放并非完全出于善意,但这并不意味着他们的意图不纯:
"这不仅仅是一个软件,你需要一个围绕它的生态系统。如果我们不开放源代码,它甚至都不会运行得那么好,对吗?我们这么做并不是因为我们是利他主义者,尽管我认为这对生态系统会有帮助,我们这么做是因为我们认为这会让我们正在构建的东西变得最好。"
无论如何,它肯定会得到很好的利用。
地址:https://github.com/facebookresearch/segment-anything-2
-----------END-----------