查看原文
其他

对标Sora,谷歌推出AI新路径Genie,PK谁更牛?大咖解读

和光一 元界
2024-09-06

“中国元宇宙100人”有了姊妹篇,“中国未来产业100人”正式上线。前者关注元宇宙及相关领域,后者关注AI、机器人、智能制造、生命科学、芯片等赛道。欢迎入镜,微信 imerit。



90后,近10亿融资,风口之上,他要深化AI+通用机器人的融合

李飞飞门生与英伟达新研究部门GEAR:起底领衔华人科学家范麟煕


在生成视频和构建世界模型的道路上,OpenAI和谷歌相继迈出一步。


Sora承载着OpenAI构建物理世界通用模拟器的梦想。如今,谷歌也推出了全新范式、全新路径之作Genie,这也是谷歌继推出自家大模型Gemini、开源大模型Gemma之后布局这一赛道的另一动作。


与Sora文生视频不同,在谷歌的语境,Genie 被定义为“可交互生成式世界模型"。


有网友称,Genie是谷歌对Sora不痛不痒的回击了一拳,但谷歌Deepmind联合创始人Mustafa Suleyman 认为,生成式AI只是过渡,只有交互式AI才会改变人类生产力。



AI新范式:一作有一名华人作者


Genie,Generative Interactive Environments的简称,谷歌将之命名为“生成式交互环境”。


Genie是一个110亿参数的基础世界模型,以超过20万小时的公开在线游戏视频数据集为训练素材,是第一个在无监督学习下从互联网视频中训练出来的可生成交互环境的模型。


Genie由tokenizer(一个时空视频)、autoregressive dynamics model(一个自回归动力学模型)和latent action model / LAM(一个简单且可扩展的潜在动作模型)三个关键组件组成。其中, tokenizer,将原始视频帧转换为离散的 token;动态模型,根据当前帧的 token 和潜在动作预测下一个帧;潜在动作模型,用于推断视频帧之间的潜在动作。


整个模型分为两个阶段进行训练,首先训练视频 tokenizer,然后训练潜在动作模型和动态模型。


Genie 的核心设计是多个组件基于空间时间Vision Transformer (ViT)构建而成,这是一种特殊的Transformer,用于处理视频等具有时间和空间维度的数据,与只处理静态图像的传统Transformer模型有很大不同。


在公众号“直觉兔Corddt”主理人Corddt看来:


Genie借鉴了Villegas、Gupta在2023年的研究,他们的研究代表了最先进的视频生成模型的思想,但Genie的核心设计选择是空间时间(ST)变换器,这是在所有模型组件中都用到的黑科技。


简单来说,Genie用了一种新奇的视频分词器,还有一个能通过因果关系模型抽取潜在动作的高级玩意,把视频的每一帧和这些潜在动作结合起来,然后通过一个叫做MaskGIT的模型,自动生成下一帧的画面。


谷歌还做了一番严谨的扩展分析,从40M(4000万)参数测试到2.7B(27亿)参数,看看他们的架构在增加计算资源时能不能优雅地扩展。结果,显然非常成功,搞出一个11B(110亿)参数的模型。


“这实力,简直了!”他表示。


基本资料

论文一作 6 人,包括华人学者、谷歌 DeepMind 研究科学家石宇歌,2023 年获得牛津大学机器学习博士学位

论文名称:Genie: Generative Interactive Environments

论文地址:

https://arxiv.org/pdf/2402.15391.pdf

项目主页:

https://sites.google.com/view/genie-2024/home?pli=1



如何理解新路径:解读Genie的强大之处


划重点,Genie的强大之处在于,可通过文本、合成图像、照片、草图等多种方式,描述和生成无数个动作“自主可控”的虚拟世界。


在Corddt看来,有这么几个环节可圈可点:


第一,这不仅仅是学会了生成环境,还学会了一套一致的潜在动作,“简直就是小学生也能学会的那种易操作性!”


第二,从互联网视频中学到的潜在动作,竟然可以用来从那些没见过的、没有动作的视频中,推断出策略,特别是在模拟的强化学习(RL)环境里。


“如果这项技术被推广开来,我们未来的机器人朋友们不仅能做家务,说不定还能陪你下棋、一起打游戏。这不仅仅是技术上的突破,更是打开了人类和机器人共生未来的大门。”他说。

Genie训练的过程

他说,想象一下,你手里有一段视频,Genie就从这段视频里取出一帧帧的画面。然后,“这个神奇的家伙用它的视频分词器,把这些画面变成了一串串的离散符号,就像是把视频‘翻译’成了一种它能懂的语言一样。”


接下来,用潜在动作模型,Genie在每两帧画面之间推断出潜在的动作。“这就好比是,它能读懂视频里发生了啥,还能预测接下来会发生什么。”


然后,把这些“翻译”出来的符号和推断出的动作一起,送到动力学模型里去。“这个模型就像是个预言家,能够预测接下来的画面会是什么样子。这个过程是迭代进行的,意味着Genie会一遍又一遍地做这个过程,每次都试图更准确地预测下一帧画面。”

看这个表,它告诉我们Genie是一个新型的生成模型,不仅仅是视频模型,还是世界模型。”他说。

这意味着什么?他认为,Genie能让你对每一帧画面都有控制权,就像是在编辑自己的梦境一样。在训练的时候,只需给到Genie视频数据就够了。“这就像是给了它一堆乐高积木,然后它自己就能搭建出一个又一个的虚拟世界。”


程序员高远认为,用 AI 直接生成一个可交互的2D场景,这一模型让人眼前一亮。


他特别强调,这个模型并不是生成了一堆元素供游戏引擎调用,而是这个模型本身就替代了游戏引擎的部分计算功能!它可以直接通过 T0 时刻的画面 + 用户数据入的指令来合理预测 T1 时刻的画面,从而提供一个可互动的场景,并不需要额外加一个游戏引擎程序!


他表示,“现在连游戏引擎本身的计算逻辑竟然都可以被生成式神经网络替代了?控制论再一次哭倒。”


而当精度不断提高后,这个模型可以解决过去 RL 等网络训练场景不足的问题。



影响:玩游戏的方式要变天了


“想象一下,你可以用一句话、一张图或者一张照片就创造出一个小世界,并且在这个世界里做不同的事情,看效果确实足够炫酷。”南开大学理学博士、知乎博主“佳人李大花”如此表示。



他解读说,在这个示意图里,左边有三个小框框,每个框框里都有一个不同的场景:一个是从文字生成的图像,一个是手绘的草图,还有一个是真实世界的照片。然后,Genie就像个魔术师一样,把这些场景变成了可以玩的小游戏。在图的右边,你可以看到按不同的按钮(比如“A”和“B”)会在游戏里做不同的动作。


“这就像是在电脑上玩游戏,但是这个游戏是你自己用一个图片或者一句话创造出来的。”他说。


他表示,在生成的视频中直接增加按钮,确实是一项很厉害的创新,让每个人都能成为游戏设计师。


Corddt认为,Genie不仅仅是一个生成模型,它更是一个可以与用户互动的环境,让虚拟世界的每一帧都充满了无限可能。这是Genie的一个超酷特点,用户可以像在游戏里那样操作,每一帧画面都能根据用户的动作改变,“这项技术本身都可以成为一个很火的游戏”。


他将此视为生成式AI的新玩法。“它开启了一种全新的可能性——通过简单的文本或图片提示,就能创造出完整的互动体验。如果这项技术发展起来,玩游戏的方式可能都要变了。”


软件开发行业执行总裁崔伟认为,Genie 甚至可以将人类设计的作品(例如草图或现实世界的图像)带入交互式环境中。人类创造力与生成式人工智能的融合为创作者提供了大量探索和扩展其艺术视野的机会。



比之Sora何如:不痛不痒的回击?


显然,Genie是一个与Sora等文生视频模型不同路线,甚至可以说差异非常大的模型。


虽然同样用的是暴得大名的Transformer模型,但与Sora 的关键结构是 DiT(Diffusion Transformer)不同,Genie大量使用的是 ViT (Visual Transformer)。


首先,Sora需要对训练视频进行详细的标准,以便于对视频从空间、时间维度进行切分。Genie借助大量公开的互联网视频数据集进行训练,不需要任何标签数据。


与目前包括Sora在内的大模型多依赖监督学习或半监督不同,Genie可在不依赖标记或注释的动作数据的情况下,自动学习互联网视频。


根据谷歌的说法,Genie通过互联网上的可公开获取的照片,不仅可自行观察出哪些动作是“可控”,还能辨识到不同照片的“通则”,也就是各种潜在的动作。


Genie可以在没有真实动作标签或其它领域特定要求的情况下,控制每一帧,不需要定义明确的动作标签,让用户以帧为单位在生成的环境中进行操作。


其次,相比Sora,Genie可以交互,这是谷歌主打的一个核心点。


知乎博主段小草说,如果说 Sora 只是生成了看似符合规则的视频,那么 Genie 则更进一步,做出了可以交互的环境。尽管所展现的物理规则不那么精确,但的确是通过学习/预测而来。


在知乎博主卜寒兮看来,对于Sora下的 text-to-video 模型,用户提供一段文字描述给模型之后,就什么都控制不了了,生成的视频是什么样的,完全看模型自己对 prompt 的理解和推理能力。也就是说这个过程是不可控的,你没法指定视频按照你想要的方式生成。


卜寒兮认为,Genie 是根据一张初始图像和一组“潜在动作”(latent actions)生成一段视频,这里面的核心是潜在动作,它作为一组条件,通过训练一个“潜在动作模型”学习两个视频帧之间的联系,使得模型生成的下一帧图像是可控的,用户可以指定场景接下来以什么动作/剧情“演下去”,这就是谷歌为什么称之为是交互式的生成模型。


他认为,这是Genie与Sora等文生视频最大的区别


“从视频生成的角度来说,我并不认为Genie可以胜过Sora,但是在生成的视频中直接增加按钮,确实是一项很厉害的创新,让每个人都能成为游戏设计师。”“佳人李大花”表示。


也有网友表示,Sora所展示的形式,类似于一个懵懂的人类,在面对社会化抚养初期,对命令形成的具象展现和展示。类似于一个完全野生的小孩,在纯白的环境中,通过植入一些图片和文字概念来做梦。


而Genie是在既定动作下的训练和延伸,这不像是大脑反应,更像是一种基于肌肉或神经的应激动作、膝跳反射。


他评论说,这个东西的核心框架与Sora是没法比的,“给我的感觉有点像面对Sora对 Pika的降维打击下,不痛不痒地回击了一拳。”


不过,知乎博主ViWaViWa认为,AI 训练是为了和人类价值对齐,但Genie所描绘的AI 训练的场景是由另外一个 AI 生成的,这有点“自依赖”的味道。


此前,谷歌Deepmind联合创始人Mustafa Suleyman有一番表述,他认为,生成式AI只是过渡,只有交互式AI才会改变人类生产力。


毫无疑问,Genie的出现是对他的这一思想的落地,但Genie与Sora是骡子是马,只有让子弹继续飞。至少两者不同路线的竞赛刚刚起局,远远谈不上谁能PK掉谁。



吐槽:2D背景下的可控交互


当然对Genie也不乏吐槽,主要集中于生成的是2D世界:


Deemind还是那么喜欢基于2D游戏场景来体现AI的能力。


技术上不及SORA,强调的可控交互也是2D 背景下简单的跳跃移动。


简单浏览了论文,个人认为Genie有的,Sora都有。只不过Genie展示了一个有趣应用,可以看作Sora这类模型未来的评测应用场景。


“佳人李大花”也表示,目前的游戏生成效果让人不禁想起元宇宙,生成像素级2D游戏显然不符合现在的市场需求,能直接生成3D大作才能彰显实力!


相对于真实的物理世界,演示的视频,动作和行为模型比较简单。如果真的让模型理解世界,或者说成为所谓的“世界模型”,未来可能还是要落到基于大量的数据训练上,自然也需要更大的模型。


另外,Genie仍受到内存限制,只能记住 16 帧,难以在长期内保持一致的环境,且运行速度约为每秒 1 帧,更有很大提升空间。


也有人担心,Genie是否会存在一些缺陷,譬如产生不真实的未来场景,类似 LLMs 的幻觉。



迈向AGI:不难想象,元宇宙便是下一主题 ?


Corddt认为,Genie能创造出无数个你想要的虚拟世界,不管是文字描述的、合成图像的、真实照片的,甚至是手绘草图的世界,全都随心所欲。“这个技术可以成为元宇宙的支撑技术。”


在段小草看来,Genie 的意义在于,证明模型的确可以从视频/图像中学习到"一定的物理规则"。利用自主监督生成可交互世界,也就证明,模型能够在一定程度上理解空间和物体之间的互动关系。


通过学习到的潜在动作空间,还可以训练出能够模仿未见过的视频行为的 Agent,这为未来通用 Agent 的训练铺平了道路。


这也Genie所乐见的,正如 Genie 论文里所说,Genie 的意义不止在于可以让大家体验到自己生成游戏的乐趣,更在于可以训练通用 Agents,通过在更多视频下学习,帮助 Agents 程序模仿从未见过的行为。


OpenAI将Sora 视为理解和模拟现实世界的模型的基础,并相信这一功能将成为实现 AGI 的重要里程碑。英伟达也有自己迈向AGI和未来通用具身智能的路径。Genie,既是 AI 的一小步,也是谷歌迈向AGI 的一大步。


虽然Genie目前只聚焦2D照片,但谷歌依然信心满满,认为Genie未来能生成出各种形态的互动环境。也正因如此,为什么谷歌称呼Genie为"基础世界模型"的原因。


知乎博主ViWaViWa认为,游戏世界一向视为孕育AGI的试验场。谷歌先让 AI理解数字世界,进而创造出虚拟世界的动效,接着不难想象,虚拟世界&元宇宙便是下一主题


他畅想式地反问:“或许不久的将来,我们不仅能进入元宇宙,AI也能打破虚空,进入到我们的世界中来?”


推荐阅读

什么是新质生产力,如何指导新的发展实践,总书记作了详细阐释

院士王怀民:人工智能的终极目标是让机器像人一样

张宏江:Sora是突破,多模态是AGI的终极模型

从估值3亿美元到融资超10亿美元,他仅用8个月|中国未来产业100人

谷歌大牛蒋路加盟TikTok,字节对标Sora开干,拉开AI应战序幕

9轮融资,90后创业干将谈Sora的4秒突破|中国未来产业100人

用AI研究AI,清华大学沈阳教授团队发布AIGC发展研究资料2.0

继续滑动看下一个
元界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存