从 Sora 出发,视频生成模型会如何改变电子游戏开发范式,以及泛娱乐内容形态?
The following article is from AutoGame Author 十七子
Sora 的出现,会如何改变电子游戏开发和制作流程,带来怎么样的范式转移,也是行业关注的问题。
今天这篇文章,来自于 AutoGame 的创始人张昊阳,AutoGame 专注于 AI Native 游戏的研发和探索。对于 AI 原生游戏,他们提出了游戏领域「全要素生成」的概念,认为未来的生成式 AI 会在游戏中发挥更大的作用。
作者介绍:张昊阳,AutoGame 创始人,GameGPT 通讯作者,前腾讯和平精英游戏策划。
在笔者此前的一篇综述文章《“全要素生成”会是未来的游戏形态吗?[1]》中,曾介绍过一类完全由AI生成视频游戏画面的技术方向。最典型的一个例子是由英伟达研究团队发表的研究项目 GameGAN [2]。而由此创建的 GAN Theft Auto [3] 则是最具备话题性的一个案例。
彼时,GameGAN 生成的内容由于其质量与游戏引擎渲染画面相去甚远,未能在游戏工业掀起几许波澜,如今 Sora 的诞生让我们不得不重新审视此类视频生成技术是否会改变电子游戏的开发范式,甚至于深远地影响行业格局。
关于 AI 产品出海,以及如何利用 PLG 实现产品增长,Xmind VP 严格将在本周二 20:00 的 Workshop 上进行详细分享,欢迎扫码报名。
01
Sora 是什么?
Sora [4] 是 OpenAI 最新推出的文生视频 (text-to-video) 模型中最大的型号,它可以从文本指令中创建逼真和富有想象力的场景。Sora 是一种通用的视觉数据模型,它可以生成跨越不同持续时间、纵横比和分辨率的视频和图像,最多可生成一整分钟的高清视频。
Sora 是一个 Diffusion Transformer 模型,在视频和图像潜在代码的时空补丁上运行。OpenAI 的研究人员从大语言模型中汲取灵感,将可视化数据转换为视觉补丁 (visual patches),这是一种高度可扩展且有效的表示,用于在不同类型的视频和图像上训练生成模型 [5]。
将 Sora 与 Google 的 Lumiere、Stability AI 的 Stable Video Diffusion 和 Meta 的 Make-A-Video 等其他著名模型进行比较时,每个模型都有其独特的优势。Lumiere 因其连贯运动和全局时间一致性而受到称赞,Stability AI 的模型以其最先进的文本到视频和图像到视频生成任务而闻名,Make-A-Video 利用无监督学习在非配对视频数据上捕捉到逼真的运动。然而,Sora 以其基于补丁的表示和扩散转换器架构而与众不同,使其能够根据文本或图像提示有效地生成和细化视频 [6]。
著名 AI 创业者伽柏·塞尔(Gabor Cselle)近日分享了一个实验。他用相同的提示,在四个不同的文生视频模型中尝试“重现”了 Sora 所生成的“穿越雪花纷飞、樱花飘落的东京街头”的场景 [7]。他指出,相较于其他模型,没有哪个能达到与Sora相媲美的效果。这表明,就视频生成的时长、流畅度等方面而言,Sora 展现了其显著的优势。
有观点认为,“不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora 都做到了 SOTA (state-of-the-art,当前最优)” [8]。在 OpenAI 官方发布的题为 Video generation models as world simulators 的技术报告中指出,Sora 在进行虚拟仿真时具备涌现能力 (Emerging simulation capabilities) [9],主要集中于3D一致性 (3D consistency)、远距离相干性和物体持久性 (Long-range coherence and object permanence)、能与世界交互 (Interacting with the world) 和能模拟数字世界 (Simulating digital worlds) 等方面。
然而,Sora的仿真能力仍具有一定局限性,技术报告也指出,Sora有时不能准确地模拟许多基本相互作用的物理特性,比如玻璃破碎。其他交互,如吃食物,并不总是能产生物体状态的正确变化 [10]。
02
Sora 与游戏引擎技术的异同、优劣势
在 Sora 的技术报告中,它甚至可以生成《我的世界》游戏画面 [11]!就像真的一样。
尽管 OpenAI 的技术报告吐露了一部分 Sora 背后的技术原理,但对于关键细节则守口如瓶,诸如训练方法、编码手段等,因此也引发了关注者们激烈的猜想和讨论,尤其是 Sora 背后究竟有没有一个传统物理引擎来驱动。
英伟达高级研究员 Jim Fan 博士指出,Sora更像是一个“数据驱动的物理引擎”,而不是一个图像生成器。Sora 执行数千次计算来预测对象如何与其环境交互 [12]。根据 Fan 的说法,这创造了一个“世界模型”,这使得它非常适合生成视频游戏 [13]。Meta 副总裁、PyTorch 创始人 Soumith Chintala 也认为 Sora 背后是由游戏引擎来驱动的,并为游戏引擎提供零件和参数 [14]。
著名认知心理学、神经科学和人工智能专家加里·马库斯 (Gary Marcus) 则反驳了这一观点,他认为种种迹象表明 Sora 生成的视频中并没有“对象”的概念,也不会构造一个 3D 空间 [15]。
笔者倾向于认同后者的观点,即 Sora 并不具备传统物理引擎的特性,不具备“物体” (Body) 的概念。笔者认为, Sora 的训练过程更像是人类观察世界总结规律,再在 2D 平面上“重新想象” (Re-imagine) 和描绘画面,就像人在回忆和做梦时一样。
然而,就像人类根据视觉信息学习总结下来的是经验科学而非真正的物理规律,可能符合直觉但不一定准确,也不能保证同等参数下始终保持推理结果一致。从 Sora 生成的带有瑕疵的内容来看印证了这一点:Sora 对物理世界理解仍不够充分,如杯子没有破裂便流水、篮球穿过刚体、火焰没有被扰动或是熄灭,越远处细节越少……
传统物理引擎的运行规律则与之相反。
它通过大量的模拟计算来创建宏观、微观尺度下的拟真内容。在众多物理引擎中,“世界(World)”是各种物理规则的载体,“物体(Body)”代表物理引擎中实际需要进行计算的对象,世界的运行基于时间的主循环。根据每次循环经过的时间分量,就可以推动世界中所有的物体发生运动。
物体则一般会有很多属性,物理引擎根据这些属性来进行模拟运算,主要分为两大类,分别是几何属性(Geometric attributes)和物理属性(Physical attributes)。几何属性用于进行碰撞检测,物理属性用于计算物体在碰撞前后的运动状态 [16]。
在物理引擎的基础上发展出了游戏引擎,服务于电子游戏和计算机视觉领域。需要注意的是,电子游戏是一个节俭的经济学 (参考阅读:落日间《元宇宙的厕所会堵吗?》[17]),一方面,受限于电子设备的运算性能限制和网络通信成本,我们不可能将真实物理世界 1:1 复制到虚拟世界(事实上,人类如今也未能穷尽理解物理世界的客观规律)。在这样的限制下,游戏引擎进化出了一些常用的“节俭”手段,如在渲染时采用剔除 (Culling) 来节省运算量就是一种非常典型的性能优化手段 [18]。
这不禁让笔者想起一个有趣的 Meme [19],并联想起 SpaceX CEO 埃隆·马斯克 (Elon Musk) 的著名发言:“我们活在真实世界的概率只有十亿分之一” [20]。
另一方面,将物理世界抽象成高度凝练的规则(有时甚至未必符合客观规律),也更方便玩家理解和预测,甚至做出超越现实世界的表现,如《茶杯头(Cuphead)》游戏中夸张的物理表现恰恰再现了上世纪30年代美式卡通的精髓)[21]。
到这里,我们不妨来比较游戏引擎和 Sora 这类视频生成模型在模拟真实物理世界能力上的优劣势。
游戏引擎的优势在于它是基于真实物理世界法则抽象而来,通过精确的数学计算可以保证渲染结果具有时空连贯性和一致性,得出相对符合客观规律且确定的结果,对三维空间的理解透彻;劣势则是在进行微观层面的渲染时,即便消耗庞大的计算量也未必能达成与真实世界相一致的效果。
Sora 们的优势在于,在进行微观层面的生成时,可以轻而易举地生成游戏引擎难以匹敌的接近真实世界的效果;劣势在于它无法完全保证时空连贯性和一致性,得出的结果不能确保符合真实物理世界规律,也不能百分百确定生成结果。
游戏引擎通过计算“微粒”间的相互作用来模拟物理规则 | Sora 视频生成模型通过训练神经网络隐式地“记录”物理法则 | |
优势 |
|
|
劣势 |
|
|
表作者:17(张昊阳),AutoGame 创始人
03
Sora 技术与游戏引擎融合的一种构想
在分析了传统游戏引擎与Sora大模型的优劣势后,笔者提出一种扬长避短的技术构想,一言以蔽之,即仍采用物理引擎作为世界框架计算宏观运动和游戏规则,使用视频生成模型作为“后处理”工序在微观层面生成游戏画面。具体来说:
1. 物理层:在宏观层面使用物理引擎构建世界框架,只计算表现层以外的碰撞、射线检测、刚体运动轨迹等
2. 表现层:在微观层面使用视频生成模型进行叠加生成,丰富物理世界的细节,计算水体、火焰、布料模拟等
*注:实际是否由 AI 计算布料的摆动、粒子的运动、水体模拟等,取决于游戏设计者对于规则复杂度和游戏性能的取舍,一般来说,基于物理引擎进行这些现象的渲染需要消耗大量算力。
从实现结果来看,这可能与将 LCM 技术运用于实时画面生成非常接近 [25]。
这一方案的优势在于:
1. 物理引擎作为基底,确保了在宏观框架下各物体能准确运作,且高度一致,而这些是组成游戏规则确定性必不可少的
2. 在物理引擎之外的规则也可以被正确处理,以减小运算难度和通信成本,如在一些射击游戏中,可以基于射线检测而非真正的物理运算来判断弹道落点 [26]
而需要达成这一方案的落地,需要视频生成模型有以下前置能力:
1. 即时演算:能够进行毫秒级响应来生成画面
2. 引导生成:能够基于图像或其他三维数据来引导和约束生成结果
*注:类比于在图像生成场景中使用ControlNet技术 [27],这是一种用于精确控制生成结果的技术
对于前者,我们相信通过优化算法、提高硬件性能等手段在未来有可能实现。而后者的能力显然 Sora 已经初步具备,如基于 Dall·E 生成的图片继续生成视频 [28] [29] [30],和通过 SDEdit 技术来对生成内容进行控制和编辑 [31]。
04
Sora 将如何引发电子游戏范式转移、改变泛娱乐市场格局
笔者认为,Sora 的出现将可能改变电子游戏范式,甚至对整个泛娱乐产业生态产生深远影响。
大胆猜想,有朝一日使用视频生成能力重塑电子游戏后,所创造的新媒介将以前所未有的真实性重塑虚拟世界,解放人类无穷的想象力和探索欲,而这一媒介将有可能成为未来电子游戏乃至泛娱乐的全新范式。
如果再结合XR技术增强沉浸感、乃至脑电波技术实现无控制器控制(所思即所见),则将无限接近于《赛博朋克 : 2077》游戏中所描绘的“超梦”体验 [32]。游戏开发者这样描绘超梦:“超梦带来的绝不仅仅是视觉和听觉的双重享受,而是能完完整整地体验记录者所经历的一切。包括内在感情,感官刺激,思想与记忆和肌肉拉伸感,毫无遗漏。超梦当中你可以成为他人,体验崭新且难以磨灭的体验。”
事实上,GenAI 的能力或许能让我们成为任何人——即便 TA 从未真实存在于这个世界。
但我们仍然不可否认,如今的游戏引擎技术已经成为一项高度工业化的技术,要打造一套全新范式以取代固有技术,将需要重新拼缀海量生态位的版图,正像是如今的 3D 生成技术落地游戏工业遭遇滑铁卢一样,从生成物本身的视觉质量、到游戏业内人士关注的布线、蒙皮权重等要素,距离真正满足工业化要求仍有一定差距,很可能还需要长达数年软硬件生态的适配才能最终实现天衣无缝的融合。可喜的是,它们正加速前进,朝着最终形态迈进。
这不禁让笔者想起 21 世纪初便存在的虚拟几何体技术,在如今可以高速读写并支持大容量存储的保证下才得以实现工业化,在近年方才落地至第五代虚幻引擎(注:一款著名游戏引擎),成为其中的 Nanite 技术 [33]。
Nanite 让同屏幕下所呈现的等效多边形数量得以突破上限,从而掀起新一轮视觉革命。吊诡的是,Nanite (及其他虚幻引擎技术)的存在也正是让许多人误会 Sora 使用了虚幻 5 引擎的“元凶”之一:用它创作的内容实在太过逼真!
毫不夸张地说,如果说摄像机的发明催生了电影艺术,视频生成技术的诞生则重塑了影视、动画、游戏等多个媒介形态。
在近未来,生成视频将有希望与记录视频并驾齐驱,成为主流视频内容生产方式,最大的影响将是进一步提升创作平权,而这也将反过来塑造我们自身,甚至重塑社会形态。在生成影像的时代,人们或许有更多机会关注精神世界,人类在视觉方面的欲望也更容易得到满足,创作平权允许我们每个人都能得到关注。就像一个广为流传的推文所描绘的:“人工智能革命奖励的是品味的纯洁。”有理由相信,视频媒介在近未来将进一步抢占其在整个泛娱乐生态系统中的份额,正如几年前短视频对电子游戏份额的侵蚀一样。
在远未来,融合游戏引擎、XR技术等多元交互技术的“超梦”们,将可能创造新的生活方式,甚至重新塑造我们的思想,成为无形中主宰我们的力量 (参考阅读:学院派Academia《信息革命与媒介历史:那些无形中主宰我们的力量》[34])。正如厦门大学谢清果,赵晟所述的——
“不同的媒介技术带来不同的世界观,新旧媒体的交替绝不单纯是媒介技术和工具本身之间的对抗,更是不同文化和世界观的冲突和竞争,包含了对时间、注意力、金钱和话语权的全面争夺,如波兹曼所说,当一种新型媒介技术在一个文化中出现时,将会促成一种全新文化的诞生,而不是旧文化在新媒介上的简单呈现 [35]。” [36]
我们该如何应对、掌控和拥抱 Sora 们带来的新变化?值得思索。
参考文献
[1] 张昊阳. “全要素生成”会是未来的游戏形态吗?一文看懂AIGC在游戏领域的应用[EB/OL]. 2023[2024-02-24]. https://mp.weixin.qq.com/s?__biz=MjM5Njc5MjgyMA==&mid=2989798442&idx=1&sn=109a0f27b5e91870c6c2ee1d5c854a61.
[2] Kim S W, Zhou Y, Philion J, et al. Learning to simulate dynamic environments with gamegan[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 1231-1240.
[3] sentdex. Playing a Neural Network's version of GTA V: GAN Theft Auto[EB/OL]. 2021[2024-02-24]. https://www.youtube.com/watch?v=udPY5rQVoW0.
[4] OpenAI. Creating video from text[EB/OL]. [2024-02-24]. https://openai.com/sora.
[5] [9] [10] [11] [28] OpenAI. Video generation models as world simulators[EB/OL]. [2024-02-24]. Video generation models as world simulators.
[6] Akruti Acharya. OpenAI Releases New Text-to-Video Model, Sora[EB/OL]. [2024-02-24]. https://encord.com/blog/open-ai-sora.
[7] Gabor Cselle. SORA vs Pika vs RunwayML vs Stable Video[EB/OL]. [2024-02-24]. https://twitter.com/gabor/status/1758282791547232482.
[8] Simon Meng. OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析[EB/OL]. [2024-02-24]. https://mp.weixin.qq.com/s/ah_0iNzCSzSPUAaSoYL1KA.
[12] Jim Fan. If you think OpenAI Sora is a creative toy like DALLE, ... think again[EB/OL]. [2024-02-24]. https://twitter.com/DrJimFan/status/1758210245799920123?s=20.
[13] Maxwell Zeff. OpenAI’s Sora Is Coming for Your Video Games[EB/OL]. [2024-02-24]. https://gizmodo.com/openai-sora-is-coming-for-your-video-games-1851264042.
[14] Soumith Chintala. it looks like sora is powered by a Game Engine[EB/OL]. [2024-02-24]. https://twitter.com/soumithchintala/status/1758245221966475498.
[15] Gary Marcus. Um, what kind of physics engines creates inconsistent views across a scene (modulo tricky occlusions, etc)?[EB/OL]. [2024-02-24]. https://twitter.com/GaryMarcus/status/1759292076204924991.
[16] jMonkeyEngine. 物理引擎概述[EB/OL]. [2024-02-24]. https://www.jmecn.net/tutorial-for-beginners/chapter-16-physics-engine.html.
[17] 落日间. 元宇宙的厕所会堵吗?[EB/OL]. [2024-02-24]. https://mp.weixin.qq.com/s/aT-5vffsYujIFxmgilGEnQ.
[18] 虚幻引擎. 可视性和遮挡剔除[EB/OL]. [2024-02-24]. https://docs.unrealengine.com/4.26/zh-CN/RenderingAndGraphics/VisibilityCulling/.
[19] Last Place Comics. Main Character[EB/OL]. [2024-02-24]. https://lastplacecomics.com/main-character/.
[20] Rich McCormick. Odds are we're living in a simulation, says Elon Musk[EB/OL]. 2016[2024-02-24]. https://www.theverge.com/2016/6/2/11837874/elon-musk-says-odds-living-in-simulation.
[21] 可夫. 茶杯頭大冒險|由極難遊戲回到動畫 重現30年代美國卡通風格[EB/OL]. 2022[2024-02-24]. https://www.hk01.com/article/739979?utm_source=01articlecopy&utm_medium=referral.
[22] Sitzmann V, Martel J, Bergman A, et al. Implicit neural representations with periodic activation functions[J]. Advances in neural information processing systems, 2020, 33: 7462-7473.
[23] Chiappa S, Racaniere S, Wierstra D, et al. Recurrent environment simulators[J]. arXiv preprint arXiv:1704.02254, 2017.
[24] Ha D, Schmidhuber J. World models[J]. arXiv preprint arXiv:1803.10122, 2018.
[25] Javi Lopez. Get a real-time version of LCM-LoRA running in their application with stunning results![EB/OL]. [2024-02-24]. https://twitter.com/javilopen/status/1724398708052414748.
[26] GorkaChampion. How To Make A Line Trace In Unreal Engine 5 Tutorial[EB/OL]. [2024-02-24]. https://dev.epicgames.com/community/learning/tutorials/l0ey/how-to-make-a-line-trace-in-unreal-engine-5-tutorial.
[27] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. ControlNet[EB/OL]. [2024-02-24]. https://huggingface.co/docs/diffusers/api/pipelines/controlnet.
[29] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022, 1(2): 3.
[30] Meng C, He Y, Song Y, et al. Sdedit: Guided image synthesis and editing with stochastic differential equations[J]. arXiv preprint arXiv:2108.01073, 2021.
[31] Meng C, He Y, Song Y, et al. Sdedit: Guided image synthesis and editing with stochastic differential equations[J]. arXiv preprint arXiv:2108.01073, 2021.
[32] CD_PROJEKT_RED. 超梦[EB/OL]. [2024-02-24]. https://wiki.biligame.com/cyberpunk2077/%E8%B6%85%E6%A2%A6.
[33] 虚幻引擎. Nanite Virtualized Geometry[EB/OL]. [2024-02-24]. https://docs.unrealengine.com/5.0/en-US/nanite-virtualized-geometry-in-unreal-engine/.
[34] 学院派Academia. 信息革命与媒介历史:那些无形中主宰我们的力量[EB/OL]. [2024-02-24]. https://b23.tv/028FcB9.
[35] Postman, Neil. Conscientious Objections: Stirring Up Trouble About Language, Technology and Education.[M].New York: Alfred A.knopf,1988.
[36] 谢清果,赵晟.尼尔·波兹曼论媒介技术演进与社会话语变迁[J].科学技术哲学研究,2018,35(02):70-75.
GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?
给 Sora 视频配音,ElevenLabs 推出 AI 音效生成功能,离 AI 生成电影又近了一步!
Scaling 能通往 AGI 吗?万字科普 Scaling Law 的业内争议与讨论
Stable Diffusion 3 发布:模型与 Sora 同架构、解决文字乱码、更好理解物理世界
如何看待谷歌开源大模型 Gemma:被迫入局、开源力度不够、2024 会有小模型黑马出现