其他
今天刷屏的 OpenAI Sora 模型,是怎么实现 1分钟一镜到底的?
视频源自 @gabor 在过去,要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在,仅需一段简单的文本描述,Sora 就能彻底生成这样的大场面,相关从业者或许已经开始瑟瑟发抖了。网友 @debarghya_das 用 OpenAI Sora 剪辑、David Attenborough 在 Eleven Labs 上的声音以及 iMovie 上 Youtube 上的一些自然音乐样本,在 15 分钟内制作了这个 20 多秒的预告片。Sora 是怎么实现强大效果的?OpenAI 也发布了一份关于 Sora 详细的技术报告,介绍了其背后的技术原理和应用。那么,Sora 是如何实现这一突破的呢?受到 LLM 成功实践经验的启发,OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。
Sora 训练时没有对素材进行裁切,使得 Sora 能够直接按照不同设备的原生宽高比创建内容。
在视频的原生宽高比上进行训练,能够显著提升视频的构图与布局质量。
训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI 将在 DALL·E 3 中引入的重新标注技术应用到视频上。类似于 DALL·E 3,OpenAI 利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得 Sora 能够生成高质量的视频。除了可以从文字转化而来,Sora 还能接受图片或已有视频的输入。这项功能让 Sora 能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。形成「SORA」字样的逼真云朵图像。
三维空间的连贯性:Sora 能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间连贯移动。
远距离连续性与物体持久性:即使人物、动物或物体被遮挡或移出画面,Sora 也能保持长时间视频的连续性。同样,它能在同一视频样本中多次展示同一角色,并确保外观一致。
数字世界的模拟:Sora 还能模拟数字化过程,如视频游戏,只需提及「Minecraft」等字样,就能激发其相关能力。OpenAI 将 Sora 视为「能够理解和模拟现实世界的模型的基础」,相信其能力「将是实现 AGI 的重要里程碑」。对于 Sora 的到来,英伟达高级科学家 Jim Fan 表示:如果你认为 OpenAI 的 Sora 就像 DALL·E 那样,是一个用于创意实验的工具,那你可能需要重新考虑了。
Sora 实际上是一款基于数据的物理模拟引擎,它能够模拟出真实或虚构的世界。这款模拟器通过去噪和梯度计算,学会了复杂的图像渲染、「直观」的物理行为、长远规划能力以及语义层面的理解。而这种模型能力的基础正是世界通用模型,这是一种人工智能系统,它的目标是建立一个可以更新状态的神经网络模块,用以记忆和建模环境。
这种模型能够根据当前的观测(如图像、状态等)和即将采取的动作,预测下一个可能的观测。它通过学习世界的规律和常识,模拟环境中可能的未来事件。