查看原文
其他

Sora 视频生成模型

renee创业狗 Renee 创业随笔
2024-10-09

2024年确实被许多人视为AI生成视频(AI Gen Video)的元年,这得益于像OpenAI这样的公司在视频生成技术上取得的重大进步。OpenAI推出的Sora是这一领域的突出代表,它能够生成长达一分钟的视频,同时保持高视觉质量并紧密遵循用户的提示(prompt)。

OpenAI通过在视频数据上进行大规模训练生成模型,展现了大规模训练带来的巨大潜力("大力出奇迹")。这种方法的核心是联合训练文本条件扩散模型(text-conditional diffusion models),这些模型能够处理不同持续时间、分辨率和宽高比的视频和图像。这意味着Sora不仅能够生成静态图像,还能够产生动态视频内容,为用户提供更加丰富和多样化的创作可能。

OpenAI为此采用了一种特殊的Transformer架构,这种架构能够在视频和图像的时空潜码(spacetime patches of video and image latent codes)上操作。通过在时空补丁上操作,Sora能够理解和生成视频内容中的时间连续性和空间细节,从而产生看起来自然且流畅的视频序列。

将视觉数据转换为补丁(patches)

与LLM拥有文本令牌一样,Sora拥有视觉补丁(visual patches)。之前的研究已经显示,补丁是视觉数据模型的一种有效表示。我们发现,补丁是一种高度可扩展且有效的表示,适用于在多种类型的视频和图像上训练生成模型。在高层次上,我们通过首先将视频压缩到一个较低维度的潜在空间(lower-dimensional latent space),然后将表示分解为时空补丁(spacetime patches)。

视频压缩网络

OpenAI训练了一个降低视觉数据维度的网络。这个网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内进行训练,随后也在此空间内生成视频。我们还训练了一个相应的解码器模型,将生成的潜码映射回像素空间。

时空潜在补丁

给定一个压缩后的输入视频,我们提取一系列的时空补丁,这些补丁充当transformer的令牌。这种方案也适用于图像,因为图像只是单帧的视频。我们基于补丁的表示使得Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

扩展transformers以用于视频生成

Sora是一个diffusion模型;给定输入的噪声补丁(和像文本提示这样的条件信息),它被训练以预测原始的“干净”补丁。重要的是,Sora是一个diffusion transformer。Transformer在多个领域展示了显著的扩展属性,包括语言建模、计算机视觉和图像生成。diffusion transformer也能作为视频模型有效地扩展。随着训练计算的增加,样本质量显著提高。

可变持续时间、分辨率、宽高比

以往的图像和视频生成方法通常会将视频调整大小、裁剪或剪辑到标准尺寸——例如,4秒钟视频以256x256分辨率。我们发现,相反地,在其原始尺寸上训练数据提供了几个好处:

  • 采样灵活性:Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有内容。这使得Sora能够直接以不同设备的原生宽高比创建内容。它还允许我们在全分辨率生成之前,快速原型低尺寸的内容——所有这些都使用同一个模型。

  • 改善构图和布局:我们通过实验发现,在其原生宽高比的视频上进行训练可以改善构图和布局。我们将Sora与一个版本的模型进行比较,这个版本的模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主题只部分出现在视野中的视频。相比之下,来自Sora(右侧)的视频有改善的构图。

语言理解

我们将在DALL·E 3中引入的重新标题技术应用到视频上。我们首先训练一个高度描述性的标题生成模型,然后使用它为我们训练集中的所有视频产生文本标题。我们发现,在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。与DALL·E 3相似,我们还利用GPT将简短的用户提示转换为更长的详细标题,然后发送到视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

使用图像和视频进行提示

  • 为DALL·E图像添加动画:Sora能够基于图像和提示作为输入生成视频。下面我们展示了基于DALL·E 2和DALL·E 3图像生成的示例视频。

  • 扩展生成的视频:Sora也能够向前或向后扩展视频。下面是个视频,它们都是从生成视频的一个片段开始向后扩展的。因此,这三个视频的开始各不相同,但都以相同的结局结束。


  • 我们可以使用这种方法将一个视频向前和向后扩展,以产生一个无缝的无限循环。

  • 视频到视频的编辑:Diffusion模型为从文本提示编辑图像和视频提供了大量方法。下面我们将这些方法之一,SDEdit,应用于Sora。这种技术使得Sora能够zero-shot转换输入视频的风格和环境。

  • 连接视频:我们还可以使用Sora逐渐在两个输入视频之间插值,创建在完全不同的主题和场景构成之间的无缝过渡。在下面的示例中,中间的视频在左右两侧对应的视频之间插值。

生成图像

通过在具有单帧时间长度的空间网格中排列高斯噪声块来实现的。该模型能够生成不同大小的图像,分辨率最高可达2048x2048。这种方法展示了Sora在处理图像生成任务时的灵活性和高效性,能够满足用户对高质量和高分辨率图像的需求。通过这种技术,Sora能够在不牺牲细节质量的情况下,创造出各种尺寸和风格的图像,为用户提供广泛的创作可能性。

新兴能力

这些能力使Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性是在没有对3D、对象等进行明确归纳偏差的情况下自然出现的,纯粹是规模效应的现象。

  • 3D一致性:Sora能够生成具有动态相机移动的视频。随着相机的移位和旋转,人物和场景元素在三维空间中一致地移动。

  • 长程连贯性和对象恒存性:对于视频生成系统来说,维持长视频的时间一致性一直是一个重大挑战。Sora通常能够有效地模拟短程和长程依赖。例如,我们的模型能够在人物、动物和物体被遮挡或离开画面时仍然保持它们,同样地,它能在单个样本中生成同一角色的多个镜头,整个视频中保持它们的外观。

  • 与世界互动:Sora有时能够模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔迹,随时间持续存在,或者一个人吃汉堡时可以留下咬痕。

  • 模拟数字世界:Sora可以通过基本策略同时控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。通过提及“Minecraft”等字样的提示,可以zero-shot地激发这些能力。

局限性

Sora不能准确地模拟许多基本互动的物理过程,如玻璃碎裂。其他互动,比如吃食物,并不总是导致物体状态的正确改变。我们还列举了模型的其他常见失败模式——比如在长时间样本中出现的不一致性或物体的突然出现。

结语

我们相信,Sora目前所展示的能力证明了继续扩大视频模型的规模是朝着开发能够模拟物理和数字世界及其中的对象、动物和人类的有能力的模拟器的有希望的道路。尽管存在局限,但这些进步揭示了通过增加模型的规模和复杂性,我们能够逐步克服这些挑战,进一步接近于创建出能够细致模拟我们周围世界的AGI。


继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存