翻译技术资讯 | OpenAI的Sora之后会发生什么

Original 严覃瑶国际翻译动态

2024-09-10

资讯摘要

OpenAI对Sora的信息分享有限，但已知其利用了扩散技术和Transformer架构，并受益于庞大的数据支持。Sora面临的挑战包括提升物理和因果关系的模拟准确性。未来，通过增加模型规模、引入高质量数据和探索新架构，如Meta的JEPA，有望克服这些限制，推动文本到视频转换技术向前发展。这一进步预示了生成模型在更广泛应用场景中的潜力和重要性。

OpenAI Sora的发布在科学家、艺术家和政治家中激起了既充满迷恋又带有恐慌的反响。Sora生成的视频质量确实令人印象深刻，尤其是与去年人工智能生成的视频相比。该模型仍处于试验阶段，很少有人能接触到它。

但从OpenAI迄今为止分享的例子来看，显然，尽管结果令人印象深刻，但文本转化为视频仍存在一些根本性的缺陷，需要在投入生产之前进行修复。

我们所知道的Sora是如何运作的

遗憾的是，除了提到Sora采用了扩散技术和Transformer模型架构外，OpenAI并未公开更多关于该模型的详细信息。我们还知道，由于OpenAI庞大的计算和数据资源，该模型已经得到了非常大规模的训练。

随之发布的“技术报告”，虽未深入探讨实施细节，但提供了一些关于它所采用模型和技术的线索。Sora汲取了谷歌、Facebook以及大学实验室大量的研究成果，这让人回想起分享知识的美好旧日。

一名谷歌DeepMind的研究人员调侃OpenAI使用他们的开放研究结果，而不分享他们的研究作为回报。

纽约大学深度学习研究员Saining Xie也根据技术报告推测了Sora是如何工作的。OpenAI显然利用其庞大的计算和数据资源将一个简单的架构扩展到一定程度，从而产生了“新兴的模拟能力”。

然而，尽管Sora取得了引人注目的结果，但它仍然展现出一些明显的迹象和瑕疵，显示出它对世界的理解并不充分。它能够生成关于个别场景和物体的极为详细的信息。但另一方面，它违反了物理学和因果关系的基本规则。

例如，对象可能会突然出现，或者模型可能会在整个视频中弄错对象的比例。有时它可以混合不同的物体。它特别不擅长模拟四肢。脚和手可能会弯向错误的方向。当角色行走时，从摄像机的视角观察，他们相互交错的腿部会出现混淆。角色的步态在中途被打乱。

在场景中仅包含少数简单物体时，视频的连贯性更强，这表明组合性仍然是当前生成模型的一大挑战。OpenAI的博客承认该模型“可能难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系的具体实例”。Sora也可能在“空间细节”上出现混淆，这一点与DALL-E以及其他图像生成工具存在同样的问题。

继续扩大规模

对于Sora当前问题的解决方案有不同的意见。一个显而易见的方法是继续扩展模型。该论文表明，研究人员能够通过更多的参数、数据和计算来改进结果。这种模式在基于Transformer-based模型中经常出现。我们还未触及随着不断增加其规模和训练数据，transformers所能达到的极限。

但扩展成本过高，只有OpenAI这样的公司才能实现，这些公司拥有巨大的财务和计算资源，也有盈利的商业模式，因而能够在此类实验中投入资金。另一个可能的方向是探索其他方法，用不同的训练技术来改进现有的模型。英伟达的吉姆·范将Sora比作GPT-3，ChatGPT的前身。

ChatGPT的第一个版本是建立在GPT-3之上的，但通过人类反馈的强化学习得到了改进（RLHF）和更好的训练数据。事实证明，现有的模型有很多未开发的潜力，可以通过正确的训练技术来开发。在此之后，跳转到GPT-4只是一个小步骤（至少根据OpenAI提供的模糊信息来看）。Sora报告指出，该团队能够使用合成数据来注释训练示例，这是一种可以通过更多计算资源进行扩展的方法。因此，结合大规模、质量更好的数据和新的训练技术可能有助于Sora迈出下一步。

其他可能有效的方法

另一种解决方案是重新设计生成模型或将它们与其他系统相结合，以获得更准确的结果。

例如，像Sora这样的模型可以将其输出交给另一个生成模型，如神经辐射场（NeRF），来构建其生成视频的三维地图。然后，可以利用诸如虚幻引擎这样的物理模拟器来细化这些物体及其运动，该引擎已能提供极为准确的结果。最后，其他生成模型（如StyleGAN）可以更改最终输出的照明、样式和其他方面。还可以加入许多细节元素来进一步控制整个流程，比如对特定的物体或背景进行修改。

Nvidia在其神经重建引擎使用了类似技术，利用安装在其汽车上的摄像头拍摄的视频，创建出非常详细的3D环境。它使用这些环境来创建照片般逼真的模拟场景，以训练自动驾驶汽车中使用的模型。

我也期待着其他可以补充或取代Sora的架构。Meta的联合嵌入预测架构（JEPA）可能是一个值得探索的优秀方案。JEPA的核心理念是学习隐含表征，以确保时间序列的持续一致性，无需进行像素级特征的预测。例如，JEPA可以测量不同的物体在场景中应该如何移动，而不需要预测它们最细微的细节。这种模型可用于测量和纠正生成模型跨帧产生的误差。

直接从提示出发，一步到位完成电影制作的端到端系统极具魅力。但是在实践中，如果这些生成模型想要在生产应用中发挥作用，它们应该为用户提供更多的控制权。虽然结合不同模型和物理引擎的模块化系统可能有一些限制，但它将提供更准确的结果，并允许用户根据自己的需要调整最终视频。

我可以轻松预见这将发展成为一种工具，让每位用户都能从一个提示开始，创建一个3D场景，接着通过更为自然的语言指令或视觉工具来按照自己的偏好细化场景。Adobe已经在用其生成式人工智能工具探索这种混合方法。

Sora发布后，观察文本到视频领域如何演化将会非常有趣。显而易见的是，我们看到创新和进步的步伐在加快。

原文链接：

What will come after OpenAI’s Sora (bdtechtalks.com)

（机器翻译，轻度译后编辑，仅供参考）