离干掉影视人还很远！Sora爆火短片的背后…全靠人工抠

fxguide 摄像人网 2024-05-31

关注并标星摄像人网

有器材也有技术有视野也有深度

两个多月前，人人都在讨论 Sora，这款用于生成视频的人工智能大模型似乎分分钟就要把影视从业者干掉了——当你只需要动动手指，输入一些关键词语句就可以轻松获得想要的视频画面，谁还会费钱费力去请专业影视团队拍摄和制作？影视人的危机感蹭蹭往上冒。

当时下面这部短片《air head》更是爆火，因为它的画面如此自然逼真，却完全都是 Sora 生成的，没有现实中的演员、道具和场景。

这部影片的制作团队叫 Shy Kid，他们是被选中进入早期试用 Sora 名单的团队。近期，团队成员帕特里克接受了 fxguide 的采访，谈了一些《Air head》制作的幕后以及 Sora 使用起来的真正感受。令人意外的是，Sora 并没有减少他们的工作量，这部片长 1 分半的短片，三个人耗费了近两周才完成，大量工作被耗费在后期制作上，素材与成片的比例甚至高达 300:1。下面是更详细的解密：

文本生成视频，真的很简单吗？

在 Sora 的用户操作界面中，艺术家可以输入文本，随后 ChatGPT 会将这些文本转化成更长的一段文字，从而触发生成一段视频。然而，Sora 目前并没有支持其他输入方式，也没有实现多模态功能。这是一个重要的短板，因为尽管 Sora 在同一镜头中的物体一致性处理得还不错，但系统目前还无法确保第一个镜头中的内容与随后的镜头完全匹配。也就是说，即便第二次输入同样的提示语，结果也可能不同。

帕特里克在 Shy Kids 制作团队中负责后期制作，他说：“我们能做的就是，在提示中尽可能地对角色的服装以及气球的类型进行详细地描述。”

Sora 生成的每个独立片段，就其所代表的技术而言，都是令人惊叹的。然而，如何有效利用这些片段，取决于用户对 Sora 隐式或显式生成方式的理解。

例如，假设你让 Sora 生成一个在厨房中的跟踪长镜头，并确保画面中的桌上有个香蕉，Sora 将依赖于其对“香蕉”这一概念的隐式理解来生成一个显示香蕉的视频。通过训练数据，Sora 学习了香蕉的隐含特性，如“黄色”“弯曲”“有深色末端”等，但它并未存有具体的香蕉图像，也没有一个“香蕉图像库”，它只有一个相对较小、用于压缩存储的“潜在空间”。在这个空间中，“香蕉”仅仅是一个抽象的概念。

这就意味着，每次生成的结果都是 Sora 对这个“潜在空间”的一种新的解读，这就需要我们的提示尽可能精确地描述我们对这些隐式特征的理解。

后期靠人工做了大量“修补”工作

Shy Kids 团队表示，在制作《气球人》的过程中，很难确保实际黄色气球人在每个镜头中保持一致，《气球人》中场景，是通过多次后期剪辑来接近剧本的。即使团队明确要求生成一个黄色气球，但最后生成的气球却可能是其它颜色，有时，气球上甚至会莫名出现一个脸部图案。另外，因为很多气球都带有绳子，Sora 自动将“气球”和“绳子”关联到了一起。在《气球人》中，角色 Sonny 的衬衫前面总是垂着一条绳子，这些绳子都需要在后期制作中移除。

生成视频如抓阄

虽说在《气球人》的制作中，Shy Kids 团队使用的都是 Sora 所生成的画面，但大多经过了调色和再处理。帕特里克解释说，Sora 最高可以支持 720P 的分辨率，1080P 分辨率也已经推出，但渲染时间过长，为提高前期效率，团队都是在较低分辨率下生成的《气球人》的所有制作内容，后期再通过 Topaz 软件去提高分辨率。

Sora所生成的视频片段，能以不同的时间长度进行渲染，如 3 秒、5 秒、10 秒、20 秒，最长可达一分钟。渲染时间会根据一天中的时间和云服务的需求而有所变化。帕特里克回忆说：“通常情况下，每次渲染大约需要 10 到 20 分钟。渲染的段落长度对实际渲染时间的影响并不太大。如果渲染的内容长度在 3 秒到 20 秒之间，实际所需的渲染时间通常都在 10 到 20 分钟这个范围内。”他解释说：“我们之所以会这样做，是因为，如果获得了一段完整的 20 秒视频，我们就有更大的机会进行剪辑操作，这也相应地增加了得到满意成果的可能性。”

尽管可以在时间线上对关键帧进行调整，但对于动作发生的确切时间点控制并不精确，结果具有一定的不确定性。帕特里克说，“这有点像蒙眼拍摄，就像老虎机一样，不确定它是否能在此时实现这些效果。”当然，Shy Kids 使用的是 Sora 的最早原型之一，而Sora仍在不断地进行改进。

除了选择分辨率外，Sora 还允许用户选择画面比例，如纵向、横向（或正方形）。这在从 Sonny 的牛仔裤向上摇到他的气球头的镜头中派上了用场。不幸的是，Sora 原生不支持这样的动作，它总是希望镜头的焦点——气球人——始终处于画面中。因此，团队选择了纵向模式进行渲染，然后在后期通过裁剪手动创建了向上摇摄的效果。

难以理解和执行镜头运动指令

Sora 在理解和执行镜头运动指令方面，如“跟踪”、“平移”、“倾斜”或“推近”等，其理解和执行能力尚待加强。尽管用户可以输入如“摄影机平移”的提示，但 Sora 并不总是能够准确执行。

帕特里克提到，Sora在处理摄像机角度方面的处理似乎有些随意。“OpenAI 的研究人员并没有真正像电影制作者那样思考，更多的是在专注于图像的生成，而对于能否真正接收到或理解摄影指令这个问题，他们似乎没有太多考虑。”

但目前，几乎所有视频生成 AI 公司都面临这个问题。Runway AI 或许在提供描述摄影机动作的用户界面方面最为先进，但 Runway 的渲染剪辑的质量和长度都不如 Sora。

素材与成片比例 300:1

虽然所有图像都是在 Sora 中生成的，但气球仍需大量的后期处理。除了隔离气球以便重新上色，有时气球上会出现 Sonny 的脸，看似用马克笔画上的，这需要在 After Effects 中删除。类似的其他瑕疵也常常需要移除。

Shy Kids 的方法类似于纪录片的后期制作和剪辑方式，先积累大量的镜头，然后从这些材料中编织故事，而非严格按照剧本拍摄。虽然短片有剧本，但团队仍需保持灵活并进行调整。“我们就是获取大量的镜头，并尝试以一种有趣的方式将其剪辑到旁白中。”帕特里克回忆道。对于最终进入电影的一分半钟的镜头，帕特里克估计他们生成了“数百个生成片段，每个片段 10 到 20 秒”。他补充说：“我的数学不好，但我猜素材到最终成片数量的比例，大概是 300:1。”

拍摄合成与调色

在《气球人》里，团队并没有将多个镜头合成在一起。例如，气球在赛车上空漂浮的镜头都是在一个镜头中生成的。

有趣的是，许多《气球人》的片段生成时，就像是慢动作拍摄的，尽管这并非提示中要求。这种情况发生的原因不明，因此许多片段不得不重新调整时间，使其看起来像是实时拍摄的。显然，这比减慢快速运动更容易做到，但这确实也奇怪，可能是从训练数据中推断出来的。“我不知道为什么，但似乎许多片段的速度在 50% 到 75% 之间，”他补充说。“因此，我们需要相当多的时间调整，以防止整个项目感觉像是一个大型慢动作项目。”

Shy Kids在他们的提示词中使用了“35 毫米胶片”这一术语，发现这样的提示能带来较高一致性的画面效果。“如果我们需要高对比度，我们可以输入‘高对比度’、‘主光’，Sora 通常会给我们接近所需的效果，”帕特里克说。“但我们仍然需要进行完整的色彩调整，并且我们进行了自己的数字电影外观处理，我们在其中添加了颗粒和闪烁，以某种方式将一切融合在一起。”Sora目前没有提供额外的通道选项，如遮罩或深度通道。

在版权方面矫枉过正

为了尊重作品的版权，OpenAI 设定了一些规定和限制。举例来说，如果你给Sora一个像是“在一个未来的飞船上，一名男子手握光剑走了过来。”这样的提示，并期望生成类似《星球大战》的场景，Sora会拒绝生成这样的视频。Shy Kids团队在早期测试中，偶然遇到了这一问题。帕特里克回忆说，当他们最初坐下来测试Sora时，拍摄了一个角色背后的镜头，类似阿罗诺夫斯基式的跟随镜头，他在Sora上输入了“阿罗诺夫斯基式镜头”，但 Sora 为保护原作版权，拒绝了这个提示。

Sora 是一项非常新的技术，看上去非常有应用前景，但这款工具距离首次亮相已经过去几个月了，仍旧没有正式发布。不过，OpenAI 公司的估值已经因此而大涨，这才是最重要的是不是？

当然，我们也没有看空 AI 的意思，只是提醒从业者不要过于焦虑，小心被各种各样贩卖焦虑卖课的骗子割了韭菜。

综合来源：fxguide、每日经济新闻、Shy Kid

AI制作的片子，把我给看吐了

人工智障！BBC将“解雇”一批机器人摄像师

这部电影因为使用了AI图像而被喷

继续滑动看下一个

摄像人网

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

离干掉影视人还很远！Sora爆火短片的背后…全靠人工抠

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

离干掉影视人还很远！Sora爆火短片的背后…全靠人工抠

您可能也对以下帖子感兴趣