查看原文
其他

Sora与《穆赫兰道》

曼谈AI 曼谈AI
2024-09-06

尽管OpenAI的Sora模型尚未对公众开放使用,它已经在制造轰动了,许多人已经预见到了好莱坞的地震。还记得去年演员因担心被AI取代而罢工的事件么?Sora又一次给电影行业带来了严峻的挑战。

我想起了大卫·林奇的杰作之一,2001年上映的《穆赫兰道》。这部电影层次丰富,引人入胜,探讨了幻觉、错觉、贪婪、嫉妒、罪恶感、权力、腐烂的抱负以及好莱坞阴暗面等主题。电影视觉效果惊艳,有一种奇怪的魅力吸引观众。尽管它没有清晰的叙事,除了创作者之外,没有人真正知道它到底在讲述什么,但它经常出现在人们的“有史以来最伟大的电影”榜单上。林奇形容它是“梦想之城的爱情故事”。

这是我看过的最奇怪的电影之一。我承认和大多数观众一样,我完全不理解故事是什么,却不禁被电影吸引。电影结尾,当黛安拔出枪自杀时,我想哭喊出来。我感觉自己刚从一个噩梦中醒来。平时,当我从一个恶魔追逐我的噩梦中醒来时,我会立刻感到解脱。然而,在看完《穆赫兰道》后,我感到极度痛苦、无力和沮丧,就像噩梦延伸到了我的现实生活中,大卫·林奇确实是操纵人们情绪的大师。

我们来看一个Sora的场景:

根据OpenAI的说法,“Sora作为能够理解和模拟现实世界的模型的基础,我们认为这将是实现AGI的重要里程碑。

娱乐行业和AI行业都对OpenAI通往AGI的路线图及其进展充满好奇。在这篇文章中,我们比较一下Sora和《穆赫兰道》,看看人类制作的电影和AI生成的电影之间的区别。选择《穆赫兰道》,是因为它描绘了幻想元素和幻觉主题,让人联想到生成式AI的风格,这是传统人类制作的电影中不太常见的。

Sora的机制



根据OpenAI的论文,Sora主要基于三个机制:
1. 视觉Transformer
受到LLM使用Transformer学习语言标记的自回归模式的巨大成功的启发,研究人员几年前开始将Transformer应用于计算机视觉任务。这个想法是将图像分成一定大小的块,将块标记化,并将二维块展平成一维数组。经过这样的预处理后,就可以应用标准的Transformer了。与LLM类似,视觉Transformer是从大量未标记数据中学习的强大工具,对GPU的需求很高,并且比之前的监督模型性能更优越。
传统的视觉Transformer模型主要处理静态图像,而Sora由此进化到可以生成视频。它不是逐帧生成,而是同时生成所有帧。通过这样做,即使视觉元素暂时被遮挡,它也能记住视觉元素的状态。如果Sora按顺序生成视频帧,这是不可能实现的。注意视频中狗的一致性:
  1. 去噪
你可能已经听说过Stable-Diffusion。去噪是一种计算机视觉技术,可以从随机噪声中生成高质量的图像。
  1. 指令跟随
与ChatGPT类似,Sora可以理解文本提示,并通过遵循指令生成内容。基于我们对ChatGPT的经验,可以推断调整生成图像的主要方式是通过提示工程(Prompt)。

Sora生成视频的局限



有人说能生成一分钟的视频就能生成一小时的电影,然而对比《穆赫兰道》,我们很容易发现Sora的一些局限:
1. 缺乏物理知识
仔细观察短视频。视频中,每根蜡烛的火焰都在自己的方向上摇摆。甚至有一根蜡烛有两个火焰,每个火焰指向相反的方向。尽管老太太在吹,但似乎对火焰没有任何影响。
这是因为Sora不知道如何从训练视频中提取物理信息。它尽力模仿某些视觉元素的外观,但它不知道物理规则, Sora也不会自学因果关系。
我非常想知道Sora能理解Prompt的程度。比如我们Prompt说”当祖母靠近蜡烛时,她的脸色因为烛光而变得更亮更暖。”Sora可以将单词映射到视觉表示上,然而,是否能理解命令,还是只是重复相关性,这是一个有趣的问题,我们只能在上手玩Sora时才能找到答案。
2. 缺乏现实世界知识
小狗是另一个有趣的场景。狗似乎在传送门附近玩耍。它们同时出现和消失。这是因为Sora是预测下一个token的模型。从相同的初始状态开始,它在选择所有可能的下一个状态上会有问题。当模型需要预测多个相似对象时,这一点尤其明显。
这暴露了Sora没有学习现实世界模型的事实,它仍然只是一个统计模型,只是学习了相关性。Sora将不得不成长为一个巨大的模型,以记住所有复杂的相关性,并使自己看起来更自然,但实际上,Sora对现实世界一无所知。
这就是为什么我对Sora的提示跟随潜力持怀疑态度。与LLM不同,视觉应用需要对世界有更深入的理解。然而,这超出了Sora的学习能力。提示Sora更像是和鹦鹉说话,有时它看起来像是能理解,但实际上它并不懂。
3. 无意义的细节
如果我们重新审视生日庆祝视频,我们可以看到背景中的人正在拍手和挥手。这一切都很愉快。但等一下!那位女士为什么挥手?她表达了什么吗?为什么人们随机拍手?他们没有唱《生日快乐》,他们没有跟着歌曲拍手,他们甚至没有看着生日的祖母。所有这些细节都是随机的。它们都是无脑的。
相比之下,2001年的电影也是如此令人困惑,以至于为了满足《穆赫兰道》粉丝对解释的渴望,林奇创造了一个包含10个线索的宣传活动。线索包括“注意红色灯罩的出现”,“注意长袍、烟灰缸、咖啡杯”,以及“露丝阿姨在哪里?”在人类制作的电影中,每一个场景都是经过精心策划的,每一个细节都很重要。
4. 没有故事性
让我们再次谈谈《穆赫兰道》。尽管电影没有明显的故事情节,即使在得到10个线索后我们仍然不太理解,但仍然可以感觉到整个电影有很强的逻辑联系。在某种意义上,整部电影变成了一个迷宫,人们热衷于为所有谜题找到一个合理的解释。
Sora能否用它自己的令人困惑的幻觉重复《穆赫兰道》的成功?我认为,以当前的技术栈,这是不可能的。Sora作为一个视觉Transformer模型的本质意味着它无法遵循一个长故事线。它只能在短时间内保持视觉项目的一致性。

结论



我很好奇OpenAI和其他领先公司将如何推进AGI。现在看来,AGI和Sora之间的差距就像比较埃隆·马斯克的火箭和鞭炮,它们是完全不同的。虽然Sora代表了生成性AI、LLM和Transformer的重要进步,但它的动力正在耗尽。迫切需要在生成式AI中取得突破,以推动进一步的改进。
最后,我们还没有考虑到生成式视频的情感因素。没有什么比被浪费的天赋,拒绝、失去希望、心碎和失败更可怕了,而这正是《穆赫兰道》这种如此美丽的噩梦的本质,这种本质是机器永远无法真正理解的。
小伙伴们关注起来谨防走丢:

继续滑动看下一个
曼谈AI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存