好莱坞告急!OpenAI发布Sora模型,瞬间生成高清大片
OpenAI这两天发布一款名为“Sora”的视频生成AI,和许多视频生成工具一样,用户只要给出文字叙述或静态图片,Sora 就能自动生成 1080p 的动画,可以支持各种不同的角色、动作类型和背景画面。
“Sora”的名称源自日语的“天空”(そら),能够生成长达1分钟的视频,光是这一点就已经超越当前许多同类产品。OpenAI 已经向一些研究人员和创作者开放 Sora 的访问权限,OpenAI 在社交平台 X 发布的范例视频中,可以看到细腻的场景、复杂的运镜和情绪饱满的角色。
Sora 使用约10000 小时的”高品质“视频训练,OpenAI 表示,Sora 基于DALL·E、GPT 模型的研究成果,一方面使用DALL·E 3 的重述技术,能为视觉数据生成高度描述性的标题,所以Sora 可以更好地遵循用户的指令,生成情感丰富、引人入胜的角色,甚至还能深入理解指令提到的人、事、物在现实世界中的样子。
OpenAI的研究人员Bill Peebles在X上公布了几段视频和相应的提示词,比如这个“阴森恐怖的鬼屋,友好的杰克灯笼和幽灵人物在入口处欢迎捣蛋鬼,移轴摄影”,视频画面很好地呈现了描述词的内容。
知名科技YouTuber Evan Kirstel直接用“SORAWOOD”替换“HOLLYWOOD”的梗图表达对Sora的感叹。
NVIDIA科学家Jim Fan观察到一些针对Sora的质疑,包括那些认为Sora生成视频的过程只是在操作2D像素,对物理并没有真正的理解。他认为这样的观点过于片面,Sora 的软物理模拟是在大规模扩展文本到视频训练时产生的一种自然而然的特性。
Jim Fan在推文中分析称,GPT-4 必须内部学习某种语法、语义和数据结构,才能生成可执行的 Python 代码,Sora 也必须学习文本到三维图像、三维变换、光线追踪渲染和物理规则的隐性知识,这样它才能尽可能准确地模拟视频像素。它需要掌握游戏引擎的概念来达成这个目标。
如果不考虑交互性,虚幻5可以看作是一个生成视频像素的复杂过程。Sora 同样是一个生成视频像素的过程,但它是基于端到端的 Transformer 来实现的。这两者在抽象层面上是相同的。但不同之处是,UE5 是精心设计且精确的,而 Sora 则是完全通过数据学习和直觉来实现的。
不过Jim Fan也指出,Sora对物理的理解还很脆弱,远非完美,而且它还经常产生一些与我们常识不符的幻觉。它在理解物体互动方面还有很大的不足。
Sora 就像 GPT-3 的一个重要时刻。回顾 2020 年,GPT-3 尽管不够完善,需要大量的提示优化和监督,但它是第一个令人瞩目的在上下文中学习并展示出这种特性的模型,GPT-3固然有许多不足之处,但是想象一下,在不久的将来,GPT-4 将会带来怎样的变化。
在这些争论之外,已经有用户利用Sora“赚到钱了”,X平台上这位ID为“JamesGoong”的用户表示,他上线了一个sora app落地页,成交了一个年付。
从OpenAI官方公布的效果来看,和其他文字生成视频AI模型相比,Sora确实是令人印象深刻的进步。不过OpenAI自己也表示Sora还存在很多问题,可能难以准确模拟复杂场景的物理原理,也可能无法理解因果关系。
OpenAI 表示,他们还将与专家合作,找出模型的漏洞,并建立配套工具,来检测网上的视频是否由Sora 生成;同时还会与全球政策制定者、教育者、艺术家接触,来探讨如何不被滥用。
fu.lin@zhiding.cn
至顶科技大模型应用场景报告:“繁花”下的“消幻脱困”