查看原文
其他

OpenAI发布全新视频模型Sora,到底有多强?将革了谁的命?

科睿科技观察 科睿研究院
2024-08-30

科睿科技观察


OpenAI近日再度惊艳全球,推出了划时代的文生视频模型Sora。这款模型直接将文字转化为精彩视频,打破传统创作界限。无论是细腻的背景、多角度镜头转换,还是情感丰富的角色表现,Sora都能轻松驾驭。


AI进化速度令人震惊,不但碾压AGI同行,甚至还将左右好莱坞谈判。但它的真实性也引发了安全担忧。



最近,OpenAI 最近推出了一款惊艳的文字生成视频大模型——Sora。这款模型强大到能够创作出长达60秒的高清视频,观众不仅能清晰地感受到场景中的光影关系和物体间的物理遮挡,还能体验到逼真的碰撞效果。


此外,Sora的镜头流畅感很强。在目前官网已发布的48个视频demo中,不仅能细腻展现每个细节,而且只需一些提示、一张静止图像,Sora甚至能补全视频中的缺失帧,轻松生成完整的视频。



Sora强在何处?


在Sora之前,视频生成工具和平台已经遍布业界,但为何Sora能够脱颖而出,引起如此大的关注?Sora所生成的视频,究竟有何与众不同之处,让它如此引人注目?




让我们一起看看OpenAI Sora如何与其他平台一较高下。它的视频清晰度达到了1080P,这一标准甚至超越了许多竞争对手。要知道,许多其他平台默认的清晰度甚至还达不到这个水平,它们往往需要通过复杂的upscale操作才能达到更清晰的画面。


OpenAI Sora的视频生成能力不止于此。它所具备的“视频连接”、“数字世界模拟”、“影响世界状态(世界交互)”、“运动相机模拟”等功能,都是前所未有的。这些功能在之前的视频平台或工具中很少被提及,但它们为OpenAI Sora的视频生成带来了无限可能。


此外,OpenAI Sora不仅能生成视频,还能直接生成图片,这意味着,它是一个以视频生成为核心,但拥有多种能力的强大模型。


图自data learner


在此之前,业界其他基于大模型的视频生成平台如Pika和Runway Gen2,默认生成的视频只有短短几秒,即便通过一些技术手段,也最多只能扩展到十几秒。而Sora的突破性功能让我们可以欣赏到更长、更连贯和清晰的视频。


根据技术报告,Sora模型可以处理宽屏1920x1080、竖屏1080x1920以及介于两者之间的所有尺寸视频。相比之下,之前的平台如Runway Gen2在生成视频时,只能选择固定的长宽比,如16:9、9:16、1:1、4:3、3:4和21:9。至于清晰度,也只能默认为1408 × 768px。这意味着Sora在视频生成的自由度和清晰度方面都取得了巨大的进步。


OpenAI Sora还打破了视频生成的常规,它不仅可以向前生成视频,还可以向后扩展。这是其他视频生成平台无法做到的。许多平台,比如Runway Gen2和Pika,虽然能基于现有视频继续生成,但都是简单地在原有视频的基础上继续几秒钟。然而,Open AI Sora不仅可以创造视频的新开头,而且可以以现有视频作为结尾,形成无缝衔接。


此外,Sora还能连接多个视频。你给Sora两个视频,它就能巧妙地将两者融合,生成一个全新的、毫无违和感的视频。比如,你可以给Sora一个无人机穿越古罗马建筑的视频,再给一个蝴蝶在海底珊瑚飞行的视频,Sora就能生成一个新的视频,让你看到无人机变成蝴蝶,古罗马建筑变成珊瑚风格。



想亲眼目睹东京街头时尚女模的逛街风采,或是体验登山运动员的壮志凌云吗?OpenAI Sora为你开启全新视界。它不仅可以呈现真实世界中的人和事物,还通过运动相机视角,为你带来震撼的视觉体验。最令人惊叹的是,Sora所生成的运动相机拍摄效果,与真实世界的三维空间完美匹配,让你仿佛置身其中。


与此同时,Sora在处理视频生成时面临的一大挑战——保持时间一致性,也展现出了卓越的表现。它能在长视频中准确捕捉并延续人物、动物和物体的动态,即使某些部分暂时被遮挡或离开视线,也能在后续画面中还原它们真实的状态。


此外,Sora还具备模拟现实世界行为的能力。例如,画家在画布上挥动画笔,或是人们享受美味的汉堡,这些日常生活中的细微动作,Sora都能精准模拟。


除了真实世界,OpenAI Sora还能模拟和渲染一些特定的游戏世界,如Minecraft。这不仅展现了Sora对语言理解的深度,也证明了它对视觉和操控任务的强大处理能力。Sora的出色表现预示着扩大视频模型规模的可能,为开发更高仿真度的AI系统铺平了道路。



Sora目前的缺陷



OpenAI Sora在处理物理现象、理解特定因果关系、处理空间细节以及准确描述随时间变化的事件方面存在明显问题。


具体来说,该模型在模拟基本物理交互,如玻璃破碎等方面,表现得不够精确。这可能是因为训练数据中缺乏足够的物理事件示例,或者模型未能充分理解物理过程的原理。


此外,当涉及对象状态显著变化的交互时,例如吃东西,Sora往往无法正确反映状态变化。如吃饼干,但饼干却没有明显变小。这表明模型在理解和预测对象状态变化的动态过程方面存在局限。


在生成长时间的视频样本时,Sora也容易出现不连贯的情节或细节,这很可能是由于模型难以保持长时间跨度的上下文一致性。此外,视频中还可能出现对象的无缘无故出现,这进一步证明模型在空间和时间连续性的理解上仍有待提高。



这些失败案例非常具有启发性。例如,人在跑步机上朝着反方向跑步的场景,长视频中突然出现之前未曾出现的物体,以及篮球在篮筐跳动时出现火苗等。这些都充分说明,Sora在真实世界交互的模拟方面仍有进步的空间。



AI进化速度令人震惊



自从Sora发布以来,网络上反响热烈,甚至在某些方面超越了Gemini的影响力。AI的发展速度之快令人咋舌。要知道,自OpenAI推出ChatGPT并开启生成式AI时代以来,仅仅过去了14个月。就在去年,我们还在惊叹文本生成图片的AI技术,而仅仅半年前,MidJourney创作的AI图片中还经常出现六指人物。然而现在,Sora的视频已经让我们感受到了现实与虚拟的界限变得模糊。


尽管OpenAI的GPT-4 Turbo曾出现性能下滑和速度变慢的问题,让人担忧生成式AI的发展是否遭遇瓶颈,但Sora的发布无疑消除了所有的疑虑。云计算公司Box的创始人兼CEO列维在Sora发布后表示:“如果还有人担心AI的发展速度会放缓,那么Sora的出现就是最好的反驳。”目前,Sora正面向受邀的制作者和安全专家进行测试,旨在发现并解决潜在的安全问题。至于正式的公测时间表,尚未公布。


与此同时,OpenAI完成了一项要约售股交易,但这次并非为了筹集资金用于公司运营,而是允许员工向以Thrive Capital牵头的风投机构出售现有股份进行套现。值得注意的是,作为OpenAI董事会成员的奥特曼自己并未持有公司股票,因此估值飙升并不会为他带来巨额财富。此次交易使OpenAI的整体估值达到了800亿美元,相较于去年年初的300亿美元增长了两倍多。根据CB Insights的统计数据,OpenAI已成为全球估值最高的创业公司之一,仅次于字节跳动和SpaceX。


事实上,此次交易原本应在去年11月完成,但由于奥特曼与董事会的冲突而被迫搁置。随着奥特曼重新回到OpenAI CEO的位置,投资者再次对这家AI巨头表示了信任。显然,随着Sora的正式发布,OpenAI的估值还将继续飙升。


那么,Sora究竟会带来哪些冲击?首先,它无疑给AGI视频同行带来了直接的冲击。Sora发布后,Runway CEO瓦伦祖拉在X平台上简单地发布了“Game On.”,暗示竞争已开始。几个月前,Runway刚刚发布了Gen-2视频模型。而Stability的CEO莫斯塔克则表示:“奥特曼真是个魔术师。”Runway作为一家已有五年历史的AI视频公司,在AI视频领域占据着先发优势,已经得到了好莱坞主流制片场的采用。《瞬息全宇宙》这部去年获得七项奥斯卡大奖的电影就是使用Runway制作的AI视频。在《瞬息全宇宙》大获成功后,Runway新一轮融资估值也大幅上涨,达到了15亿美元,是一年前的三倍。



文生视频是目前最热门的创业领域。随着生成式AI的热潮涌动,涌现出了许多文本生视频和图片生视频的创业公司。A16z的AI投资合伙人摩尔列出了他所关注的20多家文生视频创业团队,其中包括Pika和Zeroscope等备受瞩目的新贵。


去年年底,斯坦福华人毕业生创办的Pika视频在互联网上引发了惊叹。由于AI视频的出色表现,这家仅有四人的创业公司在不到半年的时间里完成了超过5500万美元的三轮融资,估值飙升至2.5亿美元。



然而现在,AI巨头OpenAI直接推出了Sora。无论是在视频时长、画面精细度、细节完整性还是多镜头拍摄方面,Sora都远超这些小型创业公司的视频,可以说它具有碾压性的优势。尽管AI视频领域还有很大的提升和增长空间,但这些小型公司是否有能力与OpenAI竞争仍然是一个巨大的疑问。


Sora的影响力不仅局限于其他AGI视频创业公司的生存空间。它还将改变整个好莱坞以及电影、电视、广告和游戏行业的未来规则。


好莱坞一直走在影视娱乐行业技术的前沿,从CG、VR到AI都证明了这一点。然而与其他技术不同,AI工具一直困扰着好莱坞从业人员。除了《瞬息全宇宙》使用了Runway的AI视频工具外,去年21世纪福克斯与IBM沃森合作使用AI工具为关于AI主题的恐怖片《摩根》制作预告片;迪士尼旗下的漫威更是完全使用AI技术制作了《秘密入侵》的开头动画。当时正值好莱坞演员和编剧工会进行大罢工期间。而生成式AI在影视行业的应用也是双方争议的焦点之一。当双方正在谈判时,演员和编剧们得知迪士尼漫威新一季的《秘密入侵》已经完全使用AI技术打造开场场景。这一消息让双方的谈判再次陷入僵局。


近年来,AI工具在影视行业的应用引发了诸多争议。首先,制片方使用AI对现有素材进行训练,从而频繁生成内容。这样的做法侵犯了许多创作者的版权,令他们未获得应有的回报。长远看来,AI工具可能会影响创作者未来的工作机会和空间。


去年,编剧和演员们勇敢地站出来,为了争取权益不惜让行业暂时停摆,甚至面临失业的困境。他们成功地迫使制片方在AI工具的使用上制定更多规范。然而,三年后的下一次劳资谈判,面对性能大升级的AI,演员和编剧们的处境可能会更加艰难。



引发安全担忧


视频生成模型激发了人们对先进人工智能技术的兴趣,同时人们也越来越担心,人工深度伪造视频是否会加速错误信息的传播?


“与生成人工智能中的其他技术一样,没有理由相信文本到视频不会继续快速改进——让我们越来越接近难以区分真假的时代。”加州大学伯克利分校的哈尼·法里德 (Hany Farid)说道,“这项技术如果与人工智能驱动的语音克隆相结合,可以在创建人们从未做过的事情的深度伪造方面开辟一条全新的前沿。”


Sora 部分基于 OpenAI 现有的技术,例如图像生成器 DALL-E 和 GPT 大语言模型。文本到视频的人工智能模型在真实性和可访问性方面落后于其他技术,但 Sora 的演示比以前的演示“可信度更高”,联合创始人雷切尔·托巴克 (Rachel Tobac )表示。


为了实现更高水平的真实感,Sora 结合了两种不同的人工智能方法。第一个是扩散模型,类似于 DALL-E 等 AI 图像生成器中使用的模型。这些模型学习逐渐将随机图像像素转换为连贯图像。第二种人工智能技术称为“变压器架构”,用于对顺序数据进行上下文关联和拼凑。例如,大型语言模型使用转换器架构将单词组装成通常可理解的句子。在这种情况下,OpenAI 将视频剪辑分解为 Sora 的 Transformer 架构可以处理的视觉“时空补丁”。


诚然,Sora的视频中仍然存在很多错误,比如行走的人的左右腿交换了位置,椅子随机漂浮在半空中,或者被咬过的饼干神奇地没有咬痕。尽管如此, NVIDIA 高级研究科学家Jim Fan在社交媒体平台 X 上称赞 Sora 是一个可以模拟世界的“数据驱动的物理引擎”。


普林斯顿大学的阿尔温德·纳拉亚南 (Arvind Narayanan)表示,Sora 的视频在描绘具有大量运动的复杂场景时仍然显示出一些奇怪的故障,这表明此类深度伪造视频目前可以被检测到。但他也警告说,从长远来看,“我们需要找到其他方式来适应社会”。


一名儿童被拍到观看有争议的内容,《纽约时报》


OpenAI 推迟了公开 Sora,同时进行演习,专家们试图打破人工智能模型的安全措施,以评估其被滥用的可能性。OpenAI 发言人表示,目前测试 Sora 的精选人员是“错误信息、仇恨内容和偏见等领域的专家”。


这项测试至关重要,因为人造视频可能会让不良行为者生成虚假镜头,以便骚扰某人或影响政治选举。人工智能生成的深度伪造品引发的错误信息和虚假信息是学术界、商界、政府和其他部门的领导者以及人工智能专家的主要担忧。


“Sora绝对有能力制作可以欺骗普通人的视频,”托巴克说,“视频不需要完美才可信,因为许多人仍然没有意识到视频可以像图片一样容易被操纵。”


人们真正担心的是,当任何人都可以使用最新的 OpenAI 工具时,创建深度伪造品和攻击性内容会变得更加容易。已经有几起备受瞩目的负面深度造假事件袭击了主流媒体,包括泰勒·斯威夫特 (Taylor Swift) 在 X 上的露骨照片,以及假总统乔·拜登 (Joe Biden) 告诉新罕布什尔州的潜在初选选民待在家里,跳过投票来“保存你的选票”。


托巴克表示,人工智能公司将需要与社交媒体网络和政府合作,以应对 Sora 向公众开放后可能出现的大量错误信息和虚假信息。防御措施可能包括为人工智能生成的内容实施唯一标识符或“水印”。



当被问及 OpenAI 是否有计划在 2024 年让 Sora 得到更广泛的使用时,OpenAI 发言人称该公司“在 OpenAI 的产品中使用 Sora 之前采取了几项重要的安全措施”。例如,该公司已经使用自动化流程,旨在防止其商业人工智能模型生成极端暴力、性内容、仇恨图像以及真实政客或名人的描述。




参考链接


https://openai.com/sora

https://openai.com/research/video-generation-models-as-world-simulators

https://www.forbes.com/sites/sashawallinger/2024/02/17/how-openais-sora-impacts-the-future-of-music-marketing/?sh=495d82fa4831

https://economictimes.indiatimes.com/tech/technology/openai-launches-video-generation-model-sora/articleshow/107732569.cms?from=mdr

https://www.merca20.com/when-will-openai-sora-be-available/



科睿研究院最早成立于中国香港特别行政区,是国际科学与人文科学院(International Core Academy of Sciences and Humanities)建设的综合性研究机构,致力于搭建学术界与社会间高效沟通的桥梁,将前沿的学术研究成果赋能至新时代社会发展。


作为科睿研究院主办的官方号,我们致力于打造高质量知识交流平台:持续推出与当代社会相关的洞察分析与时事评论,定期发布高质量专栏文章与交流活动,并推送有价值的学术资源和最新资讯。同时,学院积极欢迎读者们的踊跃来稿,参与我们的知识传递之旅中!


往期推荐

1

肥胖能带来财富吗?

2

怎样做一个优秀的博士生?

3

“龙”被翻译成Loong,而不是Dragon了

4

移动支付使你变得更加贫穷了吗?

欢迎转发&点赞哦~

继续滑动看下一个
科睿研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存