查看原文
其他

Sora核心团队专访:无法「看到」世界,GPT就会缺失一些信息

元界
2024-09-06

元界由《权力、资本与商帮》作者王俞现 主理。合作微信:yhxgj360 。



政协委员徐玖平:大量景区元宇宙烂尾,科技文旅结合处初步阶段

一家三代清华人,为什么他说元宇宙不存在过时之说?


Sora虽说是一个专门的视频生成模型,但它的目标是先模拟自然再超越自然,除生成各种现实的场景,还具有生成虚拟场景的视频内容的能力。


相信Sora能生成出与真实视频毫无二致的作品,但复刻已有东西,不难;创造未曾出现的东西,令人心动。


配音功能不是没有考虑在内,只是优先排期的问题,目前在专攻优化视频生成的问题,譬如用户希望对生成的视频有更精细、直接的控制,并非只有简单的提示词。


AI不仅在视频创作方面发挥作用。无法「看到」这个世界,GPT就会缺失一些信息。


一周前,OpenAI 的 Sora 团队接受了油管知名博主 Marques Brownlee (简称 MKBHD) 的采访,透露了很多之前从未公开的信息,包括详细的技术路线等。



如何定义Sora?生成原理是什么?


MKBHD:能邀请各位百忙之中抽空来参加这次对话,真是十分荣幸~在对话开始之前,要不先做个自我介绍?比如怎么称呼,负责哪些事情?


Bill Peebles:Bill Peedles,在 OpenAI 负责 Sora 项目。


Tim Brooks:Tim Brooks,负责 Sora 项目的研究。


Aditya Ramesh:Aditya,一样的,也是负责人。


MKBHD:我对 Sora 了解一些,主要还是看了你们发布的那些宣传资料、网站, 还有一些演示视频,真挺牛的。能简单说说 Sora 究竟是咋实现的吗?我们之前有讨论过 DALL-E 和 Diffusion,但说实话,我对 Sora 的原理确实摸不透。


Bill Peebles:简单来说,Sora 是个生成模型。最近几年,出现了很多很酷的生成模型,从 GPT 系列的语言模型到 DALL-E 这样的图像生成模型。


Sora 是专门生成视频的模型。它通过分析海量视频数据,掌握了生成各种现实和虚拟场景的视频内容的能力


具体来说,它借鉴了 DALL-E 那样基于扩散模型的思路,同时也用到了 GPT 系列语言模型的架构。可以说,Sora 在训练方式上和 DALL-E 比较相似,但架构更接近 GPT 系列



训练数据来源不方便说


MKBHD:听起来,Sora 像其他大语言模型一样,是基于训练数据来创造内容等。那么,Sora 的训练数据是什么呢?


Tim Brooks:这个不方便说太细,但大体上,包括公开数据及 OpenAI 的被授权数据。



Sora训练的特别之处


Tim Brooks:不过有个事儿值得分享:以前,不论图像还是视频模型,大家通常只在一个固定尺寸上进行训练。而我们使用了不同时长、比例和清晰度的视频,来训练 Sora。


至于做法,我们把各种各样的图片和视频,不管是宽屏的、长条的、小片的、高清的还是低清的,我们都把它们分割成了一小块一小块的。


接着,我们可以根据输入视频的大小,训练模型认识不同数量的小块。


通过这种方式,我们的模型就能够更加灵活地学习各种数据,同时也能生成不同分辨率和尺寸的内容。



Sora最擅长做什么?技术缺陷是什么?


MKBHD:你们已经开始使用、构建和发展它一段时间了,可否解答我一个疑惑?我本身是做视频的,能想到这里要处理的东西有很多,比如光线啊、反光啊,还有各种物理动作和移动的物体等等。


所以我就有个问题:就目前而言,你觉得 Sora 擅长做什么?哪些方面还有所欠缺?比如我看到有个视频里一只手竟然长了六个手指。


Tim Brooks:Sora 特别擅长于写实类的视频,并且可以很长,1 分钟那么长,遥遥领先。


但在一些方面它仍然存在不足。正如你所提到的,Sora 还不能很好的处理手部细节,物理效果的呈现也有所欠缺。比如,在之前发布的一个 3D 打印机视频中,其表现并不理想。特定场景下,比如随时间变化的摄像机轨迹,它也可能处理不佳。因此,对于一些物理现象和随时间发生的运动或轨迹,Sora 还有待改进。



暂时没有考虑配音,优先排期问题


MKBHD:看到 Sora 在一些特定方面做得这么好,实在是挺有趣的。


像你提到的,有的视频在光影、反射,乃至特写和纹理处理上都非常细腻。这让我想到 DALL-E,因为你同样可以让 Sora 模仿 35mm 胶片拍摄的风格,或者是背景虚化的单反相机效果。


但是,目前这些视频还缺少了声音。我就在想,为 AI 生成的视频加上 AI 生成的声音,这个过程是不是特别有挑战性?是不是比我原先想象的要复杂很多?你们认为要实现这样的功能,我们还需要多久呢?


Bill Peebles:这种事情很难具体说需要多久,并非技术难度,而是优先级排期。


我们现在的当务之急是要先把视频生成模型搞得更强一些。毕竟,以前那些 AI 生成的视频,最长也就四秒,而且画质和帧率都不太行。所以,我们目前的主要精力都在提升这块。


当然了,我们也觉得视频如果能加上声音,那效果肯定是更棒的。但现在,Sora 主要还是专注于视频生成。



未正式发布Sora,目前处于征求意见期

用户希望对生成的视频有更精细、直接的控制


MKBHD:你们在 Sora 身上做了大量工作,它的进步有目共睹。我很好奇,你们是怎么判断它已经达到了可以向世界展示的水平的?


就像 DALL-E 一样,它在发布之初就惊艳全场,这一定是一个值得铭记的时刻。另外,在 Sora 已经表现出色的方面,你们是如何决定下一步的改进方向的呢?有什么标准或者参考吗?


Tim Brooks:你可能会注意到,我们目前并没有正式的发布 Sora,而是通过比如博客、Twitter、Tiktok 等渠道发布一些视频。这里的主要原因是,我们希望在真正准备好之前,更多的获得一些来自用户的反馈,了解这项技术如何能为人们带来价值,同时也需要了解在安全方面还有哪些工作要做,这将为我们未来的研究指明方向。


现在的 Sora 还不成熟,也还没有整合到 ChatGPT或其他任何平台中。我们会基于收集到的意见进行不断改进,但具体内容还有待探讨。


我们希望通过公开展示来获取更多反馈,比如从安全专家那里听取安全意见,从艺术家那里了解创作思路等等,这将是我们未来工作的重点。


MKBHD:有哪些反馈,分享一下?


Tim Brooks:有一个:用户希望对生成的视频有更精细、直接的控制,并非只有简单的提示词。


这个挺有趣的,也这无疑是我们未来要重点考虑的一个方向。


MKBHD:确实,有些用户可能只是想确保视频是宽屏或竖屏,或者光线充足之类的,而不想花太多精力去设计复杂的提示词。这个想法很有意思。



相信能生成出与真实视频毫无二致的作品

同步在做AI视频识别工具


MKBHD:未来 Sora 是否有可能生成出与真实视频毫无二致的作品呢?我猜是可以的。就像 DALL-E 那样,随着时间发展,越来越强。


Aditya Ramesh:我也相信,因此我们会变得变得更为谨慎。


人们应该知道他所看到的视频,是真实的,还是 AI 生成的。我们希望 AI 的能力不会被用到造谣上。


MKBHD:在 Sora 生成的视频中,在右下角都有水印,这确实很明显。但是,像这样的水印可以被裁剪掉。


我很好奇,有没有其他方法可以识别 AI 生成的视频?


Aditya Ramesh:对于 DALL·E 3,我们训练了一种溯源分类器,可以识别图像是否由模型生成。


我们也在尝试将此应用于视频,虽然不完美,但这是第一步。


MKBHD:懂了。就像是加上一些元数据或者某种嵌入的标志,这样如果你操作那个文件,你就知道它是 AI 生成的。


Aditya Ramesh:C2PA 就是这样做的,但我们训练的分类器可以直接应用于任何图像或视频,它会告诉你这个媒体是否是由我们的某个模型生成的。



如何看待有人说工作岌岌可危?


MKBHD:明白了。我还想知道你的个人感受。显然,你们必须等到觉得 Sora 准备好了,可以向世界展示它的能力。看到其他人对 Sora 的反应,你有什么感觉呢?


有很多人说「太酷了,太神奇了」,但也有人担心「哦不,我的工作岌岌可危」。你是怎么看待人们各种各样的反应的?


Aditya Ramesh:我能感受到人们对未来的焦虑。作为使命,我们会以安全负责的方式推出这项技术,全面考虑可能带来的各种影响。


但与此同时,我也看到了许多机遇:现在如果有人想拍一部电影,由于预算高昂,要获得资金支持可能非常困难-制片公司需要仔细权衡投资风险。而这里,AI 就可以大幅降低从创意到成片的成本,创造不同。


MKBHD:Sora 和 DALL·E 确实有很多相似之处,尤其是在使用场景上。


我自己就经常用 DALL·E 来设计各种概念图,帮助很大。我相信对于 Sora 来说, 类似的创意应用场景也会有无限可能。


我知道,Sora 现在还没具体的开放时间,但你觉会很快吗?


Aditya Ramesh:我觉得不会那么快,我觉得。



如何先模拟自然,再超越自然?

复刻已有东西,不难;创造未曾出现的东西,令人心动


MKBHD:最后一个问题是:在将来,当 Sora 能制作出带声音的、极度逼真的、5 分钟的 YouTube 视频的时候,会出现哪些新的、要应对的问题?


更进一步说,相较于图片,视频制作的复杂的要高得多。但视频则涉及到时间、物理等多个维度,还有反射、声音等诸多新的难题。


说实话,你们进入视频生成领域的速度远超我的预期。那么在 AI 生成媒体这个大方向上,下一步会是什么呢?


Tim Brooks:我期待看到人们用 AI 来创造全新的东西。


去复刻已有对东西,不算难事儿;但使用新工具,去创造未曾出现的东西,着实令人心动!


对我来说,一直激励我的,正是让那些真正有创意的人,将一切不可能的事情变成可能,不断推进创造力的边界,这太令人兴奋了!


MKBHD:确实有趣啊!我觉得,由于它们是基于已有内容训练的,因此生成的东西也只能建立在现有内容之上。


要让它们发挥创造力,唯一的办法可能就是通过你给它的 prompt 了。你需要在如何巧妙地提出要求上下功夫, 琢磨该如何引导它。这么理解对吗?


Bill Peebles:除了 prompt,Sora 还可以通过其他方式引导视频生成。


比如在我们之前发布的报告里,演示了如何将两个的混合输入:左边视频一开始是无人机飞过斗兽场,然后逐渐过渡到右边 - 蝴蝶在水下游动。中间有一个镜头,斗兽场渐渐毁坏,然后被看起来像被珊瑚覆盖,沉入水中。


像这一类的视频生成,无论是技术还是体验,都是完全与以往不同的。


Aditya Ramesh:从某种意义上来说,我们做的事情,就是先模拟自然,再超越自然!



AI不仅在视频创作方面发挥作用

无法「看到」这个世界,GPT就会缺失一些信息


MKBHD:哇,这确实挺酷的,很有意思啊!


Sora 能够越精准地模拟现实,我们就能在它的基础上越快地进行创新和创作。理想情况下,它甚至能成为一种工具,开辟新的创意可能性,激发更多的创造性思维。真的超级赞!


如果有什么话想对大家说,现在正是个好时机。毕竟,你们是最早开始这个项目的人,比任何人都更早地看到了它的潜力。关于 Sora 和OpenAI,还有什么是你们想让大家知道的吗?


Tim Brooks:我们还特别兴奋的一点是,AI 通过从视频数据中学习,将不仅仅在视频创作方面发挥作用。毕竟,我们生活在一个充满视觉信息的世界,很多关于这个世界的信息是无法仅通过文本来传达的。


虽然像 GPT 这样的模型已经非常聪明,对世界有着深刻的理解,但如果它们无法像我们一样「看到」这个世界,那么它们就会缺失一些信息。


因此,我们对 Sora 及未来可能在 Sora 基础上开发的其他 AI 模型充满期待。通过学习世界的视觉信息,它们将能更好地理解我们所生活的世界,因为有了更深刻的理解,未来它们能够更好地帮助我们。



补白


对话中,MKBHD忘了问用一个提示让 Sora 生成一个视频需要多长时间?


他私信问了一下,答案是:得看具体情况,但你可以去买杯咖啡回来,它可能还在忙着生成视频。


所以,答案是「需要挺长一段时间」。


来源:赛博禅心,标题由元界优化


推荐阅读

工信部长最新发文:新一轮科技革命和产业变革以人工智能为引领

南大首开人工智能通识课程体系!新京报八问负责人王骏

从字节、央广、中传、阿里、腾讯的应对,洞见Sora的影响与传导

万亿参数大模型只是起点:黄铁军最新演讲10大观点

从估值3亿美元到融资超10亿美元,他仅用8个月|中国未来产业100人

90后,近10亿融资,风口之上,他要深化AI+通用机器人的融合

谷歌大牛蒋路加盟TikTok,字节对标Sora开干,拉开AI应战序幕

李飞飞门生与英伟达新研究部门GEAR:起底领衔华人科学家范麟煕


继续滑动看下一个
元界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存