Sora 来了,教育的另一个 GPT 时刻?
2 月 16 日,OpenAI 发布了首个文生视频(text-to-video)AI 模型 Sora,该模型可通过接收文本指令,生成相应的视频。
据美国开放人工智能研究中心官网介绍,OpenAI 正在努力让人工智能「理解和模拟处在运动当中的物理世界」。此次发布的文字转视频模型可以依据用户输入的指令,生成一段时长可达 1 分钟的视频。也能获取现有的静态图像并从中生成视频,还能获取现有视频,进行扩展或填充缺失内容。令人惊讶的是,Sora 视频在构图、色彩、创意和运镜方面,都呈现出明显的电影风格,无论是一镜到底还是多机位都可以无缝切换,甚至还有「演员」的表情神态,这是此前的文生视频产品所不具备的。OpenAI 一出手就将整个 AI 视频行业提升了一个级别。
Sora 是一个通过文本指令生成视频的工具,可以创建各种视频——写实的、动画的、奇特的——最长可达六十秒。尽管Sora并非第一款AI生成视频的产品——谷歌 lmagen 和 Runway Gen-2 等公司已经奠定了基础,而 nVidia 去年也发布了自己令人印象深刻的演示版。但 Sora 似乎超越了它们,因为它能做一些新的事情。
早期人工智能生成的视频存在不连贯、扭曲和其他怪异现象,瞬间打破了人们的幻觉。但正如 OpenAI 的博文所解释的那样,Sora 不仅能创建「有多个角色的复杂场景",还能「模拟运动中的物理世界」,并理解物体在该世界中的存在方式。结果如何?就演示所见,可以看到连贯、一致的视频,所有东西都基本保持在应该在的位置。
当前,Sora 远称不上完美,还有很多问题没有得到解决。OpenAI 承认,它在「准确模拟复杂场景的物理现象」、理解「因果关系的具体实例」方面可能会遇到困难,而且还可能「混淆提示的空间细节」。当前,OpenAI 尚未透露 Sora 是用哪个 GPT 模型构建的,它是在什么数据基础上训练的,何时会认为它已经准备好向早期测试者以外的用户发布,以及其成本几何。
Techradar 通过分析 Sora 迄今为止最令人印象深刻的 11 个人工智能生成的视频,一窥 AI 生成视频所带来的一切可能的发展方向......
1. 制作令人信服的科幻预告片
The prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
这部科幻短片是 Sora 生成能力中最令人印象深刻的例子之一,它展示了 Sora 制作逼真角色和模仿特定电影风格的能力。
提示指定了一个「移动预告片」,因此它包含了剪切和特写镜头——与其他文字视频工具相比,它在叙事连贯性上的不足在质量和一致性上得到了弥补。当然,它没有声音,但作为故事板和头脑风暴的工具,它似乎已经达到了新的高度。
2. AI 生成的人类看起来像照片一样真实
The prompt: A instructional cooking session for homemade gnocchi hosted by a grandmother social media influencer set in a rustic Tuscan country kitchen with cinematic lighting
自 Meta 和谷歌展示其文字视频工具的早期示例以来,仅仅过去了 18 个月,但像上面这样的 Sora 视频显示了它们取得的飞速进步——尤其是在制作有人物参与的短片方面。
早期的谷歌 Imagen 短片没有涉及人类和动物,但上面的例子——OpenAI 首席执行官Sam Altman在收到提示请求后在 X(前 Twitter)上发布的——显示了它可以制作出逼真、清晰的细节。虽然有一个消失的勺子暴露了其AI生成视频的缺点,但就连手看起来也相当逼真。
3. 制作皮克斯风格的动画短片
The prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle.
这个由 Sora 制作的短片展示了人工智能生成的视频将动画向任何有想象力的人开放的潜力。它展示了一个皮克斯风格的毛茸茸的怪物,它的皮毛非常细致,蜡烛的反光也非常逼真。
尽管如果在实际应用中,想让 AI 提供完全符合预想的视频需要的提示词可能很长,,但肯定比动画工作室使用的历史流程要短得多。皮克斯曾在《怪物公司》中谈及制作皮草的艰辛过程,而最初的《玩具总动员》耗费了 80 万个机时,皮克斯每天只能渲染不到 30 秒的镜头。
4. 模拟无人机拍摄视角
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach.
文字视频工具无法取代最好的无人机来捕捉个人记忆。但是,如果你需要一些通用的航拍视频(甚至可以大致接近真实地点),那么上面 Sora 制作的示例表明它可以胜任这项任务,而且还能保证天气晴好。
只有片段中的波浪才能让人看出这是人工智能生成的——即便如此,也只有仔细观察才能发现。对于社交媒体来说,这无疑已经足够好了,而阿马尔菲海岸的另一个例子也表明,这种质量并非一次性的。唯一的问题是,它是在谁的真实航拍图像上进行训练的?
5. 模拟历史过去场景
The prompt: Historical footage of California during the gold rush.
19 世纪中叶有无人机吗?据我们所知没有,但是索拉在这里让我们了解到,如果中国的大疆公司的飞行相机在淘金热时期的加利福尼亚出现,它可能会拍摄到什么。
这个片段提出了一个严肃的问题:如果将人工智能生成的视频公之于众,会对我们对历史事件的回忆产生怎样的影响?因此,Open AI 公司表示,它正在 「构建帮助检测误导性内容的工具,如检测分类器」,它可以识别视频是否由 Sora 制作。
虽然很高兴听到 OpenAI 正在采取这些安全措施,但这仍然让人对社交媒体信息可信度感到担忧。
6. 惊人的精细程度
The prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic
花了那么多钱为你的全画幅相机买了一个 f/1.2 的素描镜头,而文字转换视频工具只需一个简单的提示就能拍出这样的片段。当然,我们仍然需要相机来捕捉真实的人、事和记忆,但这个片段显示,毫无疑问,Sora 及其竞争对手将再次减少对视频素材的需求。
眼睛的运动、睫毛、逼真的皮肤毛孔、马拉喀什日落的倒影,所有这些都非常到位。它甚至还能模拟对焦的瞬间误差。
7. 模拟超现实的奇幻场景
The prompt: A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view
从第一批样本片段来看,Sora 最令人印象深刻的一点是它的多功能性。它不仅能制作照片写实和皮克斯风格的动画,还能将两者结合起来,制作出一些超现实的片段,否则动画制作将耗时数小时。
这场以海洋为背景的自行车赛当然并不完美——不清楚为什么会有一只江豚悬浮在半空中--但不知何故,骑自行车的海洋生物看起来也并不完全不自然。至少,可以帮助 gif 游戏水平提高好几个档次。
8. 一种全新的个性化游戏可能近在眼前
The prompt: the camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene.
索拉离创造出像上述人工智能生成的视频那样逼真的视频游戏还有一段距离,但它肯定有可能对游戏行业产生重大影响。OpenAI 的一篇论文显示,它可以渲染视频游戏、学习物理并帮助创建游戏世界。
正如 Nvidia 高级研究员 Jim Fan 博士在 X(前 Twitter)上所说,Sora 不仅仅是一个图像生成器,就像我们之前在《Dall-E》中看到的那样。它更像是一个 「数据驱动的物理引擎」,能够有效地学习物理知识,并开启从文字到 3D 的逼真创作。
正如 OpenAI 的论文所说:"Sora 可以同时用基本策略控制 Minecraft 中的玩家,同时还能高保真地渲染世界及其动态"。显然,这只是其游戏潜力的开始。
9. 广告业迎来创意大洗牌
The prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
Sora 具有照片般逼真的视频潜力,而且对物理学的理解似乎令人印象深刻,这使它成为包括广告在内的许多领域的有力创意武器。
随着上述场景可以用于有限的营销预算,YouTube 预滚动广告和社交广告将变得更加超现实。也就是说,前提是 OpenAI 能够抵御版权诉讼,并且 Sora 能够用于商业用途。
10. 不俗的导演能力
Sora 开发者比尔-皮布尔斯(Bill Peebles)在 X(推特前身)上分享了上面的短片,并称「这是一段由 Sora 制作的视频,包括镜头变化和所有内容」。
我们不知道「bling zoo」究竟是根据什么提示生成的,视频中的一些动物似乎正在享受丰厚的遗产,但这段视频显示了 Sora 对剪辑和节奏的理解,表明 Sora 不仅仅能在一分钟内循环播放相同的片段。毫无疑问,业余电影制作人将会走在队伍的前列。
11. 宠物 gif 即将升级
The prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
并不是 OpenAI 的 Sora 所带来的所有影响都能改变世界或改变行业——坦率地说,gif 游戏即将面临的可能性同样令人感到兴奋。
看来,Sora 尤其擅长制作狗、小狗和小猫的逼真短片——虽然互联网上已经不乏这样的短片,但我们还是期待着在 Giphy 不给力的时候,为它们量身定制理想的短片。
不过,可以想见的是,Sora 的应用必将使得互联网上的充斥着由它制作的「假视频」。OpenAI 全球事务副总裁 Anna Makanju 周五在慕尼黑安全大会上发言时重申了这一点,OpenAI 和其他 19 家技术公司承诺自愿合作,共同打击人工智能生成的选举深度伪造。她指出,公司正在 「以相当谨慎的方式」发布 Sora。
据澎湃新闻报道,中国人工智能专家吴甘沙曾在接受采访时表示,Sora 的影响往小了说,是文生视频技术突破了一个数量级(时长比此前最好的水平提升了 15-20 倍),可以直接应用于短视频、广告行业等,对自动驾驶的场景和数据生成等都有正面影响;往大了说,它提供了理解、重建和模拟这个世界的可能性。它用现实和反馈来印证知识,并且能够用视频(模拟真实)的方式输出知识和内容。一图胜千言,图和视频的信息传递损耗远低于文字,从这个意义上来看,它未来冲击的不仅仅是视频、电影行业,也会影响书籍、知识、教育等一切信息输出的行业。
ChatGPT-3.5 发布至今时隔将近一年,Open AI 又携 Sora 为教育界带来了全新的震撼。这一次,Sora 又会对教育产生哪些影响?
首先,对于教育资源而言,Sora 可以帮助教育者制作高质量、生动形象的教学视频。与此同时,Sora 可能通过个性化推荐和定制化内容生成,满足学习者不同的学习需求和兴趣,从而实现个性化学习。在 ChatGPT 发布之后,许多在线教育平台即通过 ChatGPT 生成教案,用于在线课堂、翻转课堂等教学场景,Sora 加入之后,将又成为互联网内容的超级生产力。
其次,Sora 及其带来的光怪陆离的世界,使得「提示」成为了一种全新的输出力量。杨晓哲教授在其公众号评价到,这对教育的考试评价将迎来前所未有的大挑战。尽管大规模的纸笔考试在公平性等方面有诸多显著的优点,但是其暴露的缺点正在不断扩大。纸笔考试无法检测出一个人在人机协作下的真正能力,甚至会一直忽视这种能力。
考试评价改革将面临前所未有的挑战。我们的考试所考核出来的学生能力与水平,正在与时代脱节,与社会脱节。学生们所陷入的、沉重的、死记硬背、反复刷题的「知识」负担中,并没有丝毫减轻,反而不断加重了。而考试一旦阶段性结束,所学的绝大部分「知识」将毫无价值。
有理由相信,在当今数字化时代,越来越多的 AIGC 工具正逐渐改变着教育的面貌。然而,也必须认识到,教育公平并非一蹴可及的目标。数字鸿沟、内容质量和可信度等挑战仍然存在。如何更好地利用 Sora 等工具,推动教育公平的实现,方能实现更加美好的未来。