比肩Sora!视频模型王者Gen-3回归,能表现人类复杂感情,但不理解物理世界
文|王沁
编辑|李然
封面来源|公司官网
文生视频模型这片战场,竞争趋于白热化,你追我赶,王者频出。
自从OpenAI发布Sora以来,PixVerse、Pika都不断拿出自家王炸产品,而曾经的视频生成模型王者Runway在被各家新品轮番吊打之后,终于掏出了最新一代的Gen-3视频生成模型——视频的逼真度、一致性、运动性都有了极大的提升,而且生成的单个视频时长提升到了10秒。
在上个月中旬开启了专业人士内测之后,Gen 3 Alpha今天正式向公众开放,付费订阅起步价为每月15美元,包含625个积分,可以生成62秒钟的视频。625个积分使用完之后,10美元可以购买1000个积分。
新的模型支持文本到视频、图像到视频和文本到图像的生成,而且现有的控制模式,如运动画笔,高级相机控制,导演模式都无缝支持。未来,Runway还会上线更精细地控制结构、风格和运动的工具。
根据Runway官方的说法,Gen-3 Alpha是由研究科学家、工程师和艺术家组成的跨学科团队共同努力的结果。而官方放出的演示视频也很好的体现了这一点:模型提供了非常丰富的控制功能,生成的视频效果惊人,而且艺术表现力也比上一代有了非常大的提升。
逼真运镜,呈现复杂情感
Runway表示,Gen-3与上一代Gen-2 相比,Gen-3在保真度、一致性和运动方面有了重大改进,也是朝着通用世界模型迈出的一步。
在提示词为“在日本城市告诉行驶的火车车窗上,一名女子的精细倒影”的demo视频中,可以看出视频清晰度很高,对于光线的变化、物体运动的变化、人物微妙的表情,都能呈现得不错。
与Gen-2人脸不停畸变的效果相比,Gen-3 Alpha已经能在10秒钟的视频片段之内保证人物五官稳定不变,而且能配合环境,人物动作的变化展现出合理的光影变化。这些能力相比于Gen-2来说都有非常大的飞跃,可以说已经和Sora展示出来的效果处于同一层次。
Gen-3生成的视频具有细颗粒度的时间控制。
在提示词为“一只蚂蚁从巢穴中爬出的大特写镜头,镜头后拉,露出山那边的街区”中,可以看出,物体的种类(蚂蚁到街区)、景别(细节特写到俯瞰大全景)都发生了迅速的变化,但镜头运动很丝滑,且物体精确无变形。
这得益于Gen-3在训练过程中,使用了高度描述性、时间密集的字幕,与视频数据进行匹配。这使得Gen-3能为文字内容匹配准确的关键帧画面,并在帧与帧之间生成有想象力的过渡场景。
另外,Gen-3还能呈现逼真的人物,擅长生成具有各种动作、手势和情感的富有表现力的人类角色。
在提示词为“一个男人的电影宽幅肖像,他的脸被电视的光芒照亮”中,对人类的复杂表情(悲伤、克制、怅惘)的呈现,跟当初Sora发布的在火车上沉思的男子的微妙表情有得一拼。
Gen-3对于人类复杂感情的呈现,确实是一大优势。
X社交平台上一名网友测试了不同的人类表情,最后Gen-3生成的角色面部表情很细致入微,画面审美具有电影感。
但同时也可以看出一些缺点:对于光线变化的把握还不够准确,有时光线过暗,甚至看不清人物表情。
对于Gen-3的训练过程,Runway目前并未发布技术论文,只发布了一篇博客,称Gen-3模型使用了视频和图片等多模态数据进行训练。
惊艳之余,仍不够懂物理世界
Gen-3模型一出,国外网友立刻在X平台上分享了一堆测评。
一位网友惊叹:“Runway的Gen3是对AI内容创作的革命。”
一位网友用Gen-3生成了脑洞大开的时装秀视频,各种奇幻荒诞的场景:模特们依次穿着“云朵裙”“火烧云裙”“树叶裙”,头顶三台电视屏幕,胸前一架大时钟等等……
该网友感叹:“Gen-3生成的结果太疯狂。AI时装秀将成为热门话题!”
但时装秀视频也体现出,Gen-3对现实物理规律理解得还不到位:有个镜头是,一个模特180度翻转身去,结果又出现同一个模特的脸,再翻身又是另一位模特——成了诡异的双面人甚至三面人。
根据博主“数字生命卡兹克”提供的测试片段,Gen-3虽然对于人物特写中的人脸的一致性等上一代视频模型广泛存在的问题已经解决的比较好了,但是在一些细节的处理上依然还是存在类似于“穿模”,“人机合一”等各种和现实世界不吻合的情况。
特别是在多人物和复杂的背景下,很多细节依然没法直接用来制作视频,内容会随着视频的发展而逐渐离谱起来。
而这个人脸方向和运动方向前后不统一的片段,也说明,视频生成模型要能真正理解现实世界,还有很长的路要走。
所以,虽然演示视频中展示出模型有能力呈现物理世界中的光影,运动等客观规律,但用户实际使用的体验来看,模型能力的边界依然很明显。未来,也许所有视频模型,都还需要在底层做很多的工作,才能让用户真的按照自己的构思,生成出效果完全可控和正确视频。
因此计算机科学家杨立昆(Yann LeCun)会说:“视频生成模型不理解基本物理学。”
△图源:X(@ylecun)
杨立昆表示:“毫无疑问,视频生成系统会随着时间的推移而变得更好。真正理解物理的学习系统将不是生成式的。所有的鸟类和哺乳动物,比任何视频生成系统更了解物理学。然而,它们都无法生成详细的视频。”
△图源:X(@ylecun)
与Sora一战
那么Gen-3跟其他文生视频模型相比,战斗力如何?
一名国外网友将Gen-3与文生视频模型界的标杆型选手Sora进行了对比,在不少案例中,视频的清晰度、运镜的流畅度、对现实世界的理解和模拟程度上,Gen-3都可与Sora比拼。
在之前Sora的经典demo“东京街头散步女人”中,在同样的提示词下,Runway生成了一版人物衣着和街景都更明艳的视频。
在另一段经典提示词下,Runway甚至生成了镜头调度比Sora更丰富的视频。
经典提示词:“镜头围绕一大堆老式电视旋转,所有电视都显示不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等,背景设置在纽约一家大型博物馆画廊。”
除了标准版本外,Runway 表示正在与娱乐和媒体公司合作开发 Gen-3 的定制版,定制版将提供更好的风格控制、人物角色一致性,并满足特定要求。
从实测结果上看,Runway与Sora的差距进一步缩小了,而且不同于Sora依然处于期货状态,Gen-3是一个每个人都能上手使用的产品。文生视频模型领域,将会继续酣战。