查看原文
其他

Runway和Luma又打起来了!Yann LeCun炮轰:你们再牛,也不是「世界模型」

关注AI的 机器之能
2024-09-05
机器之能报道编辑:杨文
以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。

因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   

我们也欢迎读者投稿亲自实践的创新型用例。
AI 视频界又「打」起来了!
6 月 29 日,著名生成式 AI 平台 Runway 宣布,其最新模型 Gen-3 Alpha 向部分用户开启测试。
同一天,Luma 推出关键帧新功能,并向所有用户免费开放使用。
可谓是「你有张良计,我有过墙梯」,二者斗得不亦乐乎。

这可把网友们高兴坏了,「6 月,多么美好的一个月!」

「疯狂的 5 月、疯狂的 6 月,疯狂到根本停不下来!」


-1-
Runway超绝镜头,干掉好莱坞
两周前,AI 视频「王者」Runway 祭出全新视频生成模型 Gen-3 Alpha 时,就预告 ——
将在「几天内」首先向付费用户提供,免费版本也将在未来某个时间点向所有用户开放。

6 月 29 日,Runway 兑现承诺,宣布其最新推出的 Gen-3 Alpha 向部分用户开启测试。
Gen-3 Alpha 之所以备受追捧,是因为它与上一代相比,无论在光影、质量、构图,还是文本语义还原、物理模拟、动作一致性等方面,均实现大幅度提升,就连宣传语都是「For artists,by artists(为艺术家而生,由艺术家而生)」。

Gen-3 Alpha 效果究竟咋样?向来整花活的网友最有发言权。接下来请欣赏——
一个可怕的怪物从伦敦泰晤士河升起的电影镜头:
一只悲伤的泰迪熊在哭泣,哭到伤心处还拿纸巾擤鼻涕:
身穿华丽礼服的英国女郎,行走在古堡耸立的大街上,旁边有疾驰的车辆、缓行的马匹:
一个巨大的蜥蜴,全身镶嵌着华丽的珠宝、珍珠,穿过茂密的植被。蜥蜴在光线下闪闪发光,画面逼真程度堪比纪录片。
还有一只满身红蓝宝石的镶钻蛤蟆:
夜晚的城市街道,雨水泛起霓虹灯的倒影。
镜头从水坑中反射的灯光开始,缓缓升起,展现出那发光的霓虹广告牌,随后继续向后拉远,呈现出整条被雨水浸湿的街道。
镜头的移动:一开始对准水坑中的倒影,接着一气呵成向上提起,向后拉开,以展现这雨夜的都市风光。

培养皿中生长的黄色霉菌,在暗淡而神秘的灯光下,呈现出冷色调,动态感十足。
秋天的森林中,地面被各种橙色、黄色和红色的落叶覆盖。
轻风拂过,镜头紧贴地面向前推进,一阵旋风开始形成,将落叶卷起,形成一道螺旋。镜头随着落叶升起,绕着旋转的落叶柱旋转

从满是涂鸦的隧道的低视角开始,镜头平稳地沿着道路推进,穿过一段短而暗的隧道,镜头在另一侧出现后迅速升高,展现出一大片五彩缤纷的野花田,周围是雪山环绕。

一个弹钢琴的特写镜头,手指在琴键上跳跃,没有手部畸变,动作流畅,唯一的不足是,无名指上没有戒指,但影子「无中生有」。
网友们的整活还炸出了 Runway 联合创始人 Cristóbal Valenzuela,他为自创的蜜蜂相机生成了一段视频。
把相机安在蜜蜂背上,拍出来的景儿是这样的:

安在蜜蜂脸上是酱紫的:

那么,这个袖珍相机长啥样呢?
AI 再这样进化下去,好莱坞的演员们又要闹罢工了。

-2-
Luma的关键帧新功能,画面过渡丝滑
6 月 29 日,Luma AI 推出了关键帧功能,而且大手一挥,直接向所有用户免费开放使用。
用户只需上传起始和结束图片,并添加文字描述,Luma 就能生成具有好莱坞级别的特效视频。
例如,X 网友 @hungrydonke 上传了两张关键帧照片:
然后输入提示词是:A bunch of black confetti suddenly falls(突然,一堆黑色纸屑纷纷扬扬地落下来)效果如下 ——
网友 @JonathanSolder3 先用 midjourney 生成两张图片:
接着使用 Luma 关键帧功能生成一段超级赛亚人变身的动画。据作者介绍,Luma 不需要增强提示,只输入「超级赛亚人」即可。

还有网友使用该功能完成每一个镜头过渡,从而将经典童话进行混搭生成一段名为《The Wolf, The Warrior, and The Wardrobe》动画。

魔鬼变天使:
橘子变小鸡:
星巴克 logo 变身:
还有网友将 20 个梗图利用 Luma 进行无缝衔接:

AI 视频界战况如此焦灼,天晓得 Sora 怎么这么沉得住气,到现在都不露面。

-3-
Yann LeCun「炮轰」:它们压根不懂物理
早在年初 Sora 发布时,「世界模型」一下子成了火热的概念。
后来,谷歌的 Genie 也打出「世界模型」的旗号,这次 Runway 推出 Gen-3 Alpha 时,官方称「朝着构建通用世界模型迈出了重要一步」。
到底啥是世界模型呢?
其实这并没有一个标准的定义,但 AI 科学家们认为,人和动物会潜移默化地掌握世界的运作规律,从而可以「预知」接下来发生的事情并采取行动。世界模型的研究就是让 AI 学习这种能力。
很多人认为,Sora、Luma、Runway 等应用生成的视频相当逼真,还能按照时间顺序往后生成新的视频内容,它们似乎学会了「预知」事物发展的能力。这与世界模型研究追求的目标不谋而合。
不过,图灵奖得主 Yann LeCun 一直「泼冷水」。
他认为,「根据提示产生看起来最真实的影片并不代表系统理解物理世界,生成与世界模型的因果预测有很大不同。
7 月 1 日,Yann LeCun 连发 6 条帖子炮轰视频生成模型。
他转发了一个 AI 生成体操的视频。视频中的人物要么脑袋凭空消失,要么惊现 4 条腿,各种奇葩画面满天飞。

Yann LeCun 称,视频生成模型并不理解基本的物理原理,更不用说人体结构了。

「Sora 和其他视频生成模型都有类似的问题。毫无疑问,视频生成技术会随着时间的推移而变得更加先进, 但是,真正理解物理的优秀世界模型不会是生成式的。所有的鸟类和哺乳动物都比任何视频生成模型更懂物理,然而它们中没有一种能生成详细的视频。」Yann LeCun 说。
有网友质疑:人类不正是根据对物理的理解,在脑海中不断生成详细的「视频」吗?
Yann LeCun 线上答疑,「我们构想的是可能发生的抽象情景,而不是生成像素图像。这就是我想表达的观点。
还有网友认为,鸟类和哺乳动物的大脑时刻在生成详细的「视频」,只是它们无法将其外化展现出来。
Yann LeCun 反驳道:不,它们不会。它们只是生成可能发生的抽象情景,这和生成详细的视频有很大的区别。
以后我们会通过新专栏带来更多 AIGC 案例演示,也欢迎大家进群交流。





© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
继续滑动看下一个
机器之能
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存