查看原文
其他

AI视频的世纪难题被解决了,我愿称Vidu为一致性的新王

AI沃茨 卡尔的AI沃茨
2024-11-25

文末彩蛋进度条 9️⃣9️⃣%

 生成式AI缺少的是控制能力。虽然我们能在几秒钟内生成照片级真实的场景,但我们还缺乏传统图形学研究几十年积累的精确控制能力。

-- Cristóbal Valenzuela

我们是幸运的,

AI 视频生成技术突破不到两年,

就能在几秒钟内生成各种类型的场景。

但在不断的探索中,

我们也是苦恼的,

AI 视频缺少可控性,让很多产出成为一个概率性事件。

无法复现、重复抽卡都是我制作 AI 视频时触发率高达99%的问题。


不同图片中的人物细节多处不一致


这也就导致了现在的 AI 视频宣传片制作会将大量的时间耗费在反复调整一致性的过程中,

说实在的,真的很磨人心神。

简单的分析一下,AI 控制分摊给 AI 生图和 AI 视频生成,我要先抽卡图片,保证画面里的主体元素尽可能的一致,

再抽卡视频,确保画面主体的运行是正确的。

听起来很麻烦是不是?

而上周 Vidu1.5 带来了一项新能力:

多主体一致性

我们先来看一波效果:



上面的视频,我实际生成不过花了五分钟,先网上找了三张我需要的图,

马斯克,甄嬛,皇宫 or 马斯克,花棉袄,热炕头,

放到Vidu里,再来一个小学生造句一样简单的提示语,

Bingo!视频出炉。

成品对于图片中主体以及元素的复现,我真的敢说是现在一致性里最强!

这种新的视频控制范式带来了 AI 视频的新玩法。

体验了三天后,我总结出了三种玩法,马不停蹄的整理了详细的操作步骤分享给大家:


 一、人物建模 



第一种玩法,

我可以上传人物的正面、侧面、背面三张图,来固定人物各个角度的细节,然后给个提示词,点击生成。

图中的人物,就这样水灵灵的动了起来。同样的操作,我们可以生成更多不同风格的效果。


再尝试几组不同风格的人物,看看vidu的展现:




辣评一下:我尝试生成了不同风格的人物图片,生成的视频都能近乎完美的复刻原图的风格、人物细节,甚至补充生成的背景和元素都和原图契合度非常高。


 二、AI QQ秀 



第二种玩法直接就是用 Vidu 炫技,

我可以上传人物、服装和背景图,

为了保证人脸清晰,可以选择人物图片中的主体并框选面部,


然后用提示语写好【人物】【穿着什么样的衣服】【在哪里】【做什么】,点击生成,


这个马斯克穿着大花棉袄在东北火炕上吃面条儿的视频就完成了。

简单的就像小学生造句!

马斯克还可以穿着各种各样的衣服在热炕头做各种事情⬇️


辣评一下:这怎么可以不算 AI 界的 QQ 秀呢!

这个玩法在体验时,真的玩嗨了,对于各种类型衣服的复刻都和原图一致性非常高,而且穿在人物身上几乎没有违和感!


 三、多人物互动 

制作AI视频过程中,一直有个“雷点”,

就是主体增加之后,控制难度指数上涨,

换句话说,控制一个人物的一致性就已经很困难了,多人物就是难上加难,就更别说还让多人物保持一致性互动了。

但今天,Vidu 给我解决了!

Vidu 的多主体一致性支持在三张图中,两张上传不同人物的主体,在上传一张背景,

点击生成,这样两个人物在这个背景中运动的视频就这样实现了!


辣评一下:人物不仅一致性超强,而且互动也很自然,在场景中的动作非常流畅。

在学习了原图的特点后,生成出的背景风格也很一致。

搞了个马斯克陪甄嬛传各种人物逛街,讲道理,我感觉马斯克快被玩坏了。。。






 写在最后 

现代图形学是先解决了控制问题再解决的渲染质量问题,

AI 发展反其道而行之,先解决了渲染质量问题,而后才是控制问题。

正如文章开头提到的,

控制能力到来之际,

就意味着 AI 内容生成将成为创意表达基础工具。

真的就是人人都是导演。

而 Vidu 这次将图生视频玩出花来了,

除了我们上面提到的几种玩法,

还能探索出更多有趣的效果。

比如,人物面部图+背影图,搭配转身的提示语就可以实现这样的:

多主体不同角度图片的上传,同样也可以稳固各个主体的细节,


对我来说,甚至可以丢掉部份文字提示,来完成视频生成,

这种生成方式更符合我们直觉。

国产大模型在不断的卷起新风浪,

未来的“提示语”不会局限于文字,

图片、视频、音频都可以作为输入,实现你的灵感。

困难不会一直困难,

想象永远可行,

这,是我想要的自由。


@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……

今日份的彩蛋码是🎲🎲🎲 公众号回复vidu

继续滑动看下一个
卡尔的AI沃茨
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存