AI视频的世纪难题被解决了,我愿称Vidu为一致性的新王
生成式AI缺少的是控制能力。虽然我们能在几秒钟内生成照片级真实的场景,但我们还缺乏传统图形学研究几十年积累的精确控制能力。
-- Cristóbal Valenzuela
我们是幸运的,
AI 视频生成技术突破不到两年,
就能在几秒钟内生成各种类型的场景。
但在不断的探索中,
我们也是苦恼的,
AI 视频缺少可控性,让很多产出成为一个概率性事件。
无法复现、重复抽卡都是我制作 AI 视频时触发率高达99%的问题。
不同图片中的人物细节多处不一致
这也就导致了现在的 AI 视频宣传片制作会将大量的时间耗费在反复调整一致性的过程中,
说实在的,真的很磨人心神。
简单的分析一下,AI 控制分摊给 AI 生图和 AI 视频生成,我要先抽卡图片,保证画面里的主体元素尽可能的一致,
再抽卡视频,确保画面主体的运行是正确的。
听起来很麻烦是不是?
而上周 Vidu1.5 带来了一项新能力:
多主体一致性
我们先来看一波效果:
上面的视频,我实际生成不过花了五分钟,先网上找了三张我需要的图,
马斯克,甄嬛,皇宫 or 马斯克,花棉袄,热炕头,
放到Vidu里,再来一个小学生造句一样简单的提示语,
Bingo!视频出炉。
成品对于图片中主体以及元素的复现,我真的敢说是现在一致性里最强!
这种新的视频控制范式带来了 AI 视频的新玩法。
体验了三天后,我总结出了三种玩法,马不停蹄的整理了详细的操作步骤分享给大家:
一、人物建模
第一种玩法,
我可以上传人物的正面、侧面、背面三张图,来固定人物各个角度的细节,然后给个提示词,点击生成。
图中的人物,就这样水灵灵的动了起来。同样的操作,我们可以生成更多不同风格的效果。
再尝试几组不同风格的人物,看看vidu的展现:
辣评一下:我尝试生成了不同风格的人物图片,生成的视频都能近乎完美的复刻原图的风格、人物细节,甚至补充生成的背景和元素都和原图契合度非常高。
二、AI QQ秀
第二种玩法直接就是用 Vidu 炫技,
我可以上传人物、服装和背景图,
为了保证人脸清晰,可以选择人物图片中的主体并框选面部,
然后用提示语写好【人物】【穿着什么样的衣服】【在哪里】【做什么】,点击生成,
这个马斯克穿着大花棉袄在东北火炕上吃面条儿的视频就完成了。
简单的就像小学生造句!
马斯克还可以穿着各种各样的衣服在热炕头做各种事情⬇️
辣评一下:这怎么可以不算 AI 界的 QQ 秀呢!
这个玩法在体验时,真的玩嗨了,对于各种类型衣服的复刻都和原图一致性非常高,而且穿在人物身上几乎没有违和感!
三、多人物互动
制作AI视频过程中,一直有个“雷点”,
就是主体增加之后,控制难度指数上涨,
换句话说,控制一个人物的一致性就已经很困难了,多人物就是难上加难,就更别说还让多人物保持一致性互动了。
但今天,Vidu 给我解决了!
Vidu 的多主体一致性支持在三张图中,两张上传不同人物的主体,在上传一张背景,
点击生成,这样两个人物在这个背景中运动的视频就这样实现了!
辣评一下:人物不仅一致性超强,而且互动也很自然,在场景中的动作非常流畅。
在学习了原图的特点后,生成出的背景风格也很一致。
搞了个马斯克陪甄嬛传各种人物逛街,讲道理,我感觉马斯克快被玩坏了。。。
写在最后
现代图形学是先解决了控制问题再解决的渲染质量问题,
AI 发展反其道而行之,先解决了渲染质量问题,而后才是控制问题。
正如文章开头提到的,
控制能力到来之际,
就意味着 AI 内容生成将成为创意表达基础工具。
真的就是人人都是导演。
而 Vidu 这次将图生视频玩出花来了,
除了我们上面提到的几种玩法,
还能探索出更多有趣的效果。
比如,人物面部图+背影图,搭配转身的提示语就可以实现这样的:
多主体不同角度图片的上传,同样也可以稳固各个主体的细节,
对我来说,甚至可以丢掉部份文字提示,来完成视频生成,
这种生成方式更符合我们直觉。
国产大模型在不断的卷起新风浪,
未来的“提示语”不会局限于文字,
图片、视频、音频都可以作为输入,实现你的灵感。
困难不会一直困难,
想象永远可行,
这,是我想要的自由。
@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro
最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……
今日份的彩蛋码是🎲🎲🎲 公众号回复vidu