开源免费!冲上HuggingFace趋势榜第一,快手最新图生视频模型快被网友玩包浆了
卷完产品,卷开源,快手最近推出的另一款视频模型快被网友玩包浆了。
大叔变身美少女:
OBS实时套皮直播不露馅:
AI视频中的人物对话口型也愈发自然。背后的工作流是:Midjourney+可灵+LivePortrait,其中LivePortrait负责口型同步。
来源:X博主“el.cine”
⚠️注意,视频有声音建议佩戴耳机食用
融入3D工作流:Tripo3D+可灵+LivePortrait。3D可以让创作者更自由地创建不同的场景、照明和视野。
LivePortrait是快手可灵大模型团队近期推出的一款开源可控人像视频生成框架。自开源以来,LivePortrait迅速在AI圈走红。截至目前,它在GitHub上已经获得了9.1K星标,并在HuggingFace的应用趋势榜上位居第一。
以上几段视频中动态的人物表情和说话时自然的嘴部动作,都是由LivePortrait驱动生成的。
目前,LivePortrait的论文代码已开源,可以在线体验或根据GitHub上的教程部署到本地使用。(相关链接已整理同步至文末)
在开源社区的支持下,LivePortrait形成了一套Comfyui工作流。不仅能够对直播中的人物表情进行近乎实时的控制,还支持以V2V视频编辑的方式,将参考视频的人物表情移花接木到另一个视频中,堪称新型赛博“换头术”。
通过摄像头实时控制蒙娜丽莎:
AI爆改经典电影《黑客帝国》,救世主尼克化身喜剧人,严肃科幻打斗秒变喜剧片:
Comfyui插件地址:
github.com/kijai/ComfyUI-LivePortraitKJ
除了无限逼近“实时”的快速生成能力,应用在直播、视频制作等场景中,LivePortrait最大的亮点是突破了以往AI视频生成中常见的人物表情不自然、口型不匹配等问题。
HuggingFace首席战略官Thomas Wolf亲自下场体验,一张自拍照+参考动态视频,口型表情神同步,带给了他神奇的“WOW”时刻。
电影导演、X博主“EHuanglu”近日也发文盛赞LivePortrait是“市场上最好的口型同步软件”。
LivePortrait真有那么神奇吗?我们上手实测了一波。
让AI特朗普模仿拜登“歪嘴笑”,
新一代鬼畜神器来了
在HuggingFace上,找到LivePortrait项目,点击进入在线体验网页,即可无限畅玩。
不过,由于排队体验的人不少,有时会因平台算力资源紧张而无法成功生成视频,需要多尝试几次,有硬件条件的玩家可部署到本地使用。
进入LivePortrait项目主页,目前提供图生视频和图生图两种玩法。
我们从图生视频测起。LivePortrait的图生视频操作步骤很简单:
首先,选择一张高清的正面人像照片作为素材;
其次,准备一段参考视频,用于驱动人像的表情和头部动作,要求视频横纵比为1:1(可用剪映裁剪处理),为了保证生成效果,视频应专注于头部,尽量减少肩部运动,第一帧为中性表情;
最后,点击“Animate”按钮生成视频,生成完成后,点击“Download”按钮可下载视频。
如果懒得找素材,也可以直接用官方提供的示例图片或参考视频,随机组合看看效果。
最近自带“网红体质”的川普再度翻红,我们上传了一张他的静态照片给AI,并随机选择了一个官方参考视频进行测试。
最终生成的视频几乎没有“破绽”,彷佛画面中“偷感很重”的川普真是实拍的。
左边为参考视频、中间为上传图片、右边为生成视频
AI川普既没有“歪脸”,眼睛与嘴巴的运动也符合参考视频要求,甚至笑起来时人物的面部肌肉运动也相当自然。
虽然细看之下可以发现,AI川普的牙齿部分出现了细微的闪影现象,但整体的生成视频效果足以以假乱真。
川普和拜登最近的首场总统竞选辩论,四年一度的“两老二辩日”,我们也让AI魔改了一下。
拜登的经典表情——“人无语了真的会笑”,换到川普脸上会怎么样?
别说,还真有“歪嘴战神”邪魅狂狷那味儿。
与图生视频相比,LivePortrait的图生图操作就更简单了。只需上传你想整活的图片,调节眼睛、嘴巴等部位的张合比例值,可以让图中人物的眼睛或嘴巴相应地张得更大。
比率值设置得越高,眼睛和嘴巴的张合程度也就越大。
AI时代,整蛊名人的创作成本可以说是越来越低了。
目前,HuggingFace在线体验暂不支持V2V视频编辑。对此有需求的玩家可以考虑本地部署LivePortrait模型,并结合开发者Kijai推出的Comfyui插件进行使用。
开源免费,才是真·量大管饱。
逐梦AI视频赛道,“黑马”快手的突围
一键让照片“动”起来这种玩法并不算新鲜。
阿里早前推出了Animate Anyone和Emote Portrait Alive(简称Emo)两款人物动作和表情生成框架,并将它们整合到“全民舞台”APP中,形成了一键让人物跳舞、唱歌的AI视频热门玩法。
与阿里EMO不同,快手推出的LivePortrait放弃了当前主流基于扩散模型的技术路线,而是采用了隐式关键点框架。
阿里EMO采用的稳定扩散方案,通过逐步引入和去除噪声在潜在空间中生成一帧帧图像。
LivePortrait的隐式关键点框架利用一组抽象特征来捕捉图像的关键信息。关键点通常对应面部特定部位,如眼角、嘴角、鼻子等,其位置和变化可以驱动面部表情和头部运动。
通过操作关键点,模型可以精确地控制面部运动细节,实现平滑和逼真的视频生成效果,并在从未见过的图像处理上表现优异。
在“AI新榜”早前的测试中,EMO模型生成的视频仍能看出明显的AI痕迹。
同样一张图片,看看LivePortrait生成的效果。
可以明显看到人物表情处理更自然,但比较可惜的是,现阶段LivePortrait只针对头部生成动态视频。不过,对于鬼畜整活一类的视频来说,AI生成的视频效果质量肉眼可见地变得越来越好了。
此外,扩散模型方案由于需要逐步去噪的步骤较多,通常难以做到实时的高质量视频生成。
而LivePortrait模型可以做到近乎实时生成效果不错的人物面部视频。官方称在RTX 4090 GPU上使用PyTorch,模型生成速度显著达到12.8毫秒,在生成速度和质量上都极具竞争力。
LivePortrait方法与其他现有方法进行比较
这也是为什么网友整新活儿,可以用LivePortrait模型丝滑实现OBS套皮直播。
从技术路线的选择,可以看出快手想要攻克的是AI视频生成的关键难题——人物面部表情的生成。
有业内人士推测,这项技术可能早就接入可灵模型落地应用了一段时间了。之前备受瞩目的国内首部AIGC奇幻短剧《山海奇镜》制作人陈坤曾向我们表示,目前可灵的图生视频功能可能是现阶段所有产品中效果最好的。
《山海奇镜》的制作由可灵提供技术支持。虽然在大场面特效处理上为人所称道,但也不乏一些批评的声音,认为该短剧中的人物面部表情僵硬、表演没有感情。
陈坤也坦言,之后对AI影视的探索会更注重在人物表演上。
据快手官方称,LivePortrait的相关技术点,已在快手的诸多业务完成落地,包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年轻人的噗叽APP等。
接下来LivePortrait会基于可灵基础模型,进一步探索多模态驱动的人像视频生成。
今年6月初,快手可灵横空出世,一路从国内火到国外。在这种“鲶鱼效应”的推动下,国外AI初创公司Luma推出了Dream Machine视频模型,AI视频赛道头部玩家Runway也更新了其Gen-3模型。
从产品研发到可灵正式上线,快手只花了三个月。
目前,快手可灵已向全球用户开放,并推出了订阅付费模式,正式开启了产品的商业化进程。
而快手对此的技术探索也不是一蹴而就的,最早可以追溯到2023年10月的内部项目“噗叽”:一款将静态图片通过AI生成2s Gif表情包的工具软件。
未来,LivePortrait所代表的人像生成技术会如何落地应用在可灵基础模型上,值得我们期待。
Github地址:
https://github.com/KwaiVGI/LivePortrait
论文链接:
https://arxiv.org/abs/2407.03168
项目主页:
https://liveportrait.github.io/
HuggingFace在线体验:
https://huggingface.co/spaces/KwaiVGI/LivePortrait