前面的文章《AI绘画新技术:Pix2Pix动动嘴改视频来了!》介绍了Pix2Pix Video通过文本修改视频的技术,《AI绘画:如何在WebUI中安装ControlNet模型》《AI绘画最强模型:基于ControlNet实现图像扩散控制!》介绍了ControlNet的强大功能,当时提到了今年文本生成图像领域的任何技术进步,都会很快迁移到视频生成中,留言就有朋友问如何使用ControlNet技术生成视频。最近有开发者将ControlNet技术和Pix2PixVideo技术结合,开发了支持ControlNet的视频生成在线演示版。
使用界面很简单,将原始视频导入,首先会将视频拆解成帧序列,并使用ControlNet中的Openpose模型检测出人体pose图,随后根据文本生成新的人像,由于有了pose图的控制,可以使人体姿势保持不变。下面看一下我做的演示版。演示版仅包含了Canny、Depth、Pose三种模型,适合不同类型的内容生成。当然最受欢迎的肯定是使用Pose模型对人体动作进行控制。上面这个舞蹈视频使用的是Pose模型。演示版地址:https://huggingface.co/spaces/fffiloni/ControlNet-Video由于只是演示版,最多只能生成5秒的视频,而且由于使用人数较多,生成速度很慢,经常会失败,参数也没有多少调整的余地,最终生成的视频还不够平滑,仅供大家体验在ControlNet支持下,视频内容有了很大的可控性。
如果你只是想尝试一下,到这里就可以了。如果你还想使用任意自己喜欢的模型,例如最近很火的各种亚洲真人模型,包括各种Lora模型。还想自定义视频大小,时长等参数,可以选择加入我的专栏继续阅读。我将介绍一种使用全功能WebUI界面的 AUTOMATIC1111生成视频的方法,不论是本地版还是在线Colab版,都可以按照我下面的教程生成视频。
下面两个视频就是按照后面介绍的方法生成,分别采用了Canny模型和OpenPose模型,视频仅做演示,分辨率较低,感兴趣的朋友可以加入专栏一同学习。上面两个视频可以看到,近距离特写镜头的肖像,可以保持很好的流畅度。远距离人像全身流畅度稍差,这是因为我用的是通用模型,如果你想提高全身人像的效果,可以使用现在流行的真实人像模型解决。需要提醒的是,由于视频生成涉及到的参数较多,使用较复杂,所以教程也较长,需要有一定耐心和学习能力的朋友学习。