ControlNet VS GEN-1 :谁将成为AIGC的新范式?
今天早上在网上看到了一张梗图,忽然想起来半个月前申请了 runway 的AI新视频生成工具的内测,这个视频工具叫 GEN-1,在 ControlNet 发布前大家都对它期待很高,但是 ControlNet 出现后,现在大家的注意力都 ControlNet 被吸引了。
之前发布的几篇文章已经介绍过 ControlNet 了,这里就不赘述了,大家不清楚的话可以看看我前面的文章:
游戏要结束了:ControlNet正在补完AIGC工业化的最后一块拼图
另外西乔老师今天发布的一篇关于ControlNet的介绍文章也非常详尽:
精确控制 AI 图像生成的破冰方案,ControlNet 和 T2I-Adapter
接下来我来介绍一下什么是 GEN-1。
RUNWAY 的 GEN-1
RUNWAY 这家公司其实一直都是在做AI视频生成工具,并且 stable diffusion 的初代版本都是他们公司参与的研发,后面因为 stable diffusion 背后的公司(金主) Stability AI 因为这个项目估值飙升,内部团队出现裂痕,所以后面才出现了 stable diffusion V1.5 被 RUNWAY抢先发布这种狗血的事情,后面虽然平息了,但是RUNWAY这家公司一直在憋大招,GEN-1 就是他们想要颠覆AI生成领域的产品。
这个产品在2月6日开始内测,虽然我2月7日就申请了,但是自己和周围的人都没有听说有拿到内测的。
GEN-1 的官方地址:https://research.runwayml.com/gen1
GEN-1 的论文:https://arxiv.org/abs/2302.03011
下面是他们官网的介绍视频:
GEN-1 一共包含五个模式。
GEN-1 的早期测试案例
ControlNet 的视频工作流
ControlNet 本身并不是专门为视频工作服务的,只是控制网的特性给视频风格迁移提供了一个便利的可能。
想要用 ControlNet 制作具有风格迁移的视频目前一共有三种方法:
1 将原视频一帧一帧的导出,然后使用 ControlNet 转换每一张图片的风格,这个是最繁琐的方式,下面这个视频就是用这种方式制作的。
来源:https://twitter.com/creator_kachun/status/1626937512370536449
2 跟 EbSynth 结合,通过使用 ControlNet 生成关键帧,来制作视频,下面是几个通过这种方式的案例。
3 使用之前提到的开源工具 ControlNet-Video 生成
https://huggingface.co/spaces/fffiloni/ControlNet-Video
GEN-1 与 ControlNet 优缺点对比
1 费用
GEN-1: 费用未知,但不会少。不管怎么样,Runway 都是一家公司。
ControlNet:免费开源。
2 效果对比
说实话两个效果都挺好的,并且 ControlNet 因为有SD开源的支持,可以调用非常多风格的微调模型。而 GEN-1 的风格不知道是否能够对接的上,如果只是用他们自研的模型,那确实会挺无聊的。
3 使用的方便程度
虽然我没有用过GEN-1,但是相信在视频工作流的整合上Runway沉淀了多年,肯定比ControlNet 要便捷。
4 未来的潜力
开源的最大意义就是会快速的被大量的使用,嫁接和功能验证,从而成长。在这一点上,一直磨磨唧唧开放测试使用的 GEN-1 远不是 ControlNet 的对手。未来肯定会有基于ControlNet 技术制作的视频生成工具,而且会遍地开花,就跟当初的 Stable Diffusion 一样。
所以综合来看,除了工作流的便利程度,GEN-1 在其他方面都比不过 ControlNet 。半个月了 ControlNet 的论文在 GEN-1 的论文发布后四天发布,短短的一个星期全球大量用户去做尝试,同时开源社区也在基于ControlNet 做各种相关产品的实验,而这个时候 Runway 在干什么呢?我在他们的社群找到了下面的对话:
所以下面这张图挺符合事实的,不能怪AI艺术家见异思迁。
Runway 作为一家老牌的人工智能公司,在参与了改变行业的 stable diffusion 的研发,但是因为种种原因大家只记住了 Stability AI 这家公司。今年痛定思痛发布了本来挺棒的 GEN-1 正要掀起热度,结果论文发表没几天,一个来自中国的20出头的博士生发布了 ControlNet,还把它开源了。
Runway 真是太惨了。