16句描述,生成11分钟动画!「女娲」系列新成员:超长视频生成模型NUWA-XL
The following article is from 微软亚洲研究院 Author 编辑部
新智元报道
新智元报道
【新智元导读】近期,微软亚洲研究院 NUWA 多模态生成模型家族迎来了新成员——NUWA-XL,其以创新的 Diffusion over Diffusion 架构,首次实现了高质量超长视频的并行生成,为多模态大模型提供了新的解题思路。
输入16句简单描述就能生成一段长达11分钟的动画片?
没错!微软亚洲研究院提出的超长视频生成模型 NUWA-XL 可以根据文字自动生成高质量动画作品。
让我们先来看一看这段由 NUWA-XL 生成的动画片吧!
早在多年前,微软亚洲研究院就开始了包括图像和视频在内的视觉生成方面的研究,并于2021年推出了多模态生成模型 NUWA。NUWA 可以通过自然语言指令实现文本、图像、视频之间的生成、转换和编辑,为视觉内容创作提供灵感。
论文地址:https://arxiv.org/abs/2111.12417
随后推出的 NUWA 升级版——无限视觉生成模型 NUWA-Infinity,则可以支持更高分辨率的图像和短视频生成任务,让视觉艺术创作趋于「无限流」(还记得那个无限延展的 Windows 桌面吗?)。
论文地址:https://arxiv.org/abs/2207.09814
随着视频行业需求的增长和技术的发展,近两年人工智能在视频生成方面取得了一定的进展,然而,大多数模型还仅能够生成3到5秒左右的短视频。但在实际应用中,人们所需的视频通常要比5秒长得多,例如,一部电影通常持续在90分钟以上,一集动画片往往也超过20分钟,即使是常见的短视频时长也多在30秒以上。因此,超长视频的快速生成对于人工智能来说仍然是一个巨大的挑战。
当前,长视频生成的多数方法是采用「Autoregressive over X」架构,「X」表示任何能够生成短视频片段的生成模型,包括 Phenaki 、TATS 、NUWA-Infinity 使用的自回归模型 (Autoregressive Models),或者 MCVD、FDM、LVDM 使用的扩散模型(Diffusion Models)。这些方法的主要思想是在短视频片段上训练模型,再通过推理,像滑动窗口一样自回归的自左向右生成长视频。
由于在训练时只需要短视频数据,「Autoregressive over X」架构在一定程度上降低了对长视频数据的要求,但微软亚洲研究院的研究员们发现了这种方法存在的问题:
首先,在短视频上进行训练再推理出长视频,会导致巨大的训练-推理差距(Train-Inference Gap)。也就是说,这种方法只知道所生成长视频的开始和结尾的故事信息,视频中间的情节则完全依赖前一段小视频的再推理,这种状态不断叠加之后就会导致不真实的、扭曲的镜头变化。缺乏长视频数据的训练,还会让模型生成的视频存在帧与帧之间不连贯以及故事情节无法逻辑自洽等问题。
其次,由于滑动窗口的依赖性限制,模型只能顺序自左向右生成视频,无法并行推理,因此需要花费更长的时间。例如,TATS 需要7.5分钟才能生成1024帧,而 Phenaki 需要4.1分钟。
全新Diffusion over Diffusion架构,「从粗到细」的生成过程
分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。NUWA-XL 会先生成类似于连环画的关键帧,既加强了场景切换又保证全局内容的统一,再在关键帧之间生成更多帧画面。同时,模型从 L 到 L^m 的每一层关键帧还支持文字提示生成关键帧,极大地确保了视频情节的连续性。
模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。
由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。
长视频生成的时间、质量和连续性均获得最优性能
NUWA-XL为人工智能视频生成提供新思路