【源头活水】CVPR 2021 | LapStyle - 基于拉普拉斯金字塔的高质量风格化方法

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—林天威

地址：https://zhuanlan.zhihu.com/p/384504389

这篇专栏主要介绍我们团队（百度视觉技术部视频理解与编辑组）发表于CVPR 2021上的工作：”Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer“。这篇论文主要针对当前的前馈风格化网络对于复杂的风格纹理迁移不理想的问题，提出了一种基于拉普拉斯金字塔的风格化网络，在风格化速度和质量上均有很大的提升，是我们在风格化方向的第一篇工作。相关的代码已经开源在PaddleGAN 欢迎大家试用和star。

https://github.com/PaddlePaddle/PaddleGAN/blob/develop/docs/en_US/tutorials/lap_style.md

Motivation

艺术风格迁移是指将一张风格图中的颜色和纹理风格迁移到一张内容图上，同时保存内容图的结构。相关算法在艺术图像生成、滤镜等领域有广泛的应用。基于深度学习的风格化方法较传统方法有很大的提升，大致可以分类为基于优化的方法（无需训练，对于每张图需要通过优化的方法来生成结果）和基于前馈网络的方法（需要训练，预测时通过网络前馈生成结果）。目前基于前馈网络的风格化算法存在纹理迁移不干净、大尺度复杂纹理无法迁移等缺点；而目前基于优化的风格化方法虽然质量较高，但速度很慢。

因此本文提出了一种能够生成高质量风格化图的快速前馈风格化网络——拉普拉斯金字塔风格化网络（LapStyle)，其核心思想是在低分辨率下迁移复杂纹理，再在高分辨率下对纹理的细节进行修正。如头图所示，我们的方法能渐进地生成复杂的纹理迁移效果，同时能够在512分辨率下达到100fps的速度。为了追求更好的风格化效果，我们也牺牲了一部分灵活性，LapStyle 是一个单风格网络，目前不支持任意风格化。

LapStyle Network

算法框架

LapStyle 网络最初的想法来自于实验中的一个观察：在低分辨率图像上更容易对结构复杂的大尺度纹理进行迁移，而在高分辨率图像上则更容易对局部小尺度纹理进行迁移。因此我们将算法分为Drafting Network 和Revision Network。其中Drafting网络首先在低分辨率下做初步的迁移，Revision 网络再在高分辨率网络下修正细节，提升分辨率。

网络整体框架如上图所示（图中只展示了一层的拉普拉斯金字塔，可以采用更多层来达到更高的分辨率）。对于输入的内容图和风格图，分别提取其拉普拉斯金字塔和，其中是两倍下采样的结果，而残差图则保存了下采样时丢失的高频信息。整体的算法流程可以总结为以下几步

1. Drafting 网络将和作为输入，生成同分辨率的风格化结果

2. Revision 网络将和作为网络输入，生成带有高频风格化细节的残差图

3. 最终通过聚合低分辨率风格化结果和高分辨率残差图得到最终结果

Drafting Network

Drafting网络的核心目标是在低分辨率下迁移复杂纹理的雏形，我们这里采用了一个比较简单的Unet + 多尺度AdaIN的结构。

Revision Network

Revision网络则是一个更加简单的encoder-decoder 结构，为了进一步提升网络对复杂纹理的迁移能力，这里我们在训练中添加了一个pixel-discriminator判别器来实现对抗性学习。这里审稿人提出了一个疑问，对于此处的判别器，其real 图是一个固定的图，是否会发生判别器过拟合而失效的问题？实际上在训练中并没有出现这个情况，主要有三个原因。

1. 训练时我们对风格图进行了一定程度的增强，主要是随机裁剪；

2. 我们采用了SinGAN [1] 中的判别器结构，其主要特点是网络很小很浅，感受野有限，这也能够避免判别器能够“记住”风格图；

3. Revision 网络是在Drafting网络后训练的，所以fake 图在Revision Network最开始训练时就已经有相对比较接近real图的色彩和纹理了。

Training Objective

训练中，除了风格化领域中常用的内容和风格损失外，我们还采用了STROTSS[2] 中提出的relaxed Earth Mover Distance (rEMD) loss 以及self-similarity loss。这两个损失函数能够有效地提升风格纹理在内容图上的分布情况。损失函数具体的构造可以见论文。

实验

与前馈方法的对比

与现有的前馈方法（其中Johnson et al. 是单风格网络）相比，LapStyle能够有效地将风格纹理融合到内容图上，同时保持较好的清晰度，避免风格化算法常见的结果模糊问题。

与优化方法的对比

STROTSS[2] 应该是当前效果最好的基于优化的风格化方法，我们的方法在很多case 中能达到与其接近甚至更好的效果。STROTSS相较于LapStyle 主要的优点是一些情况下风格纹理和内容融合地更好（如右下），这主要是由其优化过程带来的。

算法速度

由于LapStyle 中，最主要的风格迁移过程在低分辨率网络中完成，而高分辨率的Revision Network比较小，因此LapStyle的速度很快，在512分辨率下能够达到接近100FPS（P40显卡），比现有的前馈方法都要显著的快。

讨论

本文的主要贡献在于将复杂风格的迁移拆分为低分辨率下的初步迁移和高分辨率下的修正过程，这样的拆解有效地提升了风格化的质量以及速度。采用拉普拉斯金字塔也是在这个motivation下比较自然的想法。有趣的是，cvpr 21上还有另外一篇拉普拉斯金字塔来做image translation 的方法LPTN [3]。其主要出发点是在低分辨率下做image translation，同时保持高分辨率的原有高频信息。

前面自吹自擂了很多，但其实LapStyle 也还存在不少的问题有待解决。第一个就是目前LapStyle 不支持任意风格化，对于每个风格都需要重新进行训练（一个风格单卡十几个小时），这样显然不够灵活，如何在任意风格化下实现复杂纹理的迁移是一个很困难也很值得挑战的问题。第二个是如何对内容图和风格图做更好的融合，LapStyle的结果存在一些case，网络对于风格的迁移能力很好，但风格和内容图却结合的不够好，就容易失去美感了。

最后，还是欢迎大家在PaddleGAN上试用我们的代码，也欢迎大家在“一刻相册”APP上试用我们已经上线的多种多样的风格化滤镜。如果你读到这里，对风格化，生成模型等编辑方向感兴趣，并且有学术论文写作和投稿经验，欢迎投递简历到 lintianwei01@baidu.com ～

参考文献

[1] Tamar Rott Shaham, Tali Dekel, and Tomer Michaeli. Singan: Learning a generative model from a single natural image. In Proceedings of the IEEE International Conference on Computer Vision, pages 4570–4580, 2019.

[2] Nicholas Kolkin, Jason Salavon, and Gregory Shakhnarovich. Style transfer by relaxed optimal transport and self-similarity. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10051–10060, 2019.

[3] Liang J, Zeng H, Zhang L. High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 9392-9400.

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

【源头活水】CVPR 2021 | LapStyle - 基于拉普拉斯金字塔的高质量风格化方法

ICLR2021 | 通过干预的无监督解耦表示

实时目标检测算法

Shuffle Transformer 高效快速的基础模型

BeBold：一种新的强化学习探索准则

这篇CVPR文章真是妙蛙种子到了妙妙屋

从对比链接中蒸馏自知识：非消息传递的图节点分类

深度强化学习点云配准——ReAgent技术详解

DynamicViT: 动态Token稀疏化的高效视觉 Transformer

地表最强图神经网络竟然是transformer

ICME21 你的检测器还安全吗? RPATTACK：YOLO和Faster R-CNN的攻击利器

松弛Transformer：实现直接出框的时序动作检测

Synthesizer-其实我们还不够了解Self-Attention

预训练卷积超越预训练Transformer？

SegFormer: 简单有效的语义分割新思路

ACL2021 | 把关键词生成看成集合预测问题

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

生成图片，分享到微信朋友圈

【源头活水】CVPR 2021 | LapStyle - 基于拉普拉斯金字塔的高质量风格化方法

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣