近年图像翻译先进模型小结
©PaperWeekly 原创 · 作者|武广
学校|合肥工业大学硕士生
研究方向|图像生成
计算机视觉下的任务纷繁庞大,除了熟悉的目标检测、图像识别、图像分类等常见的视觉应用,还有着图像翻译、图像分割和图像超分辨率等十分具有研究和应用价值的方向。本文就近年(2019 和 2020 年)图像翻译下的先进模型进行典型性介绍,一起梳理下图像翻译的发展和未来研究的趋势。
图像翻译的发展
图像翻译旨在通过设计端到端的模型将源域图像转换到目标域图像,通常源域提供图像的内容,目标域提供图像的“风格”(可以是图像属性或图像风格),在源域内容下实现目标域的“风格”化,从而实现源域图像到目标域图像的转换。
图像翻译自深度学习应用下便得到了快速的发展,尤其是随着生成对抗网络(GAN)的提出,大大加速了图像翻译的演进。从早期的 pix2pix、CycleGAN [2]、UNIT [3] 到较为成熟的 StarGAN [4] 都是图像翻译在上几年较为成功和经典的模型。
这些模型实现了从源域图像到目标域图像的转换,但这往往需要一定的标签参与或者需要建立源域和目标域各自的生成器,同时任务往往实现的是单目标域的转换。
随着发展到 MUNIT [5]、DRIT [6] 以及 UGATIT [7] 则进一步实现了由源域到多目标域的转换,也有利用语义 mask 图像实现无条件图像翻译的 SPADE [8]。
StyleGAN [9] 实现了高质量的图像风格转换,这无疑于 StyleGAN 的细致的架构,逐步分辨率的阶段性生成、自适应实例正则化(AdaIN)和风格空间的应用。
StyleGAN2 [10] 在 StyleGAN 的基础上进一步对 AdnIN 进行修正,demodulation 操作应用于每个卷积层相关的权重,并且通过 skip generator 代替 progressive growing,实现了更为细致的图像转换。这些基础性的图像转换架构对于近年来的图像翻译任务提供价值性的指导。
近年来,图像翻译实现了更加细致的任务实现,StarGAN v2 [11] 在 StarGAN 的基础上实现了多源域到多目标域的图像转换;ALAE [12] 将自编码器拓展到高精致的图像转换。
图像翻译模型
论文标题:StarGAN v2: Diverse Image Synthesis for Multiple Domains
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/1912.01865
代码链接:https://github.com/clovaai/stargan-v2
▲ 图4.StarGAN v2定性对比结果
2.2 ALAE
论文标题:Adversarial Latent Autoencoders
论文链接:https://arxiv.org/abs/2004.04467
代码链接:https://github.com/podgorskiy/ALAE
自编码器能否具有像 GAN 那样的生成能力呢?ALAE 给出了肯定的答案,ALAE 算是建立在 StyleGAN 基础之上,具备与 GAN 相当的生成能力,且能够学习解耦表征,在人脸属性变换上展示了优越的效果。
▲ 图5.ALAE模型结构
▲ 图8.StyleALAE人脸属性变换
2.3 ConSinGAN
论文标题:Improved Techniques for Training Single-Image GANs
论文链接:https://arxiv.org/abs/2003.11512
代码链接:https://github.com/tohinz/ConSinGAN
近年有部分研究者将目光投入到单幅图像训练网络上,ICCV 2019 best paper SinGAN [15] 便是一个代表作,此处要介绍的 ConSinGAN 则是在 SinGAN 的基础上的升级版。
受限于数据样本和网络训练时长,单幅图像训练的模型存在着很大的应用意义。要介绍清 ConSinGAN 则必须要提一下 SinGAN,本质上 ConSinGAN 就是并行的 SinGAN,缩写中不同的 Con 就是指 Concurrent 的意思。
ConSinGAN 指出每个分辨率下仅训练一个生成器而固定前面的生成器的参数,这仅仅将前一阶段生成器输出作为当前的输入,这一定程度上限制了不同阶段生成器之间的交互。
然而训练多个分辨率下的生成器将会导致另一个问题,那就是过拟合,也就是最后得到的图像失去了多样性,为了解决这个问题,ConSinGAN 提出了 2 个应对方案。
在任意给定时间内,只训练一部分生成器 在训练一部分生成器时,还要对不同的生成器使用不同的学习率,对于低分辨率阶段的生成器使用较小的学习率
实验发现如果对早阶段的生成器采用较高的学习率,那么生成的图像质量会高些,但是差异性较弱。相反,如果对早阶段的生成器采用较小的学习率,那么生成图像的差异性会丰富一些。
▲ 图12.ConSinGAN在图像协调下的转换结果
2.4 HiDT
论文标题:High-Resolution Daytime Translation Without Domain Labels
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2003.08791
▲ 图13.HiDT网络优化过程
上述分析,总结起来就是模型在优化阶段由三种模式,一是随机风格的转换和重构,二是原始图像的重构,三是目标域图像转换和循环一致的转换。
近年来图像翻译的文章还有很多,本文仅仅是笔者选摘的有代表性的几篇文章,图像翻译已不再是简单的图像风格变换或是源域到目标域的转换,而是上升到多源域到多目标域图像的转换。
同时基于 GAN,基于自编码器,基于 pixelCNN 的模型也是十分丰富。从庞大的数据集进行训练,到可以由单幅图像的训练,对于训练的样本要求也在逐步降低。
参考文献
[1] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
[2] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
[3] Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation networks[C]//Advances in neural information processing systems. 2017: 700-708.
[4] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8789-8797.
[5] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image-to-image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 172-189.
[6] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]. International Journal of Computer Vision, 2020: 1-16.
[7] Kim J, Kim M, Kang H, et al. U-GAT-IT: unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[J]. arXiv preprint arXiv:1907.10830, 2019.
[8] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.
点击以下标题查看更多往期内容:
CVPR 2020 | 自适应聚合网络:更高效的立体匹配 CVPR 2020最新热点:物体位姿估计 格“物”致知:多模态预训练再次入门 对比学习(Contrastive Learning)相关进展梳理 CVPR 2020 Oral | 无域标签下高清场景时移变换 CVPR 2020 | 商汤TSD目标检测算法解读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。