升级版StarGAN来袭!你想要的多目标域多风格图像变换它都有
作者丨武广
学校丨合肥工业大学硕士生
研究方向丨图像生成
论文引入
图像翻译旨在学习不同视觉域之间的映射,域这个概念在视觉下表示一组图像,这组图像可以将它们分组为视觉上独特的类别,比如一个域全是由狗的图像构成,我们称这个就是一个域,在这个域下全是狗的图像,但是狗又可以细分为拉布拉多、斗牛犬、巴哥、柴犬等这些具有特定风格的图像,在一个大类下的分支它们具有这个类的属性,但是又有自己独特的特征,我们称此为风格,推演到人的话,妆容、胡须、卷发也可以定义为风格。
另一种转换的方式就类似于 CycleGAN [2] 那样,从一个域简单的转换到另一个域,可以实现斑马到马,博美到吉娃娃这种单一的转换,如果要实现博美到萨摩这种变换,往往需要重新设计一组生成器。那么由 N 中风格图像的转换的话,就需要设计 N×(N−1) 种生成器,这显然是不合理的。上述分析的两个问题就是图像翻译任务下的两个需要解决的问题。
StarGAN 是不是第一篇处理这两个问题的呢?答案是否定的,在 18 年由 NVIDIA 发表的 MUNIT [3] 就成功的解决了这两类问题,StarGAN v2 算是在 MUNIT 的基础上实现了更加简洁易懂的处理和图像翻译任务。
总结一下 StarGAN v2 的优势:
设计了 Mapping Network 用于生成风格编码,摆脱了标签的束缚;
用风格编码器指导 Mapping Network 进行目标风格学习,可以实现目标域下多风格图像的转换;
公开了动物面部数据集 AFQH,实现了图像翻译下较好的结果。
模型结构
图 2 给出的结构是一个很笼统的图示,可以看出 StarGAN v2 由四部分组成,生成器 −G,映射网络 −F,风格编码器 −E 判别器 −D。
我们先捋一下整个过程,首先映射网络学习到目标域图像的风格编码
从大方向上捋了一下 StarGAN v2 的结构,是不是有几个问题要问,为什么设计了映射网络就能实现由源域图像转换到目标域下多幅图像?多幅图像是怎么得到的?这里的风格编码器除了优化映射网络还能用来干嘛?具体的网络细节要怎么实现?
重点来了,我们在采样 z 下,由于每次采样是不同的,固然得到的风格表示也是不同的,这样每次的
▲ 图3. StarGAN v2模型设计结构
损失函数
上一章节如果读透了,损失函数这部分就没啥要介绍的了,首先是生成器和判别器的对抗损失:
这里提一下,虽然公式前半部分写的是 x,但是在训练阶段肯定是参照的是目标域图像作为真实的,当然,可以设计双向网络,也就是源域和目标域可以实现相互转换。
为了优化映射网络,设计了风格重构损失:
为了让映射网络可以学习到更多的目标域下的不同风格,也就是让风格更加的多样化,设计了距离度量损失,也就是希望每次得到的风格表示尽量的不一致,这样风格就会更加丰富,所以是最大化
为了保留源域的特征,作者又加入了一个循环一致损失:
在最终的损失优化上:
实验
在定性实验对比上可以看到 StarGAN v2 转换得到的图像更加的逼真和多样性,这个在 CelebAHQ 和 AFHQ 数据集上都得到了体现。
在有参照的测试结果也同样展示了优越的结果。
▲ 图5. StarGAN v2在有参照图像下定性实验结果
▲ 图6. StarGAN v2定量实验结果
▲ 图7. StarGAN v2人力评估下实验结果
总结
StarGAN v2 最大的创新之处就是设计了 Mapping Network,这个将固定的风格编码用更加灵活的映射网络去学习,可以更加丰富的学习到风格表示,同时整个网络的设计也像较于 MUNIT 得到了一定的精简,结构更加清晰。网络的整体架构参考了 StyleGAN 的优越的生成效果,在图像转换上进一步得到了提高,同时也处理了图像翻译下将一个域的图像转换为目标域的多种图像,并支持多个目标域的问题。
参考文献
[1] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. Stargan: Unified generative adversarial networks for multidomain image-to-image translation. In CVPR, 2018. 2, 3, 4
[2] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
[3] X. Huang, M.-Y. Liu, S. Belongie, and J. Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 2, 3, 4, 6, 7, 8, 12
[4] H.-Y. Lee, H.-Y. Tseng, J.-B. Huang, M. K. Singh, and M.-H. Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 2, 3, 4, 6, 7, 8
[5] Q. Mao, H.-Y. Lee, H.-Y. Tseng, S. Ma, and M.-H. Yang. Mode seeking generative adversarial networks for diverse image synthesis. In CVPR, 2019. 2, 3, 4, 6, 7, 8
[6] R. Zhang, P. Isola, A. A. Efros, E. Shechtman, and O. Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018. 4, 9
点击以下标题查看更多往期内容:
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码