整理 | Jane
出品 | AI科技大本营(ID:rgznai100)
2018 年底,英伟达借鉴风格迁移的思路,提出当时最先进的无条件生成模型—— StyleGAN ,吸引了大家广泛关注。随后,代码开源,一位 Uber 工程师更是利用此模型设计了网站“ThisPersonDoesNotExist.com”,轰动一时。自此,对虚假信息生成技术的研究与讨论延续至今。近日,英伟达再次公开最新论文《Analyzing and Improving the Image Quality of StyleGAN》,通过对 StyleGAN 的生成效果分析,对不完美的工作设计了改进和优化方法,提出新一代 StyleGAN,效果更上一层楼,生成图像的质量堪称完美。不止这些从不存在的人脸图片,动漫人物、猫狗、汽车、卧室......这些类别的图片都可以生成,主要看你给模型喂了什么。自从有了这项神奇的技术,左拥老婆、右抱宠物,车房都有。
不过,从之前的生成结果来看,StyleGAN 虽神奇但并非完美,生成的图像经常产生瑕疵与缺陷。在最新模型 StyleGAN 2 中,团队针对缺陷问题进行了深入研究,通过改进模型架构和实例规范化方法等,在提升了图片质量、优化细节的同时,还可以对图像是否有模型生成进行检测,加速训练。这次 StyleGAN2 的提出,不仅提升了生成效果,在一定程度上又再一次为大家提供了无条件图像生成技术的新标准。
首先,上图是这项工作中解决的第一个问题——去除奇怪不明的斑点。这个问题,我们在一代生成结果中经常会见到。为了解决这个问题,研究人员把生成器的架构进行了重新设计,由此前的下自适应实例归一化 → 生成器的实例归一化。上一代 StyleGAN 的模型架构设计和细节和新一代 StyleGAN 的模型架构设计和细节如如图(a)、(b)和图(c)、(d)所示:新方法无论是在生成的图像还是特征图上都解决了这个问题。
再看生成图片的细节,研究人员指出,此前的图像中会有脸部特征不协调的现象,组合起来不匹配,有些细节可能乍看上去并不显眼,导致这个问题的原因是在上一代 StyleGAN 中采用了 Progressive Growing 的训练方法,细节对位置有强偏好,特征发生移动时,位置不能随之发生相应的变化移动。这次,研究人员借鉴了 MSG-GAN 模型架构的跳层连接(下图a),在此基础上对生成器和判别器进行优化,分别采用上采样和下采样(下图b),最后用残差网络(下图c)改进判别器。这样一来,生成人脸的五官特征可以同时变化,不得不说,更挑不出毛病了。除了上面在图像合成效果和质量上的改进与优化,这次的 StyleGAN2 还有一个新玩法:可以把图像输入到模型中,如果能够完美复现,那就说明这个东西是「Made in StyleGAN」,并非真实存在于世间的。作者指出,与此前反向合成网路的方法不同,他们使用了斜坡下降噪声并优化了生成器的随机噪声输入。上一代 StyleGAN 在 1024 * 1024 分辨率下,用 NVIDIA DGX-1、8 Tesla V100 GPUs 每秒可训练 37 张图像,而配置 E 的训练速度可达 61img/s,提速 40%。配置 F(更大的网络)以 31 img/s 的速度进行训练,因此训练成本仅略高于最原始的 StyleGAN,而训练时间大大缩减,FFHQ 的总训练时间为 9 天,LSUN CAR 的总训练时间为 13 天。 这么好用,如果不亲自上手岂不辜负。目前,STyleGAN2 已经在 GitHub 开源并获得将近 1.2k Stars,在 Github Trending 排行榜中位列 Top 1。不仅大家 Star 积极,还有更积极的网友,比如 @manicman1999 已经在 TF2.0 中复现了 STyleGAN2 并将项目代码开源了,下面是他 Mixing Styles 的结果。还在等什么?我们在下方把论文地址、官方 TensorFlow 的复现地址都分享给大家,今天晚上又有得干了!Paper:
http://arxiv.org/abs/1912.04958
官方 TensorFlow 复现
https://github.com/NVlabs/stylegan2
网友非官方 TF2.0 复现
https://github.com/manicman1999/StyleGAN2-Tensorflow-2.0
(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)
推荐阅读