【GAN的应用】基于对抗学习的图像美学增强方法 | 自由微信 | FreeWeChat

bxrf的瓜

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

生什么病，就忌什么口，这张表留着很有用！速看

【GAN的应用】基于对抗学习的图像美学增强方法

From: Acci.br 有三AI 2019-12-26

好久不见~甚是想念

由于年底了要处理的事情变得特别多，突然间醒悟好久没更新啦

于是深夜给大家带来一篇生成对抗网络在图片美学增强上的应用。

首先来个小问题，你能猜出下图的（b）（c）那一个是手动PS，哪一个是自动PS么？？

不知道大家有没有猜对，反正我是一脸懵逼，因为觉得都不错 [摊手]

如何获得堪比手动PS的自动PS效果呢？下面就具体讲讲GAN网络实现图片风格自动增强的方法。

传统的图片自动增强方法需要全监督的分别训练图片尺寸修改模型（cropping）与颜色增强（color enhancement）模型。而作者提出的EnhanceGAN只需要弱监督（一个表示美学质量的二进制标签即可），并且可以对尺寸修改与色彩增强的模型参数实现自适应调整。

相关概念

Aesthetic Quality Assessment:

基于人的审美感知区分美学上高质量与低质量的图片。一般基于data-driven的CNN网络模型。

Automatic Image Enhancement:

主要分为以下两点

Cropping and Re-targeting: 旨在寻找最能表现美学价值的区域，将照片进行裁剪等修改使之更具有美学观赏性。

Color Enhancement and Style Transfer: 通过调整画面整体颜调使美学效果更加突出。使用regression models 和 ranking models 将输入图片映射到相应的groundtruth。

网络模型结构

Preliminary

传统的GAN网络由一个生成器G和一个判别器D构成

假设pg为z~pz时G(z)的分布，当pg收敛于实际数据分布pdata时，式(1)将达到全局最优值。

文章中作者参考了[1]里面的损失函数的定义

式中fw是K-Lipschitz连续，可通过判别网络D进行逼近。

Generator Network (NetG)

与普通GAN不同的是，文中设计的EnhanceGAN可自学习图片风格增强的参数{o}。对应不同的变换系数{To}，给定输入图片I，可得到输出

其中oL和oAB分别对应光照与颜色的调整系数，ocrop对应裁剪参数。

Generator network的结构采用ResNet-101（不含最后一层全连接层），并将最后一层池化层用来保存特征映射后的空间信息。如下图a所示。

图片裁剪的目的则是获得系数ocrop=[x,y,w,h]。基于attention models [2]，cropping模型采用了一个卷积层（2048 --1），kernel size 1*1。如下图b所示。

而Top-K average pooling则是根据概率将元素聚类。如下图c所示。

Generator网络效果如下所示

而颜色增强模型在CIELab color space上，对于每一个像素点m，都有如下定义

其中系数oL=[a,b,p,q]和oAB=[oA,oB]=[a,b]均可有the convolution layer (2048--7)卷积层获得。

L,A,B的输入输出关系如下图所示

Generator 的损失函数LG则可有如下几种形式

Adversarial Loss:

Perceptual Loss:

Regularization Loss:

Discriminator Network (NetD)

文章所设计的判别网络用于评估图片美学质量。将ResNet-101网络中最后一层分类器转变为一个2个全连接神经元的输出层。

根据式(2)可以获得LD的损失函数为

实验

作者将所设计的网络应用于CUHK-PhotoQuality Dataset (CUHK-PQ)和AVA Dataset。

1. Quantitative Evaluation

1）图片美学质量评估

2）图片自动裁剪

作者定义了一个overlap ratio与Displacement Error来对裁剪效果进行评估

评估结果如下两表所示

2. User Study

我们让一个专业的修图师帮我们用PS处理下100幅图片与文中所设计的EnhanceGAN处理的100幅图片进行对比，将图片发给26个评委进行打分，具体分数分布如下所示

下列是具体图片的得分分布

据统计，作者提出的 EnhanceGAN 美学评价均分为5.327，专业的人工修图得分为 5.419 ，原图得分4.254 。

可以说，设计的网络在图片风格自动增强方面还是很不错的~

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan. arXiv:1701.07875, 2017. 2, 3, 4, 5, 7

[2] K. Xu, J. Ba, R. Kiros, K. Cho, A. C. Courville, R. Salakhutdinov, R. S. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, volume 14, 2015. 4

论文来源：

Deng Y, Loy C C, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. arXiv preprint arXiv:1707.05251, 2017.

随着摄影平台积累的数据和用户的手动标注信息越来越多，相关的公司和团队在这个研究上将具有绝对压倒性的优势。

这里还是给自己的摄影分享公众号《言有三工作室》和摄影平台500px，图虫做个宣传。

知乎专栏已经开通，欢迎来吐槽，投稿

https://zhuanlan.zhihu.com/c_146817036?group_id=923257138554384384

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存