查看原文
其他

【GAN的应用】基于对抗学习的图像美学增强方法

Acci.br 有三AI 2019-12-26


好久不见~甚是想念

由于年底了要处理的事情变得特别多,突然间醒悟好久没更新啦

于是深夜给大家带来一篇生成对抗网络在图片美学增强上的应用。


首先来个小问题,你能猜出下图的(b)(c)那一个是手动PS,哪一个是自动PS么??

不知道大家有没有猜对,反正我是一脸懵逼,因为觉得都不错 [摊手]


如何获得堪比手动PS的自动PS效果呢?下面就具体讲讲GAN网络实现图片风格自动增强的方法。


传统的图片自动增强方法需要全监督的分别训练图片尺寸修改模型(cropping)与颜色增强(color enhancement)模型。而作者提出的EnhanceGAN只需要弱监督(一个表示美学质量的二进制标签即可),并且可以对尺寸修改与色彩增强的模型参数实现自适应调整。


相关概念

Aesthetic Quality Assessment:

        基于人的审美感知区分美学上高质量与低质量的图片。一般基于data-driven的CNN网络模型。


Automatic Image Enhancement:

        主要分为以下两点

Cropping and Re-targeting: 旨在寻找最能表现美学价值的区域,将照片进行裁剪等修改使之更具有美学观赏性。

Color Enhancement and Style Transfer: 通过调整画面整体颜调使美学效果更加突出。使用regression models 和 ranking models 将输入图片映射到相应的groundtruth。


网络模型结构


Preliminary

传统的GAN网络由一个生成器G和一个判别器D构成

假设pg为z~pz时G(z)的分布,当pg收敛于实际数据分布pdata时,式(1)将达到全局最优值。

文章中作者参考了[1]里面的损失函数的定义

式中fw是K-Lipschitz连续,可通过判别网络D进行逼近。


Generator Network (NetG)

与普通GAN不同的是,文中设计的EnhanceGAN可自学习图片风格增强的参数{o}。对应不同的变换系数{To},给定输入图片I,可得到输出

其中oL和oAB分别对应光照与颜色的调整系数,ocrop对应裁剪参数。


Generator network的结构采用ResNet-101(不含最后一层全连接层),并将最后一层池化层用来保存特征映射后的空间信息。如下图a所示。

图片裁剪的目的则是获得系数ocrop=[x,y,w,h]。基于attention models [2],cropping模型采用了一个卷积层(2048 --1),kernel size 1*1。如下图b所示。

而Top-K average pooling则是根据概率将元素聚类。如下图c所示。

Generator网络效果如下所示

而颜色增强模型在CIELab color space上,对于每一个像素点m,都有如下定义

其中系数oL=[a,b,p,q]和oAB=[oA,oB]=[a,b]均可有the convolution layer (2048--7)卷积层获得。


L,A,B的输入输出关系如下图所示

Generator 的损失函数LG则可有如下几种形式

Adversarial Loss:

Perceptual Loss:

Regularization Loss:


Discriminator Network (NetD)

文章所设计的判别网络用于评估图片美学质量。将ResNet-101网络中最后一层分类器转变为一个2个全连接神经元的输出层。

根据式(2)可以获得LD的损失函数为


实验

作者将所设计的网络应用于CUHK-PhotoQuality Dataset (CUHK-PQ)和AVA Dataset。


1. Quantitative Evaluation

1)图片美学质量评估

2)图片自动裁剪

作者定义了一个overlap ratio与Displacement Error来对裁剪效果进行评估

评估结果如下两表所示


2. User Study

我们让一个专业的修图师帮我们用PS处理下100幅图片与文中所设计的EnhanceGAN处理的100幅图片进行对比,将图片发给26个评委进行打分,具体分数分布如下所示

下列是具体图片的得分分布

据统计,作者提出的 EnhanceGAN 美学评价均分为5.327,专业的人工修图得分为 5.419 ,原图得分4.254 。


可以说,设计的网络在图片风格自动增强方面还是很不错的~

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan. arXiv:1701.07875, 2017. 2, 3, 4, 5, 7

[2] K. Xu, J. Ba, R. Kiros, K. Cho, A. C. Courville, R. Salakhutdinov, R. S. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, volume 14, 2015. 4

论文来源:

Deng Y, Loy C C, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. arXiv preprint arXiv:1707.05251, 2017.





随着摄影平台积累的数据和用户的手动标注信息越来越多,相关的公司和团队在这个研究上将具有绝对压倒性的优势。

        这里还是给自己的摄影分享公众号《言有三工作室》和摄影平台500px,图虫做个宣传。

        知乎专栏已经开通,欢迎来吐槽,投稿

https://zhuanlan.zhihu.com/c_146817036?group_id=923257138554384384








    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存