干货 | 如何选出最“美”图片展示给你?携程做了基于深度学习的图像美感评分系统
作者简介
路婵,携程度假AI研发团队算法工程师,专注于计算机视觉和机器学习的研究与应用。现阶段致力于度假图像智能化,多次参加国内外数据竞赛并获奖。
作为OTA行业的领跑者,携程每天服务成千上万的客户。景点的图片介绍成为用户了解景区、玩乐产品的重要参考。
为了给用户带来更好的使用体验,携程门票列表页通常由人工筛选更具代表性的优质图片,指定为每个产品的首图。这种人工指定的方式主观性强,费力度大,无法做到准确而及时的更新。面对大量景点图像,如何智能选择更优质的图像,提高用户满意度,改善用户体验,大幅减少图像的人工干预,成为急需解决的问题。
近几年深度学习在图像领域取得了突破性的进展,基于深度学习的应用也层出不穷。深度神经网络对图像在特定目标域拥有极强的感知与决策能力,将其应用到图像美感评价上,可以综合图像的美学与语义信息,自动选择更优质的首图,为用户带来更好的体验。优化前后对比如下:
构建智能美感评分系统,旨在自动筛选更优质的图像进行展示。本文还通过CAM可视化方法,对网络的决策进行了解释。在业务处理中,通过识别图像类别,筛选更适合的图片作为首图进行展示。
图像美感的量化是图像处理和计算机视觉中的一个问题,其主要目的是预测与人类感知相关的质量分数。与图像质量评价(Image Quality Assessment,IQA)处理的像素级的退化(degradation)问题不同,美感评价提取图像中与情感和美感相关的语义层次特征。
图像美感评价主要分为两个部分:特征提取与决策。
传统特征提取方法通过人工设计的低层特征(颜色、纹理、清晰度等)和高层特征(景深、区域对比度等),作为图像的美感特征,通过训练一个分类器或回归模型,得到图像的美学质量评分。
相较于传统方法,深度卷积神经网络拥有强大的自动特征学习能力,在图像美感评价方面展现出良好的性能,成为解决该问题的主流方法。
2.1.1 研究现状
美感的评估难点主要集中在全局语义与局部信息的特征抽取上。
为了兼顾全局语义特征与局部信息,研究者往往采用整张图像与多次裁剪得到的图像片段(multipatch)同时作为输入。
Lu等的RAPID模型[ 1 ]基于AlexNet,采用多路网络,分别将整张图像与多次随机裁剪得到的部分图像作为输入,提取全局美学特征、局部美学特征,将质量评估作为二元分类问题,对图像美感进行预测。
此外,作者还通过使用图像风格监督(style-column) 或者图像语义监督(semantic-column) CNN合并图像风格信息来进一步提高网络的表现。A-Lamp架构[ 2 ]采用特定的多次裁剪得到而不是随机剪裁,并结合图像整体,更有效地评估图像美学质量。多次裁剪输入示意图如下:
在美感度模型的训练框架里,多使用分类的方法进行最后评分的决策。
采用分类的方法,一般最后接一层softmax,根据监督信息的不同,可以是判断图像好看与否的二元分类,或者是对多人评价分布的拟合。前者将输出好看的概率作为美感度分数,后者将十个等级的评分求加全和得到最终结果。
Google[ 3 ]提出NIMA,通过学习每张图像的评分直方图,对任意给定的图像预测评级分布。该方法能够更准确的预测出人类的偏好。
不同于以往的二分类处理,Kong等[ 4 ]提出对图像美学进行排序,构造了新的数据集,对每张图片的8个美学指标进行打分。通过对每个采样图像对的排序学习建立基础美学特征提取器,并添加属性预测等内容分支,使用多任务学习方式进行微调。
2.1.2 应用
在实际应用中,我们用基于ImageNet预训练的Resnet作为特征提取基础模型。在网络输入上,我们有选择地采用多次裁剪得到的多个图像块,以及整张图像填充(padding)后缩放到固定尺寸作为输入,以兼顾全局信息与局部特征。
数据增广的处理上,常用的数据增广方法难以应用在该问题中,剪裁会对图像构图产生负面影响,缩放产生的形变影响了实际的比例和分辨率,因此我们只使用了水平方向的翻转。
值得注意的是,分数分布在中间档的数据通常处在模棱两可的状态,其数据量占比也比较大,采用二分类的方法,若强行设定一个阈值来区分低质量和高质量,会带来许多错误的标注。因此,在正负样例的划分上需要特别注意不要引入这些模糊数据。由于美感数据集获取不易,半监督、hard-mining是优化模型的重要方法。
决策部分我们分别尝试二分类与1-10评分分布直方图学习两种决策方式。
由于评分分布需要大量人工标注,难以迁移到实际场景的数据中,我们只用该方法对美学数据集进行了训练,以提升特征提取的效果。
基于上述基础模型,我们又加入了自己标注的实际场景数据,替换最后决策层为二分类softmax,进行微调。最终将好看的概率作为美感度分数。美感评分网络示意图如下:
通过对图像的美感度打分,我们可以量化图像美感这一抽象概念。但是这些方法并不能直观的说明为什么一张图被判断为好看、不好看,以及是哪些方面影响了这张图像的美感。
为了解释网络对图像美感的决策,我们尝试了CAM等可视化方法。
CAM或梯度加权类激活映射(Grad-CAM)这类方法,都是通过得到每对特征图对应的权重,最后求一个加权和,通过对高层特征图的权重加权计算,可以达到很高的类别判别能力。这类方法使用流入CNN最后一层卷积层的分类权重或梯度信息来理解每个神经元对于目标决定的重要性,解释网络可能做出的决策。[5][6][7]
可视化方法与效果示意图如下:
实际业务场景中,数据种类众多,在候选图集中还有许多图像不适合作为首图进行展示,比如表演时刻表、景区美食等不符合景区主题的图像。
为了选出更优质的图像,我们在美感评分基础上,进行了图像内容筛选的后处理。由于后处理的类别并非互斥关系,我们建立了一个多标签的分类训练模型,为每张图片打上相应的类别标签,只选取符合要求的类别图片,在其中使用高分图片最为最终首图。筛选最优质图片示意图如下:
深度学习在图像识别领域取得了很好的成果,利用DCNN能够有效提取图像的特征,描述图片的美感。图像的美感问题是个高度抽象的问题,数据量相对较少的情况下,需要更深且权值级别更低的网络。为了得到较为全面的图像美学特征,图片全局和局部都有体现美感的特征,需要结合两者,才能更有效的对图像质量进行评估。
相关文献
[1] Lu, Xin, et al. "Rapid: Ratingpictorial aesthetics using deep learning." Proceedings of the 22ndACM international conference on Multimedia. ACM, 2014.
[2] Ma, Shuang, Jing Liu, and Chang Wen Chen."A-lamp: Adaptive layout-aware multi-patch deep convolutional neuralnetwork for photo aesthetic assessment." Proc. IEEE Conf. Comput.Vis. Pattern Recognit.(CVPR). 2017.
[3] Talebi, Hossein, and Peyman Milanfar."Nima: Neural image assessment." IEEE Transactions on ImageProcessing 27.8 (2018): 3998-4011.
[4] Kong, Shu, et al. "Photo aestheticsranking network with attributes and content adaptation." EuropeanConference on Computer Vision. Springer, Cham, 2016.
[5] Zhou, Bolei, et al. "Learning deepfeatures for discriminative localization." Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2016.
[6] Selvaraju,Ramprasaath R., et al. "Grad-CAM: Visual Explanations from Deep Networksvia Gradient-Based Localization." ICCV. 2017.
[7] Malu, Gautam, Raju S. Bapi, and BipinIndurkhya. "Learning Photography Aesthetics with Deep CNNs." arXivpreprint arXiv:1707.03981 (2017).
【推荐阅读】