当期荐读 2020年第6期 | 基于视觉注意力的图像情感研究框架(内含视频摘要)
ISSN 1003-2797
CN 42-1085/G2
双月刊
同行评审期刊
陆柳杏 吴丹
(武汉大学信息管理学院,武汉,430072)
目的/意义
探索当前图像情感语义发展的趋势,构建相关研究框架,从理论上促进图像情感研究与新措施或方法的融合,可为后续研究提供理论借鉴与指导。
研究设计/方法
利用VOSviewer对图像情感研究进行可视化分析,揭示当前图像情感研究的发展趋势,在此基础上对已有研究进行梳理与总结,构建相应的研究框架。
结论/发现
将用户视觉注意力与图像情感相结合是当前图像情感研究发展的重要趋势,用户视觉注意力多以捕捉用户眼动的形式来呈现;基于视觉注意力的图像情感研究框架包括数据层、方法层、内容层和应用层。
创新/价值
所构建的研究框架直观展示了当前研究的特点,从理论上促进用户眼动与图像情感结合,为后续研究提供基础与指导。
关键词
图像情感 视觉注意力 视觉情感分析
研究框架
随着移动设备和互联网的飞速发展,人们可以随时随地分享与传播信息来表达其观点与感受。视觉资源如图像包含了丰富的色彩和含义,可以从视觉上给用户带来多样的感受,也越来越成为用户传递情感的重要资源[1]。
图像蕴含着丰富的信息,如图1所示。从外延和内涵两个层面来看,图像的外延层面可以解释为符号的表达,即特定文化群体在其语言系统中对事物所赋予的含义;内涵层面是与情感、联想和审美相关的信息[2]。从底层到高层的层次特征来看,图像的含义由下到上可以分为三个层次:特征层、对象层和语义概念层[3]。人们对图像的判别是建立在图像所描述对象的语义信息理解基础上,而计算机对图像的理解一般是基于图像的底层特征,难以描述图像所包含的丰富的语义信息,使得计算机对图像内容的理解与人对图像内容的理解存在着巨大的差距,这就造成了“语义鸿沟”的问题。
为了尽可能减少“语义鸿沟”,计算机科学、心理学、图书情报、脑科学等学科领域的研究者从图像情感的角度来研究图像语义,这也使得图像情感成为了跨学科的新兴研究领域。图像情感是图像的情感语义,是指由视觉刺激引发的一类情感信息[6],是图像带给用户的主观感受。由于图像底层特征到高层语义的映射通常为非线性变换的,难以建立模型,因此如何让计算机准确理解图像情感成为了研究者持续关注的问题[7]。基于此,本文试图以可视化的形式对图像情感相关研究按照时间演变的顺序进行揭示,从时间上整体把握图像情感的研究进程,在此基础上探索当下研究者在促进计算机理解图像情感语义中所采用的新措施与新方法,从而构建相关的图像情感研究框架,以期从理论上促进图像情感研究与新措施或方法的融合,为后续研究提供理论借鉴与指导。
1 图像情感研究的发展与趋势
本文以Web of Science核心合集(简称WOS,收录了10,000多种世界权威的、高影响力的学术期刊论文)和ACM全文数据库(收录了170个会议超过5,000卷的会议录文献)作为检索来源,以主题为“imagesentiment” or “visualsentiment”or “emotionalattention” or “visualattention”等相关词语为检索词,并在WOS中将文献类别限定为“article”,将检索结果按照相关性排序,在经过初步的文献筛选后,共获得261篇文献。笔者使用文献可视化分析软件VOSviewer对获得的文献进行可视化分析,结果如图2所示。图中以不同颜色的节点显示不同时间段的研究点。为了更直观地显示,笔者以不同颜色的虚线框并辅助箭头来展示研究点的时间演变。值得注意的是,不同颜色的研究点之间在一定程度上存在着关联,因此不同颜色的研究点之间不存在绝对的界线。
由图2可以看出,2010年前后,研究者关注较多的是图像处理、图像检索、图像标注等与图像相关的问题。2012年前后,运用图像外延层面含义或图像数据特征来挖掘用户的评价,在此基础上对用户的情感进行分析等相关研究[8]引起了研究者的关注。随后,由于社交媒体在人们日常生活中扮演着越来越重要的角色,情感分析与社交媒体的结合也越来越密切。研究者通过挖掘用户在社交媒体如Twitter、微博中构建或分享的文本及图像信息,分析或预测用户的情感[9]。为了让计算机更好地理解图像情感语义层面的特征,深度学习、视觉情感分析与图像情感相结合,成为了当下图像情感研究的发展趋势之一。
在对图像情感进行分析与预测时,首先需要定位图像中能引起情感的对象,排除不相关的对象,再依据特定的特征来推断图像所表达的情感[10]。由于图像情感会影响用户的视觉注意力,且从图像底层特征到语义概念层,用户视觉注意力的分布会有所不同,加之图像中与情感相关的刺激物会优先吸引用户的注意力[11],如可爱的婴儿或有毒的蛇,这使得利用用户视觉注意力来提升图像情感分析成为可能,同时也进一步促进了视觉注意力与图像情感的结合。基于可视化呈现的结果,笔者对基于视觉注意力的图像情感研究进行探讨,构建基于视觉注意力的图像情感研究框架,以期从理论上促进图像情感研究与新措施或方法的融合,推动图像情感与视觉注意力的融合与发展。
2 基于视觉注意力的图像情感研究方法与内容
2.1 数据来源与数据集
从视觉注意力的角度分析图像情感,其图像数据主要来源于社交媒体、图像搜索引擎、专门的图像网站或图像数据集。
Web2.0的发展推动了社交媒体的发展,使得用户可以在社交媒体上分享大量的文字和图像信息,这也使得社交媒体成为研究者在大数据环境下开展图像情感研究的重要平台。其中,微博[12]和Twitter[13]是国内外研究者获取用户图像数据的两个重要的社交媒体,研究者通过爬虫等方式,根据具体的研究目标,在社交媒体中挖掘用户分享与传播的图像资源作为数据源,以此来分析图像情感。
随着人工智能技术的发展,图像搜索引擎查全率与查准率在不断提升,专门的图像网站也越来越多。图像搜索引擎能方便快捷地检索到海量图像资源,而专门的图像网站聚合了大量的图像资源,因此均成为研究者获取图像数据的重要来源。谷歌图片搜索(Google Image Search)是研究者较为常用的图像搜索引擎;常用的专门图像网站有Flickr、Photo.net[14]等。研究者基于形容词名词对(Adjective Noun Pairs, ANPs)[15]等视觉情感本体,对图像搜索引擎或图像网站中的图像资源进行获取,以此作为后续研究的基础。
图像数据集是图像情感研究者主要使用的数据来源。研究者或基于已有的图像数据集进行分析[16],或从社交媒体、图像搜索引擎或专门的图像网站中获取图像资源,与前人已有的数据集进行整合,从而构建出新的数据集来进行图像情感的分析[17]。目前适用于图像情感分析的数据集有很多,如ImageNet①(目前世界上最大的图像识别数据集)、International Affective Picture System(IAPS,国际情感图片系统)[18]、PASCALVOC②(提供检测算法和学习性能的标准图像注释数据集及评估系统)、SUN③(对背景进行标注的图像数据集)、WIDERFACE④(人脸检测基准数据集)等,其中也不乏有结合用户视觉注意力特征的图像情感数据集,如表1所示。随着用户视觉注意力(如眼动特征)与图像情感的结合越来越密切,相应的图像数据集也在不断被补充与扩展,数据集的内容也越来越丰富。
2.2 研究方法
在基于用户视觉注意力的图像情感研究中,研究者使用的研究方法主要有眼动分析法、机器学习、情感分析法、可视化分析等。
在基于视觉注意力的图像情感研究中,眼动分析法是收集用户眼动数据的重要方法。研究者招募一定数量的用户来进行实验,实验过程中采集用户的眼动数据,记录其行为特征[19],以此作为后续分析的依据,因此眼动分析通常是在用户实验中进行的。眼动分析为图像情感数据集的构建[20]、图像自动分类和图像情感的预测[21]等方面提供了支撑,是获取用户眼动数据的有效方式与途径。机器学习法在基于视觉注意力的图像情感研究中使用较多,原因在于这部分研究的目的多是与促进计算机更“理解”图像情感语义和更“懂得”用户相关,因此需要借助机器学习算法等方式来实现。机器学习是通过算法,使得机器能从大量历史数据中学习规律,从而对新样本做出智能识别或对未来进行预测[22]。然而机器学习本身的概念很大,在具体研究中,研究者较常用的是深度神经网络结构来进行研究[23,24]。深度神经网络是深度学习的基本结构,而深度学习是机器学习的分支[25]。研究者基于对图片情感语义的分析,从中抽取与图像情感相关的特征并决定特征的精度,经过不断的训练,构建一个理想的可以应用于实际生活中的模型,从而实现良好的分类或预测效果。
情感分析法在基于视觉注意力的图像情感研究中通常是与机器学习相关联。基于机器学习的情感分析的基本目标是用机器学习算法等方式,在识别图像对象的基础上识别对象的情感,并分析其情感倾向,抽取相关的要素。基于机器学习的情感分析包含多个子任务,如情感分类、情感标注、情感信息抽取等,这一系列子任务在基于视觉注意力的图像情感研究中发挥着重要的作用,是有效识别图像情感的重要方法。可视化分析可以帮助研究者将数据转换成图形或图像,并将数据以一种直观的方式展示出来,使得研究结果一目了然,促进他人的理解。
可视化分析在基于视觉注意力的图像情感研究中,常被用于用户与图像眼动交互的可视化揭示,或用于变化趋势的可视化揭示,如情感趋势的可视化分析中。
除了上述四个较为常用的研究方法以外,研究者也会采用统计分析方法进行相关研究。而在统计分析方法中,对于方差分析(ANOVA)的使用较多。研究者通常是运用方差分析来检验两个或两个以上的样本是否存在显著性差异[26],从统计学角度揭示不同样本在相同条件下的差异性。
2.3 研究内容
基于用户视觉注意力的图像情感研究主要与两个部分相关,即与图像数据集相关和与用户眼动行为相关。值得注意的是,与图像数据集相关和与用户眼动相关的研究内容不存在绝对的划分,两者间存在着密切的联系。用户及其眼动行为为图像数据集相关研究内容提供基础与支撑;而图像数据集相关研究内容最终会为用户提供更智能的服务。
2.3.1 与图像数据集相关的研究内容
(1)图像对象的识别与预测。图片是构成图像数据集的基本单位。由于图像从其底层特征到高层语义特征均蕴含着丰富的信息,为了让计算机准确理解图像情感语义,需要对图像从底层特征到高层语义特征之间进行映射。在建立映射过程中,对图像中的对象及其空间关系进行正确识别是获取更高层语义的基础[27]。当用户视觉与图像特征相结合时,从用户视觉的角度来识别图像中的对象,并对对象进行建模与预测[28,29]是研究者关注的主要内容之一。对图像对象,特别是图像中包含情感的内容(如“雄伟的山峰”,“雄伟”是图像中能显示出情感的内容)进行准确识别,可以为基于图像情感的图像自动分类提供帮助。
(2)新数据集的构建。对于图像情感相关的研究者而言,图像情感数据集是支撑其研究的重要数据来源。将用户视觉特征特别是眼动特征与图像相结合,可以从用户眼动的角度来分析图像情感,然而当前能反映图像情感的眼动数据集较少,不能很好地满足深入研究的需要。基于已有的图像数据集,研究者[30]将已有数据集作为基准,从社交媒体、图像网站、图像搜索引擎中获取和补充情感图片以使图像数据更多样化,从而构建出内容更为丰富的图像数据集,为后续研究提供支撑。
(3)模型的构建与预测效率的评价。情感建模是情感计算的主要研究内容。情感的数学模型被认为是实现和谐人机交互的关键组成部分[31],模型的构建可以为后续的预测分析提供帮助。基于数据来源或已有的研究结论,研究者构建与训练相关模型,并通过一系列测试来优化模型,对模型的预测效率进行评价,从而实现基于图像情感语义的图像自动分类[32]、人类情感反应和复杂场景注意力之间关系的量化[33]、加强不同情态特征预测的情感标签之间的一致性[34]等目的。
2.3.2 与用户眼动相关的研究内容
(1)用户眼动特征的识别与挖掘。用户是与图像及图像系统交互的主体,也是图像及图像系统最终服务的对象。将用户视觉注意力特征与图像情感相结合的过程中,最重要的是采集用户与图像交互过程中的眼动特征。用户的眼动数据是构建相关图像数据集的基础,也是预测图像情感的重要指标。图像与用户眼动特征之间存在着相互影响的关系。一方面,不同内容的图像会影响用户的注意力,用户会优先把注意力集中在与人类相关的图像中,且会优先把注意力放在与情感相关的内容(如人的笑脸、美味的食物)而不是与非情感相关的内容(如图像中的模糊背景)[35];另一方面,具有不同特性的用户,在与相同图片进行交互时,其眼动特征也会不同,如在观察同一张图片时,具有“显性”特征的用户群体(即认同该图像所表达情感的用户),其眼睛注视点较为集中,而具有“隐性”特征的用户群体(即不认同该图像所表达情感的用户),其眼睛注视点较为分散[36]。
(2)眼动特征与图像情感关系的挖掘。将用户视觉注意力及眼动特征与图像情感相结合,可以在捕捉到用户注意力及眼动特征的前提下,为用户提供基于图像情感的检索与推荐服务。这部分研究是要探索图像和用户之间的关系。目前国内外相关研究者在积极从事这方面的研究,但研究成果相对较少。虽然前人[37]研究表明,“显性”特征的用户群体和“隐性”特征的用户群体在观察同一张图片时的眼睛注视点存在差异,但总体上差异并不明显;然而也存在着特例,如当不同特征的用户在观察一张被标注为“漂亮的车”的图片时,其眼动特征却存在着显著性差异。这一现象进一步反映出了当前从用户眼动角度来预测图像情感的研究需要进一步扩大和深入,以得出一般化可推广的结论,使得研究能更好地服务于用户。
综合前人的研究可以发现,当前研究较多集中在技术方面,即从技术角度出发,围绕图像数据来源,对图像及其中的内容对象进行挖掘,或利用技术来量化用户眼动和图像情感之间的关系。然而,不管是图像情感眼动数据集的构建,还是用户与图像交互时眼动特征的识别,用户在基于视觉注意力的图像情感研究中具有不可或缺的作用。但从目前的研究来看,相较于技术而言,从用户及用户眼动行为的角度进行的研究较少。通过采集不同情境下用户与图像交互时的眼动数据,探索影响用户眼动的图像情感语义因素,挖掘不同用户群体在与表达不同情感的图像进行交互时的眼动特征差异等,可以为后续预测或推荐提供支持。
3 基于视觉注意力的图像情感研究框架
基于用户视觉注意力的图像情感研究的目的,是将用户视觉注意力特征与图像情感研究相结合,让计算机“理解”用户和图像情感语义,从而减少“语义鸿沟”。当前用户视觉注意力的捕捉通常是通过捕捉用户眼动的形式来进行的。
在进行相关研究时,选择合适的研究方法是整个研究过程的关键;而研究能真正推动学科或社会的发展并实现其应用价值,又是研究者最终要实现的目标。为了促进图像情感研究与新措施或方法的融合,促进用户视觉注意力与图像情感的融合,本文基于上述分析与探讨,构建出基于视觉注意力的图像情感研究框架,如图3所示。
数据层是框架的基础和支撑。基于视觉注意力的图像情感研究的数据主要来源于社交媒体、专门图像网站、图像搜索引擎、图像数据集等。各数据源间也存在着一定的联系,如图像数据集的数据也主要是来源于社交媒体、专门图像网站、图像搜索引擎等。基于研究目的,研究者通过一定的规则或措施,如形容词名词对(Adjective Noun Pairs),在上述数据源中检索并获取其所需的图像资源,从而构建出信息更为丰富的图像数据集,以支持后续与图像情感相关的识别、建模、预测和评价等分析。用户视觉注意力的获取是构建包含用户眼动特征的图像数据集的关键,通过捕捉用户在观察图像时的眼动情况,分析用户眼动特征,可以构建出相关的图像情感数据集,为后续研究提供资源支撑。
方法层是框架的核心。采用合适的方法有利于数据的挖掘与正确分析,而方法的有效利用与组合有利于多种数据的挖掘,以实现从多个角度定性或定量分析数据的目的,从而提升研究的科学性和有效性。图像来源多种多样,因此选择适合于研究目标的图像数据集或来源是进行研究的基础。对于所获取的图像数据,应根据具体的研究问题,选择合适的研究方法来对图像数据进行研究。如捕捉用户的眼动情况可以借助眼动仪等设备,采用眼动分析法、机器学习等方法,分析用户在与不同类型的图像进行交互时的眼动特征。将用户眼动特征与图像相结合的同时,辅助问卷调查法、访谈法、出声思考、情感分析等研究方法,可以了解用户情感,揭示当图像给用户带来主观情感时,用户的眼动情况及特征,从而挖掘用户视觉注意力特征与图像情感之间的关系。以数字敦煌的图像为例(如图4所示),在数字敦煌网站中,以“飞天”为检索词,可以获取与“飞天”相关的洞窟16座,将相关的图像作为数据来源,可以使用众包的方式来对图像进行情感分类或标注。基于分类结果,可以通过用户实验等方法,借助眼动仪等眼动设备,对表达相同情感图片和不相同情感图片进行视觉情感分析,揭示相同图片对不同特征的用户所带来情感的差异,或不同图片对相同特征的用户所带来情感的差异,从而建立用户视觉注意力与图像情感之间的关系。
内容层是研究目的的具体体现,是当前研究现状的体现,也是该框架的主要部分。利用多样的研究方法可以对图像情感数据集、用户行为、图像情感与用户行为间的关系等方面进行深入探讨,促进计算机对用户和对图像情感的“理解”。
应用层是一系列研究最终所要达到的目标,是研究最终服务于用户的表现。一方面,基于视觉注意力的图像情感研究可以为用户提供多样的预测与推荐服务,具体而言,通过捕捉用户的眼动特征,可以①预测用户喜欢的图像类型,从而为其提供推荐服务,如推荐图片、视频甚至音乐(基于音乐专辑的封面或MV);②了解用户视觉偏好,掌握其认为的重要内容;③实现基于图像情感特征的图像检索,提升检索的准确性,以满足用户需求;④为图像推荐系统的冷启动问题提供帮助,为解决对新用户如何进行图像推荐的问题提供新思路。
另一方面,基于视觉注意力的图像情感研究可以在多个领域得到应用,如智慧博物馆和智慧美术馆的建设。在数字人文领域,基于视觉注意力的图像情感研究可以促进数字人文的发展。以“数字敦煌”为例,敦煌石窟壁画和彩塑的洞窟有500多个,目前有30个经典洞窟的高清数字图像及虚拟漫游体验正式上线“数字敦煌”资源库。石窟壁画具有极高的历史与文化价值,蕴含着丰富的语义信息包括情感语义信息,而将用户视觉注意力和石窟壁画相结合,挖掘用户在观察、学习与了解不同石窟壁画时的眼动特征,可以了解用户在观察不同类别的石窟壁画时其认为重要的部分,从而为不同类别的石窟壁画在数字化显示过程中提供建议;此外,在挖掘用户眼动特征和石窟壁画情感语义关系的基础上,可以了解用户对于石窟壁画类型的偏好,从而可以向用户推荐其感兴趣的壁画,使得我国的文化瑰宝更大程度上被用户熟知,促进文化遗产的保护与传承。
4 结语
从视觉注意力的角度分析图像情感,是当前图像情感相关研究发展的重要方向。本文以可视化的形式揭示了近年来图像情感相关研究的时间演变进程,在此基础上揭示当下图像情感研究发展的趋势,发现当前图像情感研究与用户视觉注意力结合是重要的发展趋势之一,而用户视觉注意力多以捕捉用户眼动的形式来呈现。在探索已有研究所采用的研究方法和研究内容并对其进行梳理与总结的基础上,本文构建了基于视觉注意力的图像情感研究框架,该框架包含了数据层、方法层、内容层和应用层。该框架直观展示了各层级和层级内部的关系,揭示当前研究的特点,可以为后续研究提供理论框架支持,从而进一步推动视觉注意力和图像情感相融合的研究及其应用。
*本文原载于《图书情报知识》2020年第6期101-108页
版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。
制版编辑 | 姚志臻
END
当期荐读 2020年第6期 | 公共文化云服务的评价指标构建及应用(内含视频摘要)
当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(九)
当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十)