作者 | 黄程韦博士、刘刚、包飞博士、杨现博士、孙皓博士、沈艺博士
来源 | 苏宁零售技术研究院
零售商需要不断通过创新服务来提高顾客的购物体验,而情感计算在该领域具有独特优势。它在零售行业的应用,主要集中在提升购物体验的服务中。在这个科技逐步改变生活的世界里,《Her》的导演斯派克·琼斯,用他敏锐的视野和温柔的想象力,为我们创造了一场美好的新科幻爱情。而仅以声音出演的女主角扮演者斯嘉丽,也成为第一个用声音获奖的女演员。《Her》讲述的是,宅男作家西奥多和人工智能系统“萨曼莎”的恋爱故事。导演表示,这是一部探讨“亲密关系”的电影。当人们渴望却又害怕亲密关系的时候,人工智能便为沟通提供了便利。“萨曼莎”不仅没有科技的冰冷面孔,还能理解、欣赏和鼓励男主人公,同时拥有强大的大脑,在写作、音乐和绘画上也有极高造诣。她可以陪伴和帮助脆弱的男主认识自己,度过人生危机。
这部电影,一度被认为是人与机器未来关系的最美试探。而科技进步,也让这个电影有望成为现实。人工智能之父马文·明斯基曾提到过,“如果机器不能够很好地模拟情感,那么人们可能永远也不会觉得机器具有智能”。面部表情、语音、文字、肢体动作、生理信号等作为人类情感表达的主要方式,其中蕴含了大量有关人类内心活动变化的信息。在人们的认知中,是否具有情感,正是人与机器的分界线。人类对科技的探索总是知难而上,当前热门的情感计算研究就是试图创建一种能感知、识别和理解人类的情感,并能据此做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样的观察、理解和生成各种情感特征的能力。- 外部表现阶段:在情感状态发生时身体各部分的动作量化形式,即表情;
早在1997年,MIT的Picard教授就提出了“Affective Computing”(情感计算)概念。情感计算研究的发展,在很大程度上依赖于心理学和认知科学对人的智能和情感研究所取得的进展。在情感计算的研究中,情绪识别是最基础、最重要的内容之一。而情绪识别主要是通过面部表情、语音、文字、生理信号等模态的数据,来识别出人类的各种情绪,包括:快乐、惊奇、悲伤、恐惧、厌恶、鄙视、愤怒、沮丧、疲劳、平和等。近几年,出现了各种各样的方法和技术来识别用户的情感,例如:面部表情识别、姿态识别、自然语言处理、人体生理信号识别、多模情感识别、语音识别等。人机情感交互则包括人脸表情交互、语音情感交互、肢体行为情感交互、文本信息情感交互、情感仿生代理、多模情感交互等。1、人脸表情识别和肢体行为识别,都是利用生物特征分析的方法,提取被观察者的情感特征。被观察者情绪变化都会通过表情变化、举手投足表达出来,而且这种表达往往更加真实。人脸表情识别是利用人脸的面部信息分析判断表情,传统的方法有基于全局或局部特征的静态图像分析方法;基于光流变化、主动形状或者几何规则的动态多帧方法,例如比较经典的AAM、ASM方法。深度学习的兴起,也大大推动了表情识别算法的进步,降低了特征工程的复杂度,无论是关键点信息提取的准确性,还是表情分类的准确性都有了很大的提升。目前,简单的表情识别已经相对成熟,笑脸抓拍、疲劳驾驶的判断等技术应用已经深入到我们的日常生活中。随着研究的深入,研究人员将精力聚焦在更为复杂的微表情识别中,这种表情持续时间更短,表达了被观察者试图隐藏的真正情感,微表情识别在安全、金融、司法等领域也有极大的研究价值。2、语音情感交互,顾名思义是通过语音交互的方式,获取并传送给交互双方情感维度的信息。在人机交互领域,语音情感交互的核心,就是如何准确地获取到用户的语音情感信息,以及机器如何用语音反馈处理情感的信息。语音情感信息的识别算法,和语音识别、声纹识别、语音异常事件识别的算法有很多共通的地方,即都是通过对声音信号的特征提取、处理,实现分类器所需的模型训练,最终利用分类器来对识别的情感类型进行预测。从上世纪主要依托挖掘、分类器设计的方法,到日趋占据主流地位的深度学习框架,情感识别的准确率也不断提升。但是,相对于其他的识别领域,在深度学习的发展下,大多已经不再重视特征选择,众多的语音情感识别研究人员,仍然保留了较识别和声纹不同的特征提取方案,比如,慕尼黑的开源的媒体特征空间提取(openSMILE),至今都是语音情感识别领域的经典工具。既然是交互,处理语音情感识别,不得不提的还有语音情感表达,这也是语音合成里的一个重要的技术指标。在端到端语音合成方案问世之后,人们对于语音合成音色以假乱真的诉求基本得到了满足,朝着对韵律、节奏等细节的“情感化”提出了新的要求。如何挖掘出说话人情感在语音中细微的变化,并通过迁移学习、强化学习等方法快速给语音合成赋能,是广大研究人员正在探索和解决的热点。3、针对文本内容的情感分析,一直是自然语言理解和情感计算的重要问题。不同于图像、语音的情感计算,基于文本的情感分析可以从多维度多层次进行细致的分析,并得到有明确意义的分析结果。人类的情感不是单一的,而是有着丰富的维度,例如:恐惧、愤怒、失落、兴奋等等。针对每一种情感,又有不同的情感强度。准确把握交互过程中对方的情感状态和情感强度,能够指导应答系统,及时调整应答方式,给对方更加有温度的应答。在客服等场景中,识别用户的负面情绪,并给予针对性的安抚能够大大提高用户体验,减少用户投诉。同时,文本的情感分析又可以从对话、语句和属性多个层次入手。对话层次的情感计算获取整个对话过程中用户的情感倾向,反映了用户整体的感受。句子层次的情感计算可以及时感知用户情绪的转变,从而迅速做出调整。而属性层级的情感计算则可以提取出用户的观点。例如,售后对话中用户可能会有如下对白—— “快递是很快,小哥人也很 nice,就是这个手机的电池太糟糕了,一点都不好。”属性层级的情感分析能够找到用户不满意的是电池,而对快递员则赞赏有加。那么在做应答的时候,我们就可以给出针对性的安抚,而不笼统地说一句“对不起”。这就是文本情感分析的独特和有趣之处,除了感知用户的情绪,你还可以很明确地知道他因何开心,又为何感伤。这为更智能的应答提供了基础。4、多模态情绪识别。现有的情绪识别技术大多是通过单模态数据来识别,而单模态的数据对不同情绪的敏感度存在差异,对准确识别情绪存在一定的限制,往往不能充分表达人类所传递的情感信息,因此对于多模态情绪识别的研究受到越来越多的关注。随着5G时代到来,移动智能端与人们的生活、工作、学习的关系越来越紧密,从而可以通过多种智能终端来收集情感计算所需的多模态数据,这将有利于训练多模态情绪识别的算法模型,而多模态的数据融合可以对情绪信息互相补充,能够保证识别情绪的准确性。现有的多模态情感识别过程大致可分为两类:一类是对各模态信息在特征级进行融合,另一类是对各模态信息在决策级进行融合。对于特征级融合,首先对各模态信息进行预处理,其次提取各模态特征信息,然后对各模态特征进行融合,最后使用分类算法对融合后的统一特征进行分类预测。在进行特征级融合时,需要注意各个模态特征之间的同步性以及信息冗余的问题。对于决策级融合,只需要对各模态数据进行预处理和特征提取,与特征级融合的不同点在于不进行特征融合,而是为每一种模态选取分类算法,得到每种模态信息的预分类结果,最后使用决策层融合方法进行判决,获得最终的分类结果。决策级融合算法主要包括:最大值最小值(maxmin)法、乘积法、求和法、平均值法、投票法等。目前,相对比较准确的多模态情感识别技术,是采用特征级融合算法。通过采用深度信念网络来融合生理信号、视频中的人脸表情特征与行为特征、语音信号的特征,来准确识别情绪,其中,生理信号包括ECG特征、SCL特征、tMEG特征等。进而,通过使用支持向量机对多模态融合的特征进行分类,得到最终的情绪识别结果。随着情感计算技术的快速发展,人脸表情识别、声纹识别、人机情感交互已成为人工智能领域的研究热点,在零售、教育、临床医学、心理分析、车辆监控等商业领域都有着广泛的应用,涌现了Affectiva、竹间智能、阅面科技、蜜枣网等一大批以情感计算技术为核心的创业公司。Affectiva公司采用深度神经网络和语音技术,通过车内摄像头和麦克风,收集面部和声音数据,以识别车辆中人们的情绪,可以实现:监控驾驶员的疲劳程度与分心,判断是需要自动驾驶还是人工驾驶,监控驾驶员的生气状况等。Affectiva联合创始人兼CEO Rana el Kaliouby其中,数据计算全部在本地处理。深度神经网络在像素级别,分析面部数据以对面部表情和情绪进行分类,语音技术通过分析声学的韵律特征(音调、节奏、响度、暂停模式),以识别语音情绪。阅面科技推出的情感认知引擎“ReadFace”,是由云和端共同组成,嵌入任何带有摄像头的设备来感知并识别表情,输出人类基本的表情运动单元、情感颗粒和人的认知状态。其情感认知引擎被广泛应用于互动游戏智能机器人(或智能硬件)、视频广告效果分析、智能汽车、人工情感陪伴等领域。竹间智能通过自主研发的NLP技术、人机交互技术(通过文字、语音、图像交互)与 “多模态情感识别模型”,能够读懂、看懂、听懂,有记忆、自学习,理解人类语言与情感。目前,其技术已经广泛应用于智能客服、教学质量反馈、广告效果评估等场景。蜜枣网将云计算、大数据和物联网等创新技术领域整合,在 Azure 智能云平台上,借助认知服务中的“人脸识别”和“情绪识别” API 部署具备人工智能能力的零售行业解决方案——锐智眼消费者体验智能分析系统,该系统能够赋予商场感知消费者满意度的能力,根据客流量、顾客情绪等实现及时的运营策略调整,将消费者体验数据化,从而给零售带来革命性的管理创新。此外,在苏宁内部,基于文本的情感分析也已经有了很多应用。例如,在客服场景中,通过判别客服人员的用语情感,发现态度不友好的描述。对于用户的购买评论,通过属性层级的情感分析提取用户观点,发现商品的核心优势,了解服务中待改进的点。苏宁联合竹间智能在CES上发布了虚拟AI购物助手Sue因此,可以看出情感计算主要是采用卷积神经网络和NLP技术来识别情绪,在驾驶、零售、教育等行业的应用较为成熟。其中,在零售行业中的应用场景较为丰富,包括:消费者购物体验提升、店员服务质量提升、广告优化、智能客服等场景。根据苏宁零售技术研究院的市场调研发现,情感计算在我国正处于兴起阶段,以现有的算力和数据作为支撑,将促进情感计算的发展与应用加速落地。在零售行业中,随着情感计算的不断发展与应用,将会促进零售销售额的不断增长。其中,顾客情绪状态直接导致消费增长,店员对顾客的交互服务,直接导致顾客的体验提升,这将增加门店的复购率和销售额。根据苏宁零售技术研究院的研究预测,情感计算技术将会为门店销售额带来显著提升。零售的唯一产品是服务,零售商需要不断通过创新的服务来提高顾客的购物体验,情感计算在该领域具有优势。情感计算在零售行业的应用,主要集中在提升购物体验的服务中,例如:消费者购物体验提升、店员服务质量管理、消费者兴趣检测等。在线下门店的门口,通过大屏幕广告牌,达到引流、促销的效果。当不同的顾客经过小店门口时,传统的做法是不分男女老少,投放预先设定的广告。这种情况下,由于目标受众比例较低,造成广告位资源无效时间比例高。采用情感计算技术,根据辨识到顾客的客群属性,在几种广告内容之间切换,使特定广告的投放时间段内受众比例大大提高,提高促销效果,让顾客更容易看到自己感兴趣的广告,提高引流效果。相关研究发现,消费者对消费体验的感受由两个因素决定:高峰和结束时的感觉,无论是好的、不好的,我们感受最深的那刻,将会定性对这次体验的印象,这里的“峰”与“终”其实这就是所谓的“关键时刻MOT”。这也是2002年诺贝尔经济学奖获奖者、心理学家Daniel Kahneman 提出的与用户体验相关的有趣定律,叫峰终定律(Peak-end rule)。简言之,该定律为通过操纵交互序列的刺激分布,来间接影响用户体验的想法提供了理论基础。已经被广泛应用于服务领域。基于峰终定律,苏宁零售技术研究院研究发现,消费者在门店购物时的峰终节点包括:到店、进店、存包、使用购物篮、购前咨询、选购、增值服务、公共服务、结算、离开。其中,峰点是选购和结算,因此,零售商需要重点在这两个节点上提升消费者购物体验,这将会提升消费者整个购物阶段的体验,达到事半功倍的效果。定量化研究是研究客观世界的起点,而对人内心的感受和体验的测量,能够改变科技与消费者之间的关系,让门店里的每个环节精准、及时、高效的服务顾客。从进店开始,通过视频和声音,记录用户在店内的行为数据,识别微笑、焦急、犹豫不决等用户体验的表观现象,深入分析现象背后峰终定律的指导作用。改变服务节点的设置,从当日的客流数据上直接看到体验高峰的变化,实现对体验管理和研究的数字化。通过顾客在店的图像和视频数据进行情感计算,目前是一个新兴的研究领域。通过图像可以获取顾客的人脸信息,包括性别、年龄、尤其是表情信息,这可作为情感情绪的最直接表达。除此之外,肢体动作信息也是获取人情感情绪的一种重要参考手段。肢体语言是人的一种潜意识投射,常常被人们忽略。例如,两腿叉开的动作表达了想引起他人重视的信息,而两腿交叉则表达出消极和戒备的情绪。研究表明,一个人向外界表达的信息,纯粹的语言方式只占7%的比重,38%是通过语调,55%的信息都是要由非语言的体态信息来表达。因此,可以通过对视频中人的肢体动作检测,和跟踪手段来分析肢体语言,提取出情感情绪信息。视频中包含丰富的时空信息,结合这些时空信息,结合深度学习算法,可以高效地进行人的肢体骨骼线的提取跟踪,即便在有部分遮挡的情况下也可以较好提取肢体信息,然后建立肢体信息与情感情绪信息的映射模型,将连贯的肢体动作投射到对应的情绪类别中,获取人的情感信息。另外,还可以提取视频中人的行进轨迹和步速步频,辅助情感分析。为了提高情感计算的准确度,可以将这些视频中提取的情感信息,与图像中的人脸表情、年龄性别等属性信息,以及其他模态信息进行多模态信息融合。这种融合的方式可以采用特征级融合或者决策级融合。即将各模态网络模型提取的特征进行级联、叠加等方式合并后,进一步情感计算,或者将各模态网络模型的情感分析结果进行加权分析,得到决策的统一。顾客与店员的交流是很重要的购物体验时刻,在顾客与店员交谈时,通过麦克风收录店员与顾客的对话音频,分析顾客与店员的情绪,同时结合对顾客的人脸情绪识别,帮助店员及时、恰当地安抚顾客情绪,提高顾客购物的积极性,同时帮助店员管理服务时的情绪。情感计算是一个高度综合化的研究和技术领域。通过计算科学与心理科学、认知科学的结合,研究人与人交互、人与计算机交互过程中的情感特点,设计具有情感反馈的人与计算机的交互环境,将有可能实现人与计算机的情感交互。情感计算研究将不断加深对人的情感状态和机制的理解,并提高人与计算机界面的和谐性,即提高计算机感知情境,理解人的情感和意图,做出适当反应的能力。苏宁零售技术研究院认为,情感计算的研究将会聚焦在以下方面:1、情感的来源与本质特征的表示。 在情感计算过程中,不同的情感分类特征均反映出情感的本质来源特征,未来将会通过脑科学、认知科学、心理学等交叉学科的研究成果来深入理解情感的产生来源,以及情感认知的本质特征。2、多模态条件下的情感计算。 目前的情感计算大多是在某一种特定的数据类型条件下来开展的,情感特征的获取方式与特征的表示方式相对较单一。但是在实际情况下,情感往往会涉及到不同的数据来源和各种相关因素的相互影响,即多模态下的情感计算,如何从多模态的角度进行情感信息的融合、识别与理解,实现自然和谐的人机交互,已成为了目前一个关键性的技术热点。3、情感的个性化度量。在情感识别与认知的过程中,一些不同区域、文化、不同性别、不同年龄或者不同教育程度等个性化特征的差异,对情感的识别与度量将产生显著影响。4、基于细微情感表示的情感计算算法持续改进。情感计算不同于一般的分类问题,情感容易受到外部环境的影响,目前使用的DNN不仅需要大量数据,计算的过程也无法理解。在未来的情感计算研究中,GAN、Transfer Learning、Never Ending Learning、Lifelong Learning算法框架将是研究情感计算的重点关注方向。因此,在人和计算机的交互过程中,计算机需要捕捉关键信息,识别使用者的情感状态,觉察人的情感变化,利用有效的线索选择合适的使用者模型(依据使用者的操作方式、表情特点、态度喜好、认知风格、知识背景等构建的模型),并对使用者情感变化背后的意图形成预期,进而激活相应的数据库,及时主动地提供使用者需要的新信息。本文为“苏宁零售技术研究院”原创。致谢苏宁科技集团人工智能研发中心许立群、包飞、杨现、孙皓、沈艺等产品专家、技术专家提供专业观点。
欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!
推荐阅读