查看原文
其他

机器能识别情感吗?

本文选自《新华文摘》2022年第10期国外社会科学栏目

作者:约翰·麦奎德    翻译:施怿


1

监控遍布的社会

在英国利物浦,正在进行着一场关于政府采购的有些乏味的会议。当时是2020年2月,会议的展厅里摆放着各种各样的陈列品。参会者在这些展品间四处走动,时而在某些展品前停留,其他时候则直接绕过。与此同时,他们也被密切地“监视”着。整个楼层安置着24个不显眼的摄像机,用于追踪每个人的活动。人的表情变化是通过面部肌肉运动产生的,因此当参会者面对不同展品时,面部肌肉会发生不同程度的收缩。尽管这些变化很细微,但24个摄像机将以每秒5到10帧的速度进行拍摄。随后,拍摄好的照片会传送到计算机网络,利用AI算法评估每个人的性别和年龄,并分析他们的面部表情。最终,系统会从中找到表达“幸福”和“投入”的信号。

尽管利物浦的会议已经过去了一段时间,帕诺斯•穆塔菲斯仍然对“监视”的结果感到兴奋。穆塔菲斯是一家名为“Zenus”公司的首席执行官。这家公司位于美国得克萨斯州奥斯汀,为会议上的面部表情分析提供了AI技术。“在我见过的商用AI系统中,很少能达到这样的准确度。”他在视频通话中对我这样说道。他还向我展示了一张人群照片,人群中的一些脸用方框框了出来。为了使AI系统学会识别人的情感,Zenus的工程师对系统进行了“培训”。他们选取了一个庞大的面部表情数据集,每一个表情还标注着对应的内心感受,并用这个数据集训练AI系统识别情感的能力。为了验证培训后的AI系统识别情感的能力,Zenus的工程师尝试过多种方法。其中包括现场测试,也就是在一个人说出当下感受的同时,用摄像机拍下这个人的脸。穆塔菲斯说:“这种AI系统能在多种环境中识别人的情感,例如在室内、在人们戴着口罩的条件下,或是在没有灯光时,又或者是在室外、当人们戴着帽子和太阳镜时。”


2

能识别情感的机器

最近有一种被称作情感AI(emotion AI)或情感计算(affectivecomputing)的新兴技术,它将摄像机和基于AI程序的其他设备结合在一起,用来捕捉面部表情、肢体语言、语调等线索。其中,Zenus开发的AI系统就是这项技术的一个示例。值得一提的是,情感AI的目的不只是为了辨认并辨别面部表情,更重要的是要揭示出此前技术无法察觉到的信息,例如照片中人的内心感受、动机和态度。2019年曾写过一篇题为《机器人监视的黎明》报告的杰伊•斯坦利说:“现在摄像机变得越来越智能。它们正在觉醒——不再只是无声地记录人的活动,如今它们还能分析所记录的信息。”

可想而知,情感AI已经成为一种流行的市场调研工具,但除此之外,情感AI还被应用在了风险更高的领域。例如,有AI系统能读出与感受、性格和意图相关的线索,而人们正在计划或已经将这些系统用于检测边境检查站的威胁、评估求职者的能力、监控是否有扰乱课堂或打瞌睡的行为,以及识别攻击性驾驶行为的迹象。主流汽车制造商计划将这项技术应用于未来的汽车。科技公司则结合人脸识别技术,提供基于云计算的情感AI服务,例如美国亚马逊、微软和谷歌。此外,数十家初创公司也推出了可以帮助企业招聘的应用程序。在韩国,利用AI招聘的做法已经十分普遍,因此职业培训师往往会让他们的客户练习如何通过AI面试。

为了识别情感和行为,AI系统需要使用多种类型的数据。除了面部表情、语调和肢体语言,它们还能通过分析口语或书面语的内容,获取其中包含的情感和态度。还有一些应用程序收集数据,不是为了探究情感,而是为了得到与情感相关的信息。例如这个人具有什么样的人格,是否关心应用程序的内容,以及是否会对社会构成潜在威胁。

但批评人士警告称,情感AI的潜在危险可能不是AI自身能控制的。这是因为工程师在训练AI时,可能使用的是有种族、民族和性别偏见的数据集,这些偏见又会反过来影响算法的结果。

情感AI背后的科学原理也存在争议。这要追溯到半个世纪前,心理学家保罗•埃克曼和华莱士•弗里森根据研究将一组面部表情与基本情感对应在了一起,他们认为这些面部表情是通用的情感语言。其中6 种基本情感包括愤怒(anger)、厌恶(disgust)、恐惧(fear)、快乐(happiness)、悲伤(sadness)和惊讶(surprise),随后,埃克曼经过研究发现蔑视(contempt)很有可能是第7种基本情感。不过现在,埃克曼和弗里森的观点受到了极大的争议。这是因为科学家发现面部表情可能具有显著的文化和个体差异。许多研究人员表示,至少目前在分析不同个体的面部表情时,算法还不能用一套规则正确地识别出表情的细微差异,因为有时候不同个体的表情不能与典型的内在感受对应起来。埃克曼对早期情感识别技术的开发作出了重要的贡献,值得一提的是,现在他认为这项技术会对隐私构成严重威胁,应该受到严格的监管。

情感AI其实本质上并不坏。专家表示,如果能让机器学会可靠地解读情感和行为,情感AI将会在机器人、卫生保健和汽车等领域表现出巨大的潜力。不过现在,这一领域几乎是一片“混战”,也许最终会有一种未经验证的技术占据主导地位而变得无处不在。然而,未经验证的技术会对社会带来危害,到那时我们可能会对此措手不及。


3

用AI 来招聘

2018 年,时任美国爱塔梅尔(Airtame,开发具有屏幕共享功能的设备)人力和商业运营副总裁的马克•格雷想要找到改善公司招聘流程的方法,包括改善招聘的效率。一方面是因为尽管爱塔梅尔的规模不大,一共拥有约100名员工,但有时候公司会收到数百份申请市场营销或设计岗位的简历。另一方面是因为录用决策的主观性。“有很多次,我都觉得潜意识里有个人说‘噢,我很喜欢这个人’,而不是‘这个人的能力很强’。事实上,招聘的世界里充满了无形的东西,因此我想弄清楚如何才能在招聘中加入有形的考量。”格雷解释道。

美国爱塔梅尔与德国慕尼黑的Retorio公司达成了一项合约,其中Retorio开发了一种能用在视频面试中的AI系统。视频面试的流程很快,应聘者只需要录制60秒的视频来回答2到3个问题。随后,用算法分析应聘者的面部表情和声音,以及他们回答的内容。然后,根据“大五”人格模型(OCEAN,一种心理学中常用的人格结构模型),为每位应聘者生成基于5种人格特质的档案。这5种人格特质分别为开放性、责任心、外倾性、宜人性和神经质性。通过比较应聘者的档案和职位描述,系统会按照匹配度为应聘者排序,最后招聘人员就能得到一份应聘者的排名列表。

事实上,类似的软件已经开始改变商业决策的制定方式,以及组织与人的互动方式。它重塑了爱塔梅尔的招聘流程,使他们很快就选拔出了更适合的应聘者。格雷说,这是因为生成的档案很有用。他分享了一张图表,图表显示了最近招聘的几名销售人员中,工作表现与5种人格特质得分之间的关系,其中在责任心、宜人性和开放性方面得分较高的员工表现最好。

长期以来,能理解人类情感的机器一直是科幻小说的主题。但在计算机科学和工程领域,在很长一段时间里,人类情感都是一个陌生的概念。在20世纪90年代,“它是一个禁忌话题,并不受欢迎。”美国麻省理工学院(MIT)的罗莎琳德•皮卡德说。

皮卡德和其他研究人员开发了能自动读取和响应生物特征信息的工具。其中,生物特征信息涵盖从面部表情到血液流动的范围,能用于指示情感状态。不过,如今情感AI应用场景的激增要追溯到2010年初,当时深度学习开始被广泛应用。深度学习是一种基于人工神经网络的强大的机器学习形式,其中人工神经网络的原型是生物神经网络。深度学习提高了AI算法的能力和准确度,使一些以前只有人类才能可靠完成的任务实现了自动化,例如驾驶、人脸识别以及医学影像分析。


4

AI 的算法偏见

然而,这样的AI系统还远远不够完美,而且情感AI处理的是一项极其艰巨的任务。算法本来应该反映的是关于世界的真相,例如它们应该把苹果识别为苹果,而不是桃子。机器学习中的“学习”是反复比较原始数据和训练数据的过程。其中,原始数据通常是图像,也包括视频、音频等数据,不过这些原始数据没有独特的特征,而训练数据则标注了与智能任务相关的特征。这就是AI系统学习提取潜在共性的方式,例如从苹果的图像中提取“苹果感”,从而能从任意图像中识别出苹果。

但是,如果AI系统的任务是要识别人格或情感等难以定义的特质时,就更难获得真相了。例如,“快乐”或“神经质”究竟是什么样的?情感AI算法并不能凭直觉知道情感、人格或意图,相反,它们是通过训练学会模仿人类对其他人做的判断。其中,工程师会通过众包(crowdsourcing)的方式采集数据,来构建用于训练AI的数据集。批评人士认为,训练AI的过程引入了太多主观变量。美国南加利福尼亚大学的凯特·克劳福德表示:“这些算法做出的判断,与一个人的真实想法或情感状态之间存在巨大差距。因此,‘让机器像人一样感知情感’既是AI相关技术巨大的飞跃,也是有风险的一步。”

AI系统识别情感等特质的过程是复杂的,每一步都存在潜在的缺陷。深度学习对大量数据的需求是出了名的,因此情感AI也需要庞大的数据集。但这些数据集往往附加了数千甚至数十亿个人的判断。这可能会使算法在不经意间“学习”所有数据收集者的系统性偏见。算法会将这些系统性偏见集成在一起,形成“算法偏见”,这可能来自训练数据集的人口统计学偏差和数据标注者无意识的态度等。

即便是识别一个微笑也远非一项简单的任务。2020年,在德国GESIS-莱布尼茨社会科学研究所的一项研究中,卡斯滕·施韦默和同事利用亚马逊、微软和谷歌基于云计算的情感识别应用程序,分析了国会议员的照片。通过肉眼观察,研究人员判定照片中86%的男性和91%的女性在微笑,然而,应用程序的结果则更倾向于认为女性在微笑。例如,谷歌云视觉为超过90%的女性照片标注了“微笑”,而在男性照片当中,这一比例不到25%。研究人员据此推测,训练数据集可能存在性别偏见。而且,在研究人员对这些图像进行判断时,“模糊”是很常见的,但这常常会被机器忽略。“许多面部表情的含义并没有那么明确。那真的是微笑吗?傻笑也算微笑吗?如果照片中的人露出了牙齿,但看起来并不开心呢?”他们补充道。

事实上,大多数基于深度学习的人脸识别系统,因存在偏见而广受批评。

现在,许多公司都在强调,他们已经意识到了并正在试图解决“偏见”问题。德国Retorio公司的联合创始人克里斯托夫•霍恩贝格尔表示,他们已经在采取措施,以消除会使人格判断具有偏向性的各种偏见,例如人口统计学和文化偏见。但目前该行业还缺乏监管机制。因此,大多数情况下,我们不得不相信公司的一面之词,尽管我们很难验证公司专有数据集的稳健和公平性。HireVue是一家致力于视频面试的公司,他们使用算法分析应聘者的说话内容和声调,以此协助制定录用决策。与此同时,这家公司还会请外部审计师来检查算法是否存在偏见,但会这样做的公司还很少见。


5

关于科学原理的争议

美国北卡罗来纳大学的伊菲奥玛•阿琼瓦表示,情感AI不仅引发了对算法偏见的担忧,背后的科学原理也开始受到科学家的强烈反对。情感AI遵循的科学观点认为,每个人的外在表现都能与可解读的内心情感相匹配。而且,这种观点要追溯至50多年前。那时,埃克曼和弗里森正在巴布亚新几内亚做田野调查。他们在这里的东南部高地找到了原住民福尔人,并研究了福尔人识别和理解面部表情的方式。研究人员选用了几组能分别表达6种基本情感的表情图,并将图像展示给志愿者。结果发现,福尔人的反应与其他国家实验志愿者的几乎完全相同,例如日本、巴西和美国。因此,研究人员认为他们成功证明面部表情是一种人类通用的情感语言。

埃克曼和弗里森还描绘了一张包含数千种面部肌肉动作的“地图”,经分析得到了面部肌肉动作与表情之间的对应关系,从而创制出了面部行为编码系统(FACS)。值得一提的是,“地图”和FACS共同构成了情感AI的理论基石,如今已经被整合到了许多AI应用程序中。

对于埃克曼的理论,科学家提出过异议,认为它们存在漏洞。例如,2012年,一项发表于《美国科学院院刊》(PNAS)的研究表明面部表情在不同文化中存在很大的差异。2019年,在美国东北大学的心理学家丽莎•费尔德曼•巴雷特和同事分析了1000多篇关于面部表情的科学论文后,发现尽管认为外在面貌能反映内在感受的观点,已经拓展到了从技术到法律的多个领域,但几乎没有确凿的证据可以证明这种观点是正确的。

巴雷特说,基本情感是一种宽泛且刻板的分类方式。因为每时每刻,面部表情都在反映复杂的内在状态——一个微笑可能是在掩饰痛苦,也可能是在传达同情。她认为,现在AI系统还不能一致、可靠地分辨人的内在状态,这是因为本质上AI系统的训练数据是由标注好的刻板印象组成的数据集。“它是先测量某些特性,然后再推测其在心理上的意义,但这本来是两件截然不同的事。目前大肆宣传的情感识别技术经常将这两件事混淆在一起。”巴雷特说。

克劳福德说,造成这个问题的原因之一是,科技初创公司并不了解其他领域的科学辩论,而且这些公司被类似FACS的简约之美所吸引。“埃克曼的理论为什么会受到机器学习领域的青睐?”克劳福德问道。“这是因为埃克曼的理论很符合机器学习的特点。如果在一种理论中,表情的数量是有限的,而且表情可能对应的情感数量也是被严格控制的,这种理论就能用于构建机器学习模型。”事实上,除了埃克曼的研究结果和OCEAN人格特质模型,开发情感AI的公司还采用了其他理论体系。其中之一是已故心理学家罗伯特•普鲁奇克提出的“情感之轮”。所有这些理论都将人类情感的复杂性转化为了简单直接的公式。

尽管如此,研究人员认为,在了解情感应用程序的局限性后,我们可以据此做出改善,从而使它们发挥作用。阿亚娜•霍华德是美国俄亥俄州立大学工程学院院长,同时也是机器人专家。她利用微软面部表情识别软件的改良版,让机器人教自闭症儿童学习社会行为。例如,如果机器人检测到对话者出现了“愤怒”的表情,它就会调整动作以平息局面。霍华德说,典型的面部表情可能并不总意味着完全相同的情感,但它们仍然是有用的。“的确,我们都是独一无二的。但事实上,人与人之间的差异也没有那么大。因此,对于广义的情感来说,这些情感AI的判断也许不总是正确的,但并不只是碰巧对了。与随机相比,它们正确的可能性要更大。”她说。

总体来说,能扫描和集合许多人面部反应的算法将会更加准确,例如用来解读人群的算法。巴雷特说,这是因为在统计学上,随着群体规模的增加,“不可能”会变成“可能”,从而具有“比随机正确更大的概率”。但是评估个体是有风险的,因为任何准确率低于100%的事情都会造成对某些个体的歧视。

现在对于面部表情,许多计算机视觉专家更偏向于一种不可知论的态度,也就是说无法通过分析面部表情得到确切的结果。而且越来越多的公司表示,他们不会直接用面部表情来描述情感或内在状态。美国南加利福尼亚大学的乔纳森•格拉奇说:“随着这一领域的发展,人们越来越认识到,许多表情其实和情感无关。表情就像对话中有含义的词语,表情或词语都不能直接传达此刻的感受。”


6

潜在的隐私风险

随着越来越多的技术试图描述情感、人格特质和行为,并尝试将相关技术推向市场,我们的生活受到了更多的监视。在科技公司从网上行为中挖掘个人数据已经过去20年后,一个新的、更私密的领域准备做类似的事情,那就是采集人脸和肢体信息,以及它们所传达的信号。加拿大VSBLTY公司主要销售智能相机和用于扫描人群的软件,这些产品能为零售商分析消费者的人口统计特征和对产品的反应。2020年12月,VSBLTY宣布与墨西哥啤酒制造商莫德罗集团建立合作伙伴关系,计划到2027年,要在莫德罗集团旗下的5万家莫德罗拉马便利店,和墨西哥以及其他拉丁美洲国家的社区酒店里,配置店内摄像头来获取数据。

这就提出了一个基本的法律和社会问题:来自你的脸和身体的数据属于你自己吗?如果把个人身份与这些数据分开,在世界上大多数地方,答案是否定的。美国辛辛那提大学法学院教授詹妮弗•巴德研究过这一问题,她表示:“如果你想知道公共场所中一些人的信息,对他们进行扫描来识别情感似乎并不受到限制。”

大多数在公共场所采集数据的情感AI公司表示,他们收集的信息是匿名的,因此大众不必对此担忧。Zenus公司的穆塔菲斯指出,Zenus的应用程序不会上传相机捕捉的真实人脸图像,只会上传有关情感和位置的元数据。在进行监视时,他们会在会场的屏幕上展示相关标识,以告知会议中的人。穆塔菲斯表示:“在采集信息时告知被采集者其实是非常好的做法。因为作为公司,我们应该在监视行为的区域内张贴标志,表示这里正在被监视。”不过应用程序的多样性意味着没有统一的标准。而且,一旦这种例行监控成为政治和政策上的问题,普通大众和政界人士是否会接受它,还远没有一个明确的答案。

此前埃克曼曾与Emotient公司和苹果公司在情感AI方面展开过合作,不过,现在他警告称,情感AI会对隐私构成威胁,并表示公司有法律义务取得每位被扫描者的同意。“不幸的是,这是一项可以在人们不知情的情况下使用的技术。情感AI被用在人们身上,却并不是为了让他们更幸福。这项技术还会让人们购买原本不会购买的产品。不过,这可能是情感AI最良性的非良性用途了。”埃克曼补充道。

亚马逊的智能音响设备DOT Alexa

除此之外,情感AI也侵入了私人空间,私人空间储存着更丰富的行为数据。亚马逊的Alexa(亚马逊的情感AI系统)会通过分析用户的语调,寻找沮丧的迹象并据此改进算法。到2023年,一些汽车制造商将推出基于AI的车载系统,这些系统将生成大量关于驾驶员和乘客的行为数据。汽车制造商将利用这些数据(可能会是匿名化的),改进系统响应和车内设计。情感AI公司Eyeris的首席执行官莫达尔•阿拉维表示,用户或将可以选择激活系统中不同级别的功能,因此如果使用者不使用某些功能,系统就不会从这些地方收集数据。

亚历克斯•马丁内斯是美国俄亥俄州立大学和亚马逊的计算机视觉科学家。2019年,他与巴雷特合作撰写了一篇批评面部表情与情感之间关联性的论文。他总是会展示一张照片,照片上一个男人的脸扭曲着,看起来就像是处于一种混杂着愤怒和恐惧的情感中。然后,他将整个画面展示出来,结果那是一名在进球后狂喜的足球运动员。他指出,面部表情和手势等信号不仅是身体和大脑的产物,而且与事情发生的情境有关,也与一个人周围环境中正在发生的事情有关。迄今为止,情感AI面临的最大挑战是如何解读模棱两可的情境。“除非我知道什么是足球,否则我将永远无法理解照片里发生了什么。因此,这些知识是基础,不过在解读情境方面,现在还没有任何AI系统能做得很好。”马丁内斯解释道。

马丁内斯说,如果缩小任务的范围、拥有简单的环境,并采集到多样化的生物特征信息,情感AI将会变得更加有效。不过,未来将多样化的生物特征信息整合起来的情感AI,可能只会是社会还没有准备好迎接的、更强大且更具侵入性的技术。


摘自2022年1月27日《光明日报》

AI

新华文摘官方网站 

www.xinhuawz.com

新华文摘官方淘宝店

 http://shop112318323.taobao.com




往期推荐

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存