《狂飙》中让你费劲的“唇语”,原来AI就能解读出来
The following article is from 格致论道讲坛 Author 山世光
点击上方蓝字“返朴”进入主页,可关注查阅往期文章
最近电视剧《狂飙》火爆全网,剧中后期出现大量配音的情况——演员口型和声音对不上。因此许多观众研读“唇语”一探究竟。实际上,在AI蓬勃发展的今天已经出现了“唇语识别”,这也是语音识别的应用之一,它能够帮助你发现“真相”。
西塞罗有一句名言:“世间一切尽在脸上。”其实我们在脸上能够看到的信息,远远不止“他是谁”“他是男是女”“他20岁还是80岁”……我们能看到很多,他所经历的人生沧桑、他的愉悦、他的过去,也能够看到他现在可能在想什么,是很高兴、很伤心、还是很无聊。 我们能够看到的信息好像非常得多,所以我想:“也许这个时代,很快要从过去看脸的时代变成读心的时代。”
什么叫读心呢?我给它下了一个定义。就是根据一个人外显的语言和行为,去推测他内心的心理和精神状态。
眨眼次数应该是比较容易的一件事情,但如果是呼吸率,能不能行呢?能不能在听不见声音的时候,通过嘴唇理解我现在在说什么呢? 图上打对号的,其实都是可以通过一个普通的摄像头逐渐实现的,但是到目前为止,我还没有看到可以通过摄像头测量血液里红细胞数量的技术。 而血压、血氧饱和度,我过去也觉得不行,但我现在思想更加开放,认为在严格的光照采集条件下,是可以用普通的摄像头加一个算法进行估计的,所以我们也在努力做这件事。还包括醉酒,现在也已经有一些可以做的基础技术了。比如一家做共享汽车的公司,它不能让一个醉汉去开车,那就能通过摄像的方式来评估司机是不是醉酒了。
上图给大家展示的是对眨眼的评估。这个其实非常容易,只需要让算法找到眼睛,然后判断眼睛的状态是睁开的还是闭上的,并时刻关注、评估这样的状态,就可以估计出这个人每分钟眨多少次眼睛。比如一个人紧张的时候,眨眼的次数可能就会控制不住地增多,所以这也是一个非常重要的体现心理的指标。 那身高体重可不可以评估呢?如果拍一张全身照去估计身高、体重是可以的,但如果只有一张面部的照片能不能估计呢? 我们在去年(2020年)收集了3000多人的数据,然后用一张脸部照片去估计身高、体重以及BMI指数。我们发现误差还行,比如身高的误差大概在5厘米,体重的误差大概在5公斤,BMI指数误差不到2。这样的误差,已经远远比人通过照片估计身高体重和BMI要小得多了。
那类似的血压、血氧饱和度等,我们也可以通过分析颜色进行处理,最终就有可能可以估计出来。我们现在正在做这样的技术,虽然不能说一定可以做到非常准,但是已经可以看到是有可能的。 另外一件非常重要的事情是什么呢?暗送秋波:人在看什么地方,在看谁,其实也反映了非常非常多重要的信息。所以视线估计或者说视点估计,也是一个非常重要的技术。
从视频里大家可以非常明确的看到,摄像头前面的一个人在看哪里,这也是我们现在已经能做到的程度。
我们希望做到一些应用,比如判断驾驶员在转弯的时候有没有看后视镜,或者在开车的时候有没有目视前方等等。
刚才提到唇读。听不见声音的情况下,我们能不能根据嘴唇的信息来估计这个人在说什么? 唇语识别研究的起源有一个故事。
唇读其实是可能的。我们知道,社会上有一群弱势群体——聋人,他们在跟正常人交流的时候就非常需要这样的技术。他们每个人都在聋校里面锻炼了这样一种能力,可以通过读唇读出大概百分之七八十我们的话。
那我们就想,是不是可以让AI具备这样的能力。 事实上,我们现在也已经做到了。比如在车里开车的时候,外面的噪声特别大,或者是发动机的声音特别吵的时候,声音的识别可能就失效了。在这个情况下,AI对唇语的识别可以达到90%以上的精度,如下面视频所示:
为了做这件事情,我们还发布了全球规模最大的中文唇语识别数据集,采集了超过2000人的70多万个样本。
那唇语识别能帮助我们做什么?刚才提到了聋人需要这样的技术,可以帮助聋人知道普通人在说什么,促进和正常人的之间的交流。其实对于普通人,在噪声特别重的情况下,语音识别也会失效,那就可以配合上唇语识别去得到更高的精度。
矫正发音唇形 同时它也提供了一个渠道,用来帮助我们学英语或者学不同语言的时候,进行唇形的矫正。还有一些特殊的场景,如通过唇语来下达指令,进行密语的通讯等等,这都是可以用上的场景。
中性、生气、厌恶、害怕、高兴、伤心、惊讶这7种基本表情的图像集上,识别准确率>85%。但这显然不够,人的情绪是非常复杂的,所以后来出现了很多更加复杂的去描述情绪的一些模型。
比如说Hanjalic提出的激活度和愉悦度的情绪模型。一方面是看这个人的唤醒程度,他是亢奋,还是无精打采?另外一个维度就是看他的情绪是正向的,还是负向的?这样就可以把更多的情绪建模进来。
Plutchik还提出一个情感轮模型,能更好地把人的各种各样复杂的情感建模进去。那做AI算法的时候,我们就希望能让AI算法自动地评估更加复杂的情感。
但是我们知道,其实如果只是通过“看”来分析一个人的情感,也不是那么容易。所以通过声音、手势、文字等等多种模态融合去做人情绪感知也变得更加重要。
比如我们可以去监测一个人面部各种不同的动作。事实上心理学家定义了40多种面部动作,比如嘴角上扬、皱眉等等,其中有20多种是可以通过摄像头捕捉的。
所以我们就做了如下面视频里的系统。
当检测到了一个动作,亮条就会往右走一下。
大家可能看过《别对我说谎》(Lie to me)这个电视剧,这里面就体现了我们称之为微表情的技术。
所谓微表情,就是在非常短可能只有五分之一秒的时间里呈现出来,然后马上消失的一个表情,它更能反映人内心真实的情绪。
现在通过人和机器的协同分析,是可以对一个人想压抑住的一个非常短暂的表情或者是情绪进行正确感知的。 下面是另外一个可以客观化的心理状态——疲劳。比如开车的时候,如果已经非常困了,那就会非常危险。我们就可以通过分析其眨眼次数、每次眨眼时闭眼的时长、打哈欠的次数、头部姿态的变化,包括视线方向和心率等等一些生理指标去对其疲劳状态进行评估。 还有一个很有意思的技术,就是可以对一个人做事情的专注度进行评估。 在2018年我们参加了一场国际竞赛,还拿到了第二名。我们把一个人分神的状态分成四个等级:0是特别分神,3是特别专注。然后我们得到的评估精度可以达到0.07,误差非常小。过程中我们也是先把它分解成了视线、头部、面部的动作等生理指标,然后综合评估一个人分神的状态。
最后就是关于精神状况的评估,其实大家日常也是经常会遇到的。比如碰到一个人,可能我们对他会有所谓的第一印象。第一印象其实就是我们对一个人人格特质的观察,或者是我们对他的认知。
在去年6月份的Scientific Reports上就刊登了这样一件事。几个俄罗斯人找了一万多人每人三张面部的照片,然后分析他们五种不同的人格特质,即所谓的大五人格。这非常像相面,虽然存在伦理问题,但也反映出人格的特质和长相之间有一定的相关性。右侧给出了偏外向比较亲和的,以及相对不太亲和的男性和女性会偏向的长相。 此外,在精神卫生科有非常多的疾病,目前都要靠医生做出主观的判断。可是不同的医生可能由于经验的不足或不同,会给出不一样的判断。所以我们也希望在这个过程中逐渐地做一些客观化。
比如面瘫。面瘫其实就是面部的神经出了一些问题,所以有些面部动作就会做得不够精确。医生就需要一套系统去评估面部神经或者面部肌肉动作的能力。这就可以用摄像头去捕捉,并进行客观的评估。比如张嘴的时候是不是能够张得足够开,做某一个动作时候能不能做到。
精神状况——抑郁症检测与评估
来源:Sharifa Alghowinem, Roland Goecke, Michael Wagner, Julien Epps,Matthew Hyett, Gordon Parker, and Michael Breakspear. Multimodal DepressionDetection: Fusion Analysis of Paralinguistic, Head Pose and Eye Gaze Behaviors. IEEE T on AffectiveComputing. 10-12 2018
这是澳大利亚几所大学在2018年联合做的一项工作——通过对抑郁症病人一段视频里面的视觉特征和语音特征联合进行分析。用到的特征包括说话的方式、在说话过程中头部姿态的变化以及眼神等。 如果只用语言的特征对重度抑郁和健康人进行分类,可以达到83%的正确率,只用头部姿态可以达到63%的精度,只用眼神可以达到73%的精度,而合起来则可以达到88%的精度。精神状况——抑郁症检测与评估
来源:Y. Zhu, Y. Shang, Z. Shao, and G. Guo. Automated DepressionDiagnosis Based on Deep Networks to Encode Facial Appearance and Dynamics. IEEET on Affective Computing, 2018
这是美国西弗吉尼亚大学学者的另外一个工作。他们通过深度学习,对一个人的一段采访视频进行分析,然后评估他的抑郁程度。0分是完全没有抑郁,63分是重度抑郁,最后他们得到的误差是9.82分。比如一个人是20分的抑郁程度,给出来的结果能在11到29之间,说明这个精度也还可以了。 另外,儿童的自闭症也是一个非常严重的社会问题,大家知道社会上自闭症儿童的发病率是多少吗?美国2020年的数据是五十四分之一,即每54个小孩中就有1个是自闭症。 在中国这个数据大概是一百四十分之一,即140个儿童里面就会有1个是自闭症。严重的自闭症儿童很可能终身都不能够生活自理,但是如果能够早发现、早干预,那么很可能可以使他成年之后能够生活自理。 目前自闭症儿童的诊断方式是让一个经过认证的医生和一个小孩玩45分钟,并在这个过程中按照美国的一套ADOS标准进行打分,然后才能够判断出来是不是自闭症。 那有没有可能用AI技术更好地去做这件事情,更客观快速地进行评估?于是我们设计了新的流程,希望能够把过去的45分钟变成5-10分钟。
然后在这个过程中,我们用视点估计的技术去测量他的视觉偏好,比如他喜欢看什么地方。然后看他的表情,看他是不是有足够好的共情能力,看他的行为是不是有正常的社交偏好。 我们现在正在开发这样的技术,也已经采集了很多正常小孩和自闭症儿童的数据。我们希望能够在未来开发出这样的系统,通过让一个小孩看5-10分钟的视频,就能够得出他患自闭症的可能性。 我刚才回顾了一下自己的研究历史,我觉得作为科技工作者,做什么样的技术,很多时候应该要考虑对什么感兴趣,但是同时也要去关注什么样的技术是社会所需要的。 比如有关自闭症儿童的这件事,就非常需要用AI的技术来帮助医生更加快速的去筛查,找到可能的自闭症儿童,这对于社会的发展和进步是非常重要的。 谢谢大家。
本文经授权转载自微信公众号“格致论道讲坛”。
相关阅读
3 AI驱动、高精度传感、鹰眼光学追踪……本届世界杯用球内含了多少黑科技?
4 DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象
近期推荐
1 怀念朱照宣先生
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
长按下方图片关注「返朴」,查看更多历史文章