人脸识别技术研究综述(二):技术缺陷和潜在的偏见
编者按:
本公号曾发表的人脸识别系列文章:
本篇对人脸识别的文章作者为杨丹。
一、人脸识别技术是什么
人脸识别与虹膜、指纹识别类似,是一种生物识别技术。人脸识别技术是通过对图像和视频中获取的人脸进行分析和比较来判断两张脸的相似性,以验证或识别某人身份,通常分为:
a. 1:1的人脸验证,旨在确定图像中的人脸是否已经存储于系统内置的人脸数据库中,如果系统没有该人的人脸信息,则验证失败;
b. 1:N的人脸识别,旨在通过人脸检索的方法,在人脸数据库中检索出该人的其他照片,或查询该人的姓名等相关信息。
二、人脸识别系统是如何工作的
1、人脸识别的流程 [1]
图像采集 | 通过摄像头对不同位置、不同表情等多方面的静态和动态的人脸图像进行采集的过程; |
图像预处理 | 有时获取的图像带有噪声或存在尺寸不合规的情况,计算机视觉项目通常会对图像进行预处理操作,使得图像更符合系统的要求; |
人脸检测 | 检测图像中是否包含人脸,最常用的方法之一是利用人脸肤色与周围环境颜色的差异,将人脸与背景区分开来;若图像中存在人脸,系统将返回检测到的人脸矩形边界的4个坐标值; |
人脸校正 | 图像中的人脸不一定都是正脸,通过几何变换的方法将不同角度的人脸进行扶正对齐; |
人脸特征点定位 | 对图像中的人脸进行定位,常用的关键位置的点为左右眼、左右嘴角和鼻子这5个人脸特征点,以及包括嘴唇和面部轮廓构成的68个人脸特征点; |
人脸特征提取 | 通常用于判断性别、年龄等场景;根据人脸特征的时间可变性可分为永久性的人脸特征(如五官)和暂时性的人脸特征(如皱纹); |
三、人脸识别技术的缺陷
对于人脸识别技术的使用者而言,最突出的挑战之一是旨在击败这些系统的“黑客”。我们可以戴上胡须、眼镜或通过化妆来掩饰自己的年龄。目前比较流行的四种伪造身份的技术为照片、视频、面具和变形。
通过获得的目标照片欺骗人脸识别系统是最普遍的骗术,因为它简单廉价。这种方法的缺点是缺少三维信息,以及握图的手抖动导致验证失败。此外,照片不太可能模仿活人的某些特征,比如眼睛和嘴巴的运动,也就是三维验证中的“活跃性”。解决这一缺点的方法是在照片的眼睛和嘴巴上打洞,模仿者将自己的眼睛和嘴巴与照片相结合,使模仿者赋予图片“自然”的运动。例如,2019年浙江嘉兴一位四年级学生在课外科学实验中发现,只要用一张打印照片就能代替真人刷脸,骗过小区里的丰巢智能柜,代替父母取快递。[2]
与照片欺骗不同,视频中的面部特征不太可能是静态的,通过包含活体检测的视频来攻击人脸识别系统,如视频的人眨眼,面部表情,表演和呼吸均被可用于模拟验证。[3]
最具挑战性的欺骗技术是构造和呈现一个三维面具。3D扫描和打印技术的发展为这项骗术提供了必要的工具。Kneron公司的研究人员表示,他们能够使用刻画另一个人脸的3D面具来欺骗某些人脸识别系统。研究人员对三大洲的系统进行了测试,他们成功欺骗了支付宝和微信的人脸支付系统,中国边境的安检系统,以及阿姆斯特丹史基浦(Schiphol)机场的护照检查口的人脸识别系统,安检是在安全监督员的监督下进行的,这就表明如果没人在场,安检的人脸识别系统就不完全安全。苹果的Face ID和华为的系统则可防御面具的攻击,因为两者都使用结构光成像这种更为复杂的技术。[4]模仿者面临的主要问题是,需要目标对象的配合,以获取并建立准确的信息。一些人脸识别系统通过要求受试者进行一系列动作,如张张嘴,眨眨眼来与受试者进行互动,但3D面具可以成功击败这些动作,因此,建议在人脸识别技术中加入其他生物特征识别,如步态或语音验证,以达到对抗这种攻击的目的。
最后一种攻击被称为变形(Morphing),将一张脸的纹理贴到另外一个形状的脸上,或者合成两个人所生宝宝的照片等,这些应用均依赖于变形技术。[5]
四、人脸技术导致的偏见
外国的文献显示,人脸处理技术(Facial Processing Technology)对女性、非二元性别的人群、有色人种、性少数群体、移民、工人、残障人士、低收入群体和宗教少数派存在不同程度的偏见。例如,实验者开发了一款名为CelebSET的基准数据集,该数据集由80位名人的照片组成,其中包括20位浅色皮肤男性(LM),20位浅色皮肤女性(LF),20位深色皮肤男性(DM)和20位深色皮肤女性(DF),并为每一位名人手动识别了10张微笑和10张非微笑的示例图。实验者通过该基准数据集分别评估了微软、亚马逊和Clarifai的API,显示出系统在识别LM,LF,DM,DF图片的性别,年龄,姓名,是否微笑和人脸检测时,精准度存在一定比例的差异,如下图所示:
外国的一项研究显示,人脸识别系统在识别不同种族,如亚洲人,白人,拉美人,黑人,印度人和其他混血时,精准度的比例也有所不同,如下图所示:
性别偏见 – 皮尤研究中心(Pew Research Center)2018年的一项研究发现,在美国人口的性别比例相对均衡的现实前提下,Facebook发布的新闻资讯中,男性出现的频率是女性的两倍,特别是涉及经济领域的报道;研究人员通过测量图像中的男性面部和女性面部的大小发现,男性人脸比女性人脸占用的面积大10%。这就导致了人脸识别技术依赖的机器学习进行训练的女性数据不足,最终影响系统预测或验证女性时产生偏差。[6]
种族偏见 –麻省理工学院媒体实验室的研究人员 Joy Buolamwini的研究报告指出,亚马逊的 Rekognition软件在检测图像中肤色较浅的男性的错误率是0.8%,肤色较深的女性的错误率是34.7%[7]。这种错误率很大程度上依赖于人的参与,例如,某些人群与执法部门或机场安全数据库匹配得不成比例,可能导致被限制入境。无论是算法训练还是在人群中匹配目标人脸,都可能出现误报。
我们可以看出,性别和种族的偏见与数据集中该群体样本的数量相关,此外,1:N的人脸识别相较于1:1的人脸验证错误率更高,也就是说,获取人脸信息的样本是否为正面图像,面部是否存在遮挡物,光线和角度的差异都会成为精准率的影响因素,这些因素会导致某些群体被错误抓捕,或禁止他们在特定的公共场所自由活动等情况发生。(本篇完)
[1]王天庆《人脸识别入门》
[2]https://baijiahao.baidu.com/s?id=1647596898723038034&wfr=spider&for=pc
[3]http://m.elecfans.com/article/1150128.html
[4]https://www.businessinsider.com/facial-recognition-fooled-with-mask-kneron-tests-2019-12?r=US&IR=T
[5]https://www.researchgate.net/figure/Morph-levels-used-in-passport-frames-for-Experiments-1-and-2-The-individuals-shown-in_fig2_315532848
[6]http://m.elecfans.com/article/1108844.html
[7]http://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212
DPO社群成果
线下沙龙实录见:
美国联邦隐私保护立法草案研究
美国联邦隐私保护立法草案研究(一):“行为个性化”
美国联邦隐私保护立法草案研究(二):“个人敏感信息”
美国联邦隐私保护立法草案研究(三):“个人敏感信息”的保护规则
美国联邦隐私保护立法草案研究(四):“生物识别信息”
传染病疫情防控与个人信息保护系列文章
美国电信行业涉及外国参与的安全审查系列文章
美国电信行业涉及外国参与的安全审查(一):基本制度介绍
美国电信行业涉及外国参与的安全审查(二):国际性的第214节授权
美国电信行业涉及外国参与的安全审查(三):建立外国参与安全审查的行政令
美国电信行业涉及外国参与的安全审查(四):FCC对中国企业的陈述理由令
中国的网络安全审查系列文章:
美国的出口管制制度系列文章:
自动驾驶系列文章:
欧盟“技术主权”进展跟踪系列文章:
第29条工作组/EDPB关于GDPR的指导意见:
数据安全法系列文章:
个人数据与域外国家安全审查系列文章
数据跨境流动系列文章: