谷歌研究员质疑“看脸识罪犯”，上交大教授撰文回应：我被扣帽子

2017-05-16 澎湃新闻 募格学术

本文转自澎湃新闻

去年11月，一篇“看脸识罪犯”的论文令学术界和舆论界炸开了锅。

（新闻回顾：上海交大教授回应“看脸定罪”质疑：纯属无稽，欢迎各位从纯学术角度探讨）

这篇上传在预印本网站arXiv上的论文题为《基于面部图像的自动犯罪概率推断》（Automated Inference on Criminality using Face Images）。在实验中，上海交通大学教授武筱林及其博士生张熙选取了1856张中国成年男子的面部照片，其中730张是已经定罪的罪犯身份证照片（330张来自网上的通缉令，400张由一家签署过保密协议的派出所提供），其余1126张是在网络上抓取的普通人照片。经过机器学习，算法鉴别出犯罪嫌疑人的准确率达到89%。

研究使用的照片样本。a组为罪犯，b组为非罪犯。

图b标注了存在差异性的3个特征点。表4为罪犯组和非罪犯组在3个特征点上的平均值和偏离值。

此后，武筱林收到了雪片般飞来的邮件，有些就学术问题进行了交流，有些则直接敦促他“撤稿”。而在半年之后，三名美国作者撰写万字长文，向武筱林隔空喊话，指责其研究在搞“科学种族主义”。

上述三名作者中，Blaise Agüera y Arcas是机器学习领域的著名工程师，2013年从微软跳槽到谷歌；Margaret Mitchell同样是谷歌的人工智能研究员；Alexander Todorov则是普林斯顿大学的神经科学教授。

这篇洋洋洒洒的万字长文，从提出“天生犯罪人”理论的意大利外科医生龙勃罗梭，写到对犹太人进行面相研究的纳粹教材，暗指武筱林的研究是这些“前辈”的继任者。

在文章中，三名美国作者在技术层面提出了一些质疑，譬如实验样本数据集过小，容易造成过拟合；罪犯组照片的着装更为随意，而非罪犯组的照片很多都穿着衬衫；此外，非罪犯组照片更多地在微笑。但文章最核心的担忧是，由于人类司法系统中存在一些歧视（譬如美国司法对白人和黑人存在量刑歧视），用这些带有歧视的人类数据训练机器，机器得到的结果也会是歧视性的。而若将这些内嵌歧视的算法用作司法工具，那么就会形成一个歧视性的反馈循环，让歧视在社会中更为巩固。

“基于面部特征的深度学习绝不该应用为‘加速’司法公正的工具，如果真的这么做的话，反而会让不公正长存于世。”文章这样结尾道。

5月14日，武筱林撰文向澎湃新闻进行了独家回应。他指责这种隔空点名的方式并非“我们所熟悉的学术交流”，而是政治斗争上扣帽子的手法。武筱林提到，他们在论文中明确声明“没有兴趣也不够格去解读实验结果”，却“被”解读了。三位美国作者无视声明，将论文原话断章取义，凑成主观臆断强加于他们，扣上了一顶大帽子。

在文章中，武筱林还回应了许多网友提出的“把教授自己的脸放进去试试”的问题，澄清了一种常见的“基础概率谬误”，再次强调他们的研究无意也无法用于实践。

此外，武筱林也对外界的几点技术质疑作出回应。他总结道，“我们感谢所有针对论文的问题和讨论，但坚决反对歪曲我们的初衷”，“这既不专业，也很傲慢。”

“仅仅在文章中用到（面相学）这个词，就足够贴一个科学种族主义的标签了吗？”这是武筱林的疑问。

武筱林资料图

人工智能伦理讨论无需扣帽子和歪曲事实

（原文为英文，由澎湃新闻记者翻译）

2016年11月，我和我的博士生张熙在arXiv上贴出了一篇题为 “Automated Inference on Criminality using Face Images”的论文。该论文在各国学术界，尤其是互联网上引起了广泛的关注和争议。近日，Arcas等三人在Medium网站上发表了《相面术的新外衣》（Physiognomy’s New Clothes）一文。我们赞同三位作者的观点，即AI研究要有益于社会，但我们也发现，他们对于我们的工作，尤其是我们的研究动机和目标存在诸多误读。

扣帽子（name calling）

该文章（即《相面术的新外衣》，下同）的作者暗示我们有恶意的种族主义动机。他们认为这种暗示很明显，导致我们立马在网络上，尤其是中国网民那里成了千夫所指。我们论文里从未宣称要把我们的研究方法用作司法工具，我们对相关性的讨论也从未延伸到因果关系。任何以客观心态读过我们论文的人，都会明白我们只是想知道，机器学习是否有潜力像人类一样，对人脸形成社会性的看法。要知道，这种同时基于观察者和被观察者的看法是很复杂、很敏锐的。

我们的研究是在挑战机器学习的上限，并将人脸自动识别从生物学维度（比如种族、性别、年龄、表情等）拓展到社会心理学维度。我们只是好奇，能否教会机器复制人类对陌生人的第一印象（个性、风格、器宇等），通过图灵测试。正如我们在论文中所述，直觉上，我们认为对于面部的犯罪性印象是个比较容易测试的选择，事后证明，这是个不幸的选择。

“为了验证我们的假设，即一个人面部的物理特征与其内在特质、社会行为间存在相关性，运用现代自动分类器去区别罪犯和非罪犯，测试其准确率是非常有说服力的。如果面部特征和社会属性真的相关，这两类人群应该是最容易区分的。这是因为，犯罪需要人格中存在很多不正常（离群值）。如果分类器的区别率很低，那么我们就能有把握地否定对面部进行社会性推定的做法。

令人震惊的是，来自谷歌的作者们将上述段落断章取义，凑成了下述臆断强加于我们。

“那些上唇更弯曲，两眼间距更窄的人在社会秩序上更低级，倾向于（用武和张的原话说）‘人格中存在很多不正常（离群值）’，最终导致在法律上更可能被判定犯罪。”

我们认同“犯罪性”（criminality）这个词有点尖锐，我们应该打上引号的。在使用这个词的字面意思，把它作为机器学习的参考标准（“ground truth”）的同时，我们没有警告读者，输入的数据存在噪点。这是我们的严重疏忽。然而，在论文中我们始终保持了一种严肃的中立性；在引言部分，我们声明道：

“在本文中，我们无意也不够格去讨论社会偏见问题。我们只是好奇，全自动的犯罪性推定能有多高的准确率。一开始，我们的直觉是机器学习和计算机视觉会推翻面相学，但结果是相反的。”

我们清楚地声明了无意也不够格去解读，但却被来自谷歌的作者们过度解读了。这不是我们习惯的学术交流方式。此外，我们还后悔不该选择使用“physiognomy”这个词。它最接近的中文翻译是“面相学”。我们对这个词在英语国家里固有的负面涵义不够敏感。但是，仅仅在文章中用到这个词就足够贴一个科学种族主义的标签了吗？

“基础概率谬误”（base rate fallacy）

来自谷歌的作者们是“为广大的受众，不只是为研究者”写这篇文章的，但他们随意地忽视了一些非技术流的博客和媒体报道里出现的“基础概率谬误”迹象。

人脑往往会被一个特定事件的高条件概率锁住，而忘记了该事件在大环境里发生的极低概率。我们文章中最强的基于深度学习的面相分类器有89%的识别率（注意：这是基于我们目前的训练数据，还有待用更大的数据核实），很多人就认为，这么高，这还不一试一个准！（国外就有文章报道我们时就惊呼“correct 9 out 10 times”）。有人在网上调侃 “教授，把你的脸放进去试试”。好吧，这倒是蛮好玩的。假设我的脸被测阳性（被认定为罪犯），我有多高概率有犯罪倾向呢？计算这个概率需要用贝叶斯定理：

P(罪|+) = P(+|罪)*P(罪) / [ P(+|罪)*P(罪) + P(+|非)*(1-P(罪)) ]

上式中P(+|罪)=0.89 是罪犯的脸被我们深度学习测试方法判阳性的概率，P(罪)=0.003是中国的犯罪率，P(+|非)=0.07是我们方法假阳性（把一个非罪犯判定为罪犯）的概率。将这些数值代入贝叶斯公式，结果是武筱林有3.68%的概率犯罪。我想，这一路从89%到3.68%走下来，原来不少骂我们的人就释怀了吧。那些叫着要纪委用我们的方法的网友也该歇歇了。不过，我这里再次郑重声明，我们坚决反对在执法司法中使用我们的方法，原因不仅仅是上面演算的结果。

基础概率谬误是媒体惯用的伎俩，夸张地描述某项大众所不熟悉的新技术或新研究，借此操纵大众，逐步灌输对人工智能研究的不理性恐惧。

无用输入（Garbage in）？

尽管我们对来自谷歌的作者们的精英主义论调感到不适，但我们认同他们提出的进步性的社会价值。他们实在没必要像编年史一样列出历史上那些臭名昭著的种族主义者，接着把我们列在后面。但起码在理论上，独立于主流社会观念的研究客观性是存在的。

我们都很了解“无用输入”和“无用输出”。然而，来自谷歌的作者们似乎在说，因为输入数据中人类的偏见是无法避免的，所以机器学习工具无法用于社会计算。就像大多数技术一样，机器学习是中性的。如果像他们说的，机器学习可以用来巩固社会计算问题中的人类偏见，但机器学习也可以用于发现并矫正人类偏见。他们担心反馈循环的问题，然而，反馈本身就既可以是负向的，也可以是正向的。就算“犯罪性”是个十分复杂的问题，受过良好训练的人类专家可以努力确保训练数据的客观性，也就是说，能使用独立于嫌犯外貌的正确判决。如果数据标签是不带人类偏见的，那机器学习在客观性上无疑是优于人类判断的。

即使标签中存在噪点，无论是随机的还是系统性的，也有科学办法能洗涤和恢复/提高结果的准确度。我们不能畏于民粹主义就在科学知识上让步。

过拟合（overfitting）的风险

批评者很快就指出了我们实验中所用的样本集较小，存在数据过拟合的风险。我们痛苦地意识到这个缺点，但鉴于某些显然的原因，我们难以拿到更多的中国男性罪犯身份证照片（这篇批评文章可能让我们丰富数据集的希望化为泡影）。然而，在如下所示的论文3.3章节，我们已尽全力验证我们的发现，这又被他们完全忽视了。

“鉴于社会上对这个话题的敏感性和反响度，以及对面相术的质疑，我们在公布结果前异常谨慎。我们故意跟自己唱反调，设计实施了以下实验，以挑战分类器的正确性……”

我们把训练集中的照片以五五开的概率随机标签为罪犯或非罪犯，看看四个分类器能否以超过50%的概率区别这两组照片。结果是四个分类器都失败了。一些类似的、更具挑战性的测试结果也是如此（详情参见论文）。这些实证结果，说明论文中分类器出色的表现并非由数据过拟合所致。否则，在样本集大小和类型一样的情况下，分类器也应能够区别两组随机标签的数据。

“白领子”（ white collar）

批评文章也质疑道，罪犯组的身份证照片大多是不穿衬衫的，而非罪犯组的身份证照片大多穿了白领子的衬衫。在这点上，我们忘了说明，在实验中，我们训练和测试使用的图片全部是只抠出了脸部的。

但不管怎样，这个“白领子”线索还牵出了另一个重要的细节，在这里我们需要向读者们道歉。这个细节是，我们无法控制那些实验对象的社会经济地位。我们不是不想控制，但基于保密协议，我们不能拿到元数据。考虑到这个微小差别，我们预期分类器的准确率在控制社会经济地位这一项后会下降。这是基于社会歧视的一个推论。事实上，也因此，我们认为这项研究结果对社会科学来说是有意义的。

在论文中，我们还采取了一切措施，避免机器学习方法，特别是CNN，检测到图像间一些浅表的差距，比如压缩噪点或照相机的不同（参见论文3.3章节）。

总之，我们感谢所有针对论文的问题和讨论，但坚决反对歪曲我们的初衷。比如James Weidmann说“武和张论文的意图正是如此”，这既不专业，也很傲慢。

征稿启事

「募格学术」现正式向粉丝们公开征稿！内容须原创首发，与科研相关，一经采用，会奉上丰厚稿酬，详情请戳。

热门图文TOP5

1、东中西高校学者谈“双一流”建设：不同高校高层次人才应该如何流动？

2、难民科学家的故事：流离失所让他们面临着巨大生存挑战

3、女学霸为追男生，制作一份PPT表白，充分阐述个人优势，结果……

4、C919国产大飞机设计师张宇飞的成长轨迹：为C919攻关8年博士多读了一年半

5、教授谈学术魅力：当年一篇国际SCI论文奖励300元，没有功利色彩

·END·

募格学术