汪靖|从人类偏见到算法偏见:偏见是否可以被消除|“算法社会:智能传播时代的文化与走向”圆桌会议⑧
◆ ◆ ◆ ◆
上海市社会科学界联合会主办主管
有学术的思想 EXPLORATION AND FREE VIEWS
官网地址 http://www.tsyzm.com
◆ ◆ ◆ ◆
注:近期微信公众号改版,订阅号消息不再按时间排序,为了继续收到我们的文章,希望您可以在文章底部点击“在看”或者给“探索与争鸣杂志”公众号设置“星标”(公众号界面右上角三个点)。让系统知道这是您常看的公众号,这样您以后就可以看到我们的消息啦。自2018年6月1日起,本刊只接受《探索与争鸣》网站投稿。请收藏唯一真实官网地址www.tsyzm.com。原编务邮箱tsyzm@sssa.org.cn停止使用,原投稿邮箱tansuoyuzhengming@126.com为编务邮箱和应急邮箱。原创文章,未经授权,谢绝转载,如需转载请留言或联系53063517转3302,联系人:孙老师。
从人类偏见到算法偏见:偏见是否可以被消除
汪靖|同济大学艺术与传媒学院讲师
本文原载于《探索与争鸣》2021年第3期
非经注明,图片来自网络
人工智能从诞生伊始,就是以“像人类一样思考”为终极目标的。在 1956 年美国达特茅斯会议上,“人工智能”这一概念首次被提出,人类开始设想“让机器能像人类一样认知、思考和学习”。1976 年,拉斐尔提出:“人工智能是一门科学,这门科学让机器做人类需要智能才能完成的事。”进入21 世纪后,第三次人工智能浪潮开启,人工智能被认为是通过采集和分析大量数据,实现自动学习、分析和推理的智能化机器。英国大数据专家迈尔-舍恩伯格指出:“大数据的核心就是预测。它是把数学算法运用到海量数据上来预测事情发生的可能性。”这种基于大数据的分类、预判,与人类的思考模式具有异曲同工之妙,但也不可避免地继承了人类的偏见。
数据伦理中的算法偏见
英国学者塔迪欧(Mariarosaria Taddeo)和弗洛里迪最先提出了数据科学带来的伦理问题:建立了三元数据伦理框架——数据、算法以及相应的实践过程。依据这一总体框架,偏见可以在数据、算法及实践过程中表现出来。
首先,数据本身存在偏见。数据是算法的基础,如果训练数据隐含偏见,算法输出的结果也有可能出现偏见,即所谓的“偏见进,偏见出”(bias in,bias out)。数据偏见又可以分为“采集阶段的偏见”和“编码阶段的偏见”。在数据采集阶段,获取数据的目的、方式和使用的媒体,都可能成为偏见的来源。以波士顿的 Street Bump 智能手机应用程序为例,它使用手机的加速计来检测路面的坑洞,而不需要城市工作人员在街上巡逻。当波士顿市民下载该应用程序并开车行驶时,其手机会自动告知市政部门有哪些需要修复的路面。这是一个富有创意的应用,但也是带有偏见的应用。这种数据收集方式决定了其更适用于富裕的地区,因为那里有更多的人拥有智能手机。数据的编码技术也与偏见有着极大关系。编码是指用人工方式对数据进行标注,标注过的数据集对算法的发展至关重要。现代 AI 技术的一个重要分支就建立在对标注过的数据的学习之上,亦即所谓的“监督式学习”(supervised learning)。BBC曾报道,非洲肯尼亚的单亲妈妈如何帮助高大上的自动驾驶汽车企业识别天气、物体、建筑等。然而,这些标注极有可能带有数据标注者的主观判断和个人烙印。
1956 年美国达特茅斯会议参会人员合影
其次,算法会制造偏见。即使训练数据集不具备偏见,机器学习算法也有可能通过自我学习制造偏见。机器学习算法的复杂程度之高,有时连程序员都无法理解,因此被称为“算法黑箱”。“算法黑箱”的隐秘性使得其结果很难控制和预测,甚至使某些群体被不公正地对待。凯西·奥尼尔(Cathy O’Neil)在《算法霸权》中举过一个例子:吉利德(Gild)公司主要从事科技人才推荐业务,该公司开发的模型从数据库中发现,一群技术天才会经常访问一个日本漫画网站。虽然该模型并没有将性别作为指标纳入其中,但是登录日本漫画网站的人主要是男性,而且因为这些网站包含色情成分,所以科技行业中的大部分女性员工很可能对此完全没有兴趣。因此,吉利德公司的预测模型是不公平的,一些极有潜能的人才可能因为各种各样的未知因素而被模型理所当然地忽略。
最后,偏见会在实践过程中表现出来,构成实践偏见。实践偏见与人有着直接的联系,主要是来自人自身。算法设计者可能会为了某些利益而设计歧视性的算法。算法的设计目的、数据运用、结果表征等都是开发者、设计者的主观价值与偏好选择。2020 年12月,斯坦福大学医学中心(Stanford Health Care)的数十名住院医师和其他医务人员对院方提出了抗议,他们作为一线员工,却在筛选过程中遭到淘汰,无缘第一批新冠肺炎疫苗的接种。医院的管理者把责任推到了医院开发的算法上,认为正是这些算法决定了员工的接种顺序。然而专家对该算法进行详细分析后却发现,真正的错误源自设计算法的人,他们并没有根据员工在病毒环境中的暴露程度来决定接种顺序,而是简单地按照年龄排序。该案例表明,算法决策的结果并非总是公平公正。一旦出现差错,算法很容易成为决策者的“替罪羊”。
算法偏见是否可以消除
在人工智能领域,算法偏见得以探讨的前提是偏见可以被控制或消除。然而,算法偏见是否可以被避免和消除?这一前提并非不证自明,还需对偏见的本质做进一步的探究和追问。美国社会心理学家戈登·奥尔波特(Gordon W. Allport)在《偏见的本质》(The Nature ofPrejudice)中指出,偏见不只是个别的、品德有缺陷的个体所持有的恶劣信念,而是广泛存在于社会中的普遍现象,它是人类认知结构和社会组织形态的必然产物。根据奥尔波特对“偏见”定义的考证“,偏见”(prejudice)一词来自拉丁语名词“praejudicium”,自古典时代以来,其意义已经经历了三个阶段的转变,这也为我们理解“偏见的本质”提供了三种不同的概念框架。
在实践哲学中理解偏见主要是基于“偏见-行动”的概念框架。偏见会影响人们的行为,这种框架所考虑的问题就是偏见在行动中所起到的作用。奥尔波特曾指出,偏见可能造成直接和严重的社会后果。如果将负面行动按照程度从轻微到严重排序,可以分为:仇恨言论、回避、歧视、身体攻击、种族清洗。从对社会造成的后果来看,许多偏见是相对无害的,因为它只局限在人们的闲谈之中。但值得警惕的是,偏见可能会变得日渐密集且造成越来越深远的影响,最终过渡到下一个更为激烈的层级。如果基于后果论框架,算法偏见的歧视性后果可以在法律上被明令禁止。例如,2008 年美国通过了《反基因歧视法》(Genetic Information NondiscriminationAct),禁止人寿保险公司以某人具有对某种疾病的易感基因为由,取消、拒绝对他进行保险或提高保险费用。同时,该法案还禁止雇主以遗传信息为依据进行雇佣、解聘、升职、加薪,或作出任何与雇佣行为有关的决定。在中国,算法歧视、算法滥用等损害公众利益的行为越来越受到严格的监管和规制。2020 年 10 月 1 日,《在线旅游经营服务管理暂行规定》正式施行,其中第 15 条明确要求“在线旅游经营者不得滥用大数据分析等技术手段,基于旅游者消费记录、旅游偏好等设置不公平交易条件,侵犯旅游者合法权益”。反歧视性法规的建立意味着算法偏见的后果可以通过法律手段得到控制。
从认识论的框架来看,偏见是一种未经仔细审查并考虑事实就仓促作出的不成熟的判断,是缺乏自明性论证的因素。1907 年波兰哲学家卡兹米尔·特瓦多夫斯基 (Kazimierz Twar-dowski) 从认识论的视角指出:“每一种偏见都是一种信念......我们通常把偏见定义为前想象的、未加证实的、错误的信念,它感知了没有关联的事物之间的关系。”在认识论框架下,偏见是对真理的背离,是在整个认识论哲学中需要被克服的因素。如果基于认识论框架,偏见也是可以被控制和消除的因素。当数据收集不全面或训练数据集出现偏差,以至于影响预测的准确性时,可以从一开始就选择更多样、更公正而准确的数据集。例如,IBM 发布了“人脸多样性”(diversityin faces)数据集,该数据集包含 100 万张已标注的人脸图像,以帮助构建更好、更多样化的人脸识别系统。在城市管理实践中还可以通过改进数据收集方法、减少人为偏差等方法来消除偏见。例如,美国圣安东尼奥市政府希望了解城市居民迫切需要解决的问题,他们避免数据偏见的方案是,通过走访社区来收集数据,而不是仅仅依赖网络调查和数据捕捉传感器等传统的“智慧城市”基础设施。
然而,如果基于“偏见-理解”的解释学框架,偏见实则是无法消除的。对于古代人来说,偏见意味着先例——基于之前的决定和经验作出的判断,因此偏见是理解的先行结构。在伽达默尔的哲学体系中,偏见的先行特征被极力凸显,“所有的判断以前判断为条件......这里要强调的是判断不是借助抽象的、中立的理性,而是借助一组前反思的、位于判断之后的与世界有关的集合,并使得判断成为可能”。在伽达默尔这里,偏见被赋予历史形成的视野,“成见是历史地形成的有效地平。我们总是被抛入一定的地平,从而在这一地平上理解所有事物”。与之相类似的,算法通过对大数据的分析,能够发现隐藏于数据背后的结构或模式,从而实现数据驱动的人工智能决策。在这里,大数据就是历史的地平线,是人工智能感知和决策得以可能的先决条件,在这个意义上,偏见是不可能消除的。
伽达默尔
如果偏见无法消除
偏见无法消除的根本原因在于,基于历史经验作出的预判,不一定是正确的,尤其是当历史经验又被量化为数据的时候。数据反映的是当前社会的现状,不能归入旧模式的都将被排除在外,AI 预测的未来几乎是对过去的复制与强化。人们对机器的信任则是加深这种“自动化偏见”的前提。然而,塔勒布在《黑天鹅》中指出,“某件事情 1000 天的历史不会告诉你第 1001 天的任何信息。”基于过去的历史数据或许可以预测某些事物的发展趋势,但唯独不能预测人的命运。如果人可以预见未来,那么人就没有未来。去除了未知性就等于拿走了希望,完全抹杀了人作为主体努力改变命运的可能性。
如果偏见无法消除,至少应该让受影响的人群拥有知情权。2018 年的一份报告《英国的 AI:准备、意愿和能力?》(AI in the UK: Ready, Willing and Able?)特别指出,偏见绝不能在不知情的情况下被纳入自动化系统。在大规模普及之前,还应该请专家进行算法审查,衡量这种算法决策的影响和公平性。如果有人认为自己被不公正对待,应该给予他们质疑和申请复议的权利。AI 智能决策系统的引入是为了避免人类决策中的偏见。不过,人类的决策虽然经常有缺陷,却也有一个主要的优点,即人类的决策是可以改善的。相比之下,AI 决策系统不会随着时间的推移而改变,除非开发者对系统作出改变。算法只会将过去编入代码,而不会创造未来。创造未来需要道德想象力,而想象力只有人类才有。
有学术的思想 有思想的学术
聚焦中国问题
秉持人文立场
人文社科学者的平台
欢迎一起“探索与争鸣”
目 录 2020.01 | 2020.02 | 2020.03 | 2020.04 | 2020.05| 2020.06 | 2020.07 |2020.08 | 2019年总目录 热点 区块链|未成年人犯罪|5G|《长安十二时辰》|知识付费|留守儿童|巴黎圣母院大火|《流浪地球》|开放二胎|“佛系青年” 人物 鲁迅|施蛰存|王元化|费孝通|陈旭麓|金庸|哈贝马斯 学者 陈平原|杜维明|葛剑雄|何怀宏|季卫东|罗伯特·帕特南|沈志华|王汎森|乐黛云 观念 天下|祖国|信任|“五四·青年”|人文危机|涂层正义|全球文明 专栏 重识中国与世界|城市与文明|人工智能与未来社会 会议 数字加密货币|江南文化与城市发展创新| “科幻景观·文化· 媒介”学术论坛|大学治理使命| 网络时代知识付费与知识获取| “城市与情感”第二届中国城市问题(上海)论坛青年论坛 青年 第三届全国青年理论创新奖|第二届全国青年理论创新奖|精彩感言|优秀青年学人支持计划·第一期|优秀青年学人支持计划·第二期|青年学人优秀论文支持计划 学术圈 学术写作|高校工作时间|学术晋升机制|假期|救救博士生|“青椒”的焦虑|学术圈的“第三世界”|开题报告怎样写