报告|2016美国白宫大数据报告:算法系统、机会与公民权利
点击上方“网络空间治理创新”可以订阅哦
2016年5月,美国白宫发布《大数据报告:算法系统、机会与公民权利》(Big Data:A Report on Algorithmic Systems, Opportunity, and Civil Right),这是继2014、2015奥巴马政府两次大数据白皮书后的第三次报告。随着大数据、算法系统的发展,相关的技术已经渗透进日常生活的各个方面。随之而来的挑战是,我们如何在更好地享用大数据以及算法给我们带来的生活便利的同时,保证不会造成意料之外的歧视。在2014年的报告中,有一个重要的关于社会公平的问题是“自动化决策中潜在的代码歧视”,主要指“在大数据技术的设计、建设与使用过程中,并非故意却带来的歧视”。在今年早些时候,在联邦商务委员会(Federal Trade Commission,FTC)发布的报告中曾经指出,大数据为创新提供了更多的机遇,减少了歧视,促进了公平与机会,其中包括为低收入社群进行信用担保,在雇佣决策和入学问题上去除人类潜意识中的偏见,为有风险的学生提供额外资源等。而在此次报告中,通过对贷款、雇佣、教育以及刑事司法四个领域案例的考察,我们阐明了大数据的使用如何扩大了潜在的对于个体与群体的“非故意歧视”,同时提出政府应该如何驾驭大数据的力量以避免歧视的路径方案。
一、大数据的机遇与挑战
上世纪公民权利法案的制定主要针对于以下情况:一些美国公民由于种族、肤色、国籍、宗教、性关系、性别、性取向、残疾或者家庭情况,会被拒斥在一些基本的机会和安全之外,比如雇佣、住房、金融产品、大学教育等。今天在美国,反歧视法案力图巩固“人人平等”的理念。大数据技术有提高我们发现和避免受到歧视伤害的潜力。但如果使用不当,它们同样可以巩固、强化甚至遮蔽有害的歧视。因此,我们必须对于大数据和算法中内在与暗藏的会对用户和社会造成影响的偏见予以考虑,追问公司、机构和组织在运用算法系统进行自动化决策过程中的透明度问题。
在理想状态中,数据系统会剔除之前不恰当的人类偏见。但是我们必须警惕,确保大数据的应用不会造成对某一特定群体的系统性歧视。我们需要发展出一种“经由设计的平等机会”法则,从运算过程的第一步开始到最后,促进公平,反对歧视。如果计算机系统的公平性、对于数据分析的伦理性路径能够得到保障,那么这样一套新的实践就具有很强的潜力去增加机会、克服歧视。
主要假设:大数据是中立客观的
一个惯常的假设是,基于数据体量和算法系统技术的大数据技术是无偏见的。但是,由于大数据技术是数据驱动的,因此不可能是中立客观的。
对于数据来说,促进公平和克服歧视的挑战集中在两个方面:
1)输入算法的数据资质。
2)算法自身的工作机制。
挑战一:算法的数据输入
大数据的算法系统是一种智能过程。这一过程需要数据的输入。对于复杂的算法来说,数据的多样性同最终结果的准确程度密切相关。使用某些数据而不用另外一些数据会带来输出结果上的歧视,包括:
• 草率选择的数据。算法系统的设计师可以决定哪些数据对于决策是重要的,哪些不是。而草率选择的数据或许会产生结果偏差。相应的,设计师也会选择颗粒度(granularity)过大或过小的数据,这同样会带来潜在的偏见。
• 不完整、不正确、过期的数据。由于缺少细致和完备的数据集,或者在数据搜集过程中有不准确或者空白,即便算法系统在其他方面都工作良好,还是会得出无法切实可行的结果。
• 选择偏差。如果输入的数据不具备一定的整体代表性,那么结果很可能会使得某一群体的利益盖过另一群体。
• 无心的延续性和对历史偏见的推动。输入的数据通过算法形成了带有偏见的结果,该结果进入到了下一轮的算法循环,或者替代掉之前的结果输出。
在设计一个高效公平、对于消费者和社群具有道德标准的算法系统时,尤其是该系统还会对授信、雇佣、居住分配、准入等造成影响,需要对以上几点进行考虑。透明度、可信性以及基于机器过程都是确保算法数据准确合适的要素。
挑战二:算法系统和机器学习的设计
对于那些不直接参与大数据算法技术发展的人来说,系统最终的产品如同一个“黑箱”——不透明的机器,输入的数据,经过谜一样的过程,产生不加解释的结果。消费者、准入学生、工作候选人、被告人、公众等对于算法系统的技术过程典型地一无所知,技术总是被当做机密或者财产使用。有些系统甚至会被动地预先筛分候选人,而这实际上是先发制人地简化了后续的决策制定过程。这种不够透明的过程对于个体影响深远,个体甚至缺乏能力了解作出决策的原因,也无法发现或修正那些如果是存在的偏见。这意味着有些个体们将整体性地被排斥在某些机会之外。这种情况很复杂,也很难阐述,尤其是结果是依赖循环产生的决定。但至少,无论如何,对于大数据的使用来说,鼓励透明度、可信性以及基于机器很重要。这些问题包括:
• 草率设计的匹配系统。匹配系统帮助寻找信息、来源和服务。搜索引擎、社交媒体平台、各种应用依靠匹配系统产生结果、显示广告、推荐业务。这种匹配系统如果缺乏更新,对于历史偏见不加考虑,或者数据和算法存在盲点,将会产生歧视性的结果。
• 用户画像和推荐服务窄化用户观念。个体用户的细节信息会被搜集和分析,以发现他们的爱好、兴趣和信念,并由此给他们推送感兴趣的音乐、视频、折扣或者商品。但学术研究显示,这种推荐算法会无可避免地限制某些特定群体的信息流,使其无法和其他人得到同样的经济通道。
• 决策制定系统会预设相关关系潜藏着因果关系。程序员或者算法系统自身会预设如果两个经常出现在一起的要素具有某种因果关系。而这种预设会带来歧视。
• 数据缺乏信息或者不具有整体代表性。原始数据的瑕疵会导致算法系统扭曲产生代码歧视。受经济、语言、社会结构等因素的限制,数据的可获得性、技术的可接入度、对于数字生态的参与情况等差异很大。但毋庸置疑,这种系统性的偏差会强化既有的歧视,对某一群体的过度表现而压制另一方。
在未来的研究中,另一个领域是关于机器学习——一种不用给计算机明确编程而依靠其自主行动的科学。这种复杂程度高,甚至有时程序员都无法理解的技术已经开始在信用授予、企业筹款、企业招聘等领域开始试用。随着算法复杂程度日益提高,通过机器过程形成的决策越来越难以被解释,除非这一机制在设计时就包含了可信性。
和其他领域类似,程序员和科学家对大数据系统的设计、训练以及运用过程中产生的偏见,可能既非故意也是无心。因此,要践行“经由设计的平等机会”法则,就要在决策制定时,包括在雇佣、推荐、打分、筹款以及社会参与等方面,以一种基于研究的方法(Research-based Method)“弱化偏见”,以避免设计者由于自身的文化和生活经验带来的不可回逆的后果,使得偏见成为常态。
随着大数据和机器学习技术的不断进步,一个重要的启示是,不能再不加质疑地过多依赖于新的系统,而是需要不断地测试输入数据、决策机制以及输出结果。那种认为数字不会撒谎、永远代表客观事实的“数据原教旨主义”,会带来严重且迷惑的后果,给人们的生活带来极大的负面影响。
于此同时,我们还需要关注这些算法系统是如何被使用的,确保这些关于地点、人物、偏好等更多的信息被合理合法有道德地使用,进一步促进民主公平。
二、大数据应用的案例研究
以下部分,我们将列举贷款、教育、就业和刑事司法这四个方面的大数据应用研究案例,分析算法系统在支持个人、商业和组织使命达成中带来的机会,以及避免大数据利用带来的负面效应所面临的挑战。
1.大数据与贷款
(1)问题:因为缺少信用纪录,许多美国人无法获得可以负担的贷款。
人们可以获得价格合理且负担得起的贷款是推动美国经济繁荣的一项重要因素,特别是对于那些通过工作迈向中产阶级的人们来说。几十年来,贷款机构主要依靠信用评分来决定是否发放贷款以及相应的条件。信用评分代表了借款人在未来某段时间内发生拖欠还款等不良金融行为的可能性。这种预测是根据借款人的真实信用纪录数据,通过算法模型得出的评分而作出的。尽管传统的信用评分系统在经济活动中发挥了重要作用,但是根据美国消费者金融保护局(CFPB)的研究发现,11%的消费者的信用不可见——他们甚至没有足够的、最新的偿还贷款记录供算法系统运算得出一个信用评分。CFPB还发现,收入和可打分的信用纪录之间存在强关系。低收入消费者、非裔和拉丁裔美国人更有可能信用不可见。
(2)大数据的机会:在贷款中利用大数据可以增加缺少金融支持人群获得贷款的机会。
大数据解决这一问题的可能路径是利用数据分析获取多种来源的信息,为消费者获得贷款创造更多的机会。一些贷款机构收集之前未利用过的数据,比如电话账单、公共档案、早先的地址、教育背景、缴税纪录,另一些贷款机构可以考虑更加非传统的来源,比如手机使用过程中收集的位置数据、从社交媒体平台上收集的信息,在线购物纪录中的消费偏好,甚至贷款申请人在个人金融网站上浏览的速度。
通过大数据设计的信用工具为千百万的美国人获得贷款创造了一个新的评分机制,而在以往,这些人因为缺少足够的信用纪录而无法获得信用评分,或者因为评分过低而无法获得贷款。
(3)大数据的挑战:在扩大消费者获得可负担贷款机会的同时,也要保护消费者在信用评定决策中免受歧视。
尽管大数据能够增加美国人获取可负担的贷款的机会,但是如果不谨慎使用,它也会潜在地巩固、强化或者遮蔽歧视。同时,计算驱动的“黑箱系统”缺少透明度,也会影响消费者对不利决定提出异议或者修正错误信息的能力。当算法以新的方式来评价个人信用时,在设计和和测试时应当重点关注并防止非故意地利用信息造成种族、性别和其他应受保护特征的歧视。
由于算法系统的复杂性和专利特征,对于评价产品的研究还相当匮乏。如果不改善这一点,这种利用新的评价方式的算法系统在贷款市场上的应用将会对个人信用测定造成歧视性的伤害。
2.大数据与就业
(1)问题:传统的雇佣过程可能不必要地过滤了拥有与招聘职位相符技能的应聘者。
上世纪90年代起,越来越多的企业意识到不能再仅仅依靠浏览简历,而应当采用新的方式获取和分析更多的应聘者信息。简历数据库为应聘者和招聘者之间搭建了桥梁。为了处理大量涌来的应聘者信息,招聘企业采用新的方式为应聘者打分,使用分析工具自动化地分类和识别偏爱的应聘者进入雇佣程序。这种改变,使对应聘者进行识别和打分的任务从工业心理学家和招聘专员转移到了使用算法和大数据集的计算机科学家身上。
即使企业在招聘中大量使用了算法系统和自动化工具,但是无法避免招聘人员存在无意识的“与我相似”的偏好带来的偏见,而这会对雇佣多样性造成妨碍。算法系统可以通过设计避免这种偏见,增加雇佣的多样性。然而,由于算法设计依靠的是人力和不完美的数据,因此,算法系统也有可能建立在有瑕疵的判断和假设之上,从而固化偏见。
(2)大数据的机会:大数据可被用于发现或减少就业歧视。
与信用评分一样,数据分析可以在职场用于评价人员与工作的匹配度。如上所述,招聘中的“与我相似偏见”或者“类同偏见”可以使一位用意良好的人事经理往往选择与其有共同点的应聘者。相反,算法驱动的招聘程序可以避免个人偏见,识别出最适合特定岗位的人才。
企业也可以利用数据驱动的路径发现通过传统的教育或职场经历要求而被高估的雇员。当公平、伦理和机会成为招聘算法设计的核心,大规模的数据系统可以克服传统招聘实践中引发歧视的那些明示或者暗示的偏见。除了招聘决策和人员部署外,先进的算法系统也可能解决就业歧视中其他由来已久的挑战,比如工资差距或者职业隔离。
(3)大数据挑战:促进就业机会中的公平、伦理和减少歧视的机制。
数据分析企业利用关于应聘者的多样新型的信息来源进行“应聘者评价”。这些算法使用的信息来源有时候与种族或其他受到保护的特征密切相关,或者用来预测个人是否胜任某项工作是不可靠的。
机器学习的算法能够通过雇员过去的表现判断哪类雇员更可能获得成功,或者通过人事经理过去的决定分析其偏好。但是如果这些信息来源本身具有历史性的偏见,那么算法评价恰恰复制了同样的偏见。
企业开始通过多样化的人力资源分析平台来筛选应聘者。对于构建美国职场公平性来说,关键的是企业要持续推动以公平和伦理的方法使用数据工具,避免偏见的固化而造成对某些人群的冷遇。
3.大数据与高等教育
(1)问题:学生往往在申请大学、寻找适合大学的信息和入学等方面面临挑战
申请大学的学生及其家庭必须在众多高等教育体系中评估选择最能够实现他们的目标的那一个。是否攻读高等教育学位、哪种学位以及在哪个大学,这些决定对于学生和他们的将来都会产生长久的影响。虽然这种决定非常重要,但对学生来说却缺少清晰、易用、可获得的信息,以指导他们进行决策。
与此同时,高等教育机构收集和分析大量的学生和申请者的数据。在高等教育入学中使用大数据,可能会产生歧视,也有可能用来预防歧视。同样的技术可以识别和帮助那些需要额外帮助的学生,也可以用来拒绝学生的入学申请或其他机会。
(2)大数据机会:大数据能够增加那些最有需求学生的教育机会。
为了解决大学质量和费用信息缺乏的问题,政府创造了一种新的大学评分卡,提供大学绩效的可靠信息。从未披露过的全国毕业大学生收入数据,包含了毕业校友的收入和学生贷款等最可比较的数据。这些数据也可以鼓励大学加强对学生完成大学学业的支持。
除了教育部提供的大学评价卡的数据以外,高等教育机构也利用大数据对入学学生的发展进行分析和追踪,为学生建立定制化的学习安排。大数据技术可以通过个性化建议提高学生的学习效率,克服学习结果的持续的差异性,对那些可能退学或失败的学生提供额外的帮助。
(3)大数据挑战:管理者必须谨慎对待高等教育入学决策中可能的歧视。
尽管数据能够帮助高中学生选择合适的大学,但是对于学校和学生成功的因果关系的准确评估还面临多种挑战。一个重要的制约是,联邦数据资源中缺乏可以反映学生个人学业准备水平的数据,比如GPA、SAT或ACT成绩。因为学生的学业准备水平是评价大学质量的重要指标,缺少这一变量可能对大学质量的评价产生偏见。
在入学决策中,高等教育机构可能使用大数据技术在学生入学前预测申请学生毕业的可能性。大学可能会拒绝来自低收入家庭的学生或者那些毕业面临特别挑战的学生。
另一方面,一些学校和州积极利用数据提升学生入学率和成功率以及防止歧视。例如,田纳西州一项以结果为本的基金方案为四年制大学提供有关数据如何推动学生成功的说明。田纳西的模型对有资格获得Pell奖学金和成年(年龄大于24岁)学生的“学分累积”和“学位获得”的结果赋予了额外的价值。这样,大学有动力招收低收入家庭和成年学生并支持他们获得成功。
4.大数据与刑事司法
(1)问题:世界快速发展,执法官员正在寻找智慧的方法使用信息技术,增加社区的安全和信任。
地方、州和联邦执法机构越来越多地利用数据分析和算法系统以达成保卫美国的使命。执法官员使用数据和新技术对形势进行分析并作出恰当地反映。与此同时,执法机构也希望在其服务的社区中始终保持责任心,并且在数字时代也同样得以保持。同样的,协助执法机构作出决策和采取行动的技术也应当理性地加以使用,考虑其对社区信任关系建立的影响。
(2)大数据机会:数据和算法可能帮助执法者变得更加透明、有效且高效。
执法机构长期以来试图识别犯罪行为的模式,以便更加高效地分配有限的资源。新技术取代了人工操作,许多警察局开始使用复杂计算模型系统,重新确定犯罪高发地区,将犯罪数据与气温、时间、与其他建筑物和设施的距离以及其他变量联系起来。总统21世纪警务特别小组建议,执法机构应当总结技术为基础的执法的模型政策和最佳实践,提升社区的信任,制定与技术对隐私影响相关的国家标准,总结可为立法部门采用的最佳实践,以制定执法机构收集、使用、留存、传递视听数据和生物数据的规则。随即,白宫发布了“警方数据倡议”,推动警方数据更加透明,提高社区信任度。使用去身份的警方数据以及本地犯罪与人口统计资料等背景数据,系统可以发现预测未来高风险犯罪活动的最有指示性的因素。一些最新的分析模型技术,通常被成为“预测警务”,在预测犯罪行为可能发生的时间和地点上有相当高的精确度。
(3)大数据挑战:执法者可以使用新技术在社区中加强信任和公共安全,特别是通过提高透明度和问责性措施,减少个体特征对执法处理和结果的差异性风险。
如果谨慎地设计和部署大数据方法,执法机构可以与风险实证相关的因素和变量进行决策,而非依据有瑕疵的个人的直觉和偏见。然而,非常重要的是,数据和算法系统不可以用于加剧刑事司法系统中无根据的差异性。
数据分析预测工具必须确保算法不依据下列因素而不成比例地挑选出特定群体,包括种族、宗教、收入水平、教育或其他与个人犯罪行为的可能性有关的特征。另一个需要重视的问题的是刑事司法数据众所周知非常糟糕。部分原因是因为主要的数据资源库,联邦调查局的统一犯罪报告(UCR)有必要进行现代化,自愿贡献的数据常常由于缺少丰富性和完整性而无法用于深度分析。即使犯罪报告得以改善,许多刑事司法数据仍具有内在的主观性。
三、展望未来
大数据利用可以为美国人民创造巨大的价值,但是随着技术在全社会的普及应用,我们必须维护我们的基本价值不会受到大数据系统的破坏和限制。为了确保大数据分析的发展与平等创新的目标相契合,保护美国公民的权利,有必要:
• 支持对减少算法歧视的研究,构建公平和问责的系统,发展强大的数据伦理框架。
• 鼓励市场参与者设计最佳的算法系统,包括透明和问责机制,比如保障主体修改错误数据和对算法决定提出申诉的能力。
• 推动算法审计和大数据系统外部测试的学术研究和产业发展,确保人们得到公平对待。
• 扩大计算机科学和数据科学的参与性,包括扩大机会,提高所有美国人对大数据算法的熟悉和了解程度。
• 思考政府和私人部门在设计大数据的利用之路的规则时所扮演的角色。
编译:方师师 张衠 编辑:张钰莹