上政学报 | 罗伯特·布劳尼斯、埃伦·P·古德曼著,王延川译:智能城市的算法透明度
点击蓝字
关注我们
经典译介
智能城市的算法透明度
本文刊登于《上海政法学院学报》2023年第5期
摘 要
公共机构将数据分析交由私人供应商负责,使得机构代理人员与公众均无法获知算法决策的设计及其背后的政策选择。通过向23个州政府提交42份公开记录请求,寻求有关6个预测算法决策的基本信息,以探究公开记录流程能否让公民发现这些算法所体现的政策判断,并评估其效用和公平性,但这些请求基本上未得到回复。传统观念认为,过度宽泛的商业保密保护是无法产生算法透明度的主要原因,但该观念并不准确。只有在以下情况下,公共部署算法才会足够透明:1.政府在算法运行和后续实施以及验证目标时产生的适当记录;2.私人供应商向公共机构披露有关它们如何开发算法的充分信息;3.公共机构和法院将商业秘密主张视为法律要求的公开披露的有限例外。
关键词
算法政务;算法黑箱;算法透明度;商业秘密;公开记录法案
作 者
罗伯特·布劳尼斯(Robert Brauneis),乔治华盛顿大学法学院教授;埃伦·P·古德曼(Ellen P. Goodman),罗格斯大学法学院教授。
译 者:王延川,西北工业大学马克思主义学院教授、博士生导师。
王延川
引用格式
罗伯特·布劳尼斯、埃伦·P·古德曼著:《大数据及其多重应用价值的宪法学审视》,王延川译,《上海政法学院学报》(法治论丛)2023年第5期。
目 次
引 言
一、算法治理的承诺和危险
(一)从临床预测到智能城市算法治理
(二)承诺和危险
二、界定有意义的透明度:公众需要知道什么
(一)什么是算法政务?
(二)算法在执行吗?
(三)算法公平吗?
(四)算法增强或减弱了政府的能力吗?
(五)有意义的透明度
三、公开记录法案项目:获取算法文档
(一)项目设计和实现
(二)结果
(三)结论
四、透明度的主要障碍
(一)文件缺乏
(二)过度的商业秘密和保密要求
(三)其他政府关注和公开记录法案豁免
五、措施
(一)要求条款和记录允许披露的合同语言
(二)创建问责记录
六、结 语
引 言
政府越来越频繁地使用计算机算法来处理公共事务。这种现象在市、县和州层面上尤其如此,因为这些政府旨在提供基础服务和部署强制性警力。席卷全球的“智能城市”运动向地方政府强调了更有效地收集和部署数据的重要性。其中一个目标是在大数据集中找到一种模式——例如,犯罪最有可能在何地和何时发生——以及生成预测模型去指导公共服务的分配——例如,以何种方式并在何地布置警力。大多数地方政府缺乏自己部署数据分析的专业技能和资金,如果它们想要“智能化”,就需要与公司、大学和非营利组织签订合同来实施私人开发的算法过程。其结果是,私人开发的预测算法塑造着地方政府在刑事司法、食品安全、社会服务和交通等领域的行为。
由于设计实体通常不会透露他们的预测模型或算法,因此越来越多的文献批评这些流程的“黑箱式”不透明。这些黑箱对于质疑无动于衷,许多人担心它们可能是歧视性的或易错的,或存在很大问题。记者和学者们已经开始从公共实体中寻找有关这些算法的细节,但通常因为其信息自由请求权被拒绝或未被回答而失望。
评论员们也在呼吁提高所有人工智能实施的透明度。这一点被特别关注,即当市政府和其他政府使用预测算法时,公众和政府自身对这些算法的开发和实施均难以真正理解。通过开发和销售甚至免费赠送这些系统给政府,私人实体在公共管理中发挥着重要作用。智能城市的智能之处在于私人供应商难以触摸的大脑,而独自对公众负责的政府是被掏空、失声和一抹黑的。风险在于算法的不透明使得企业能够获取公共权力。当政府机构实施它不理解且无法解释的算法推荐时,政府失去了民主问责,公众无法评估政府流程的功效和公平,政府机构也失去了以任何一种批判方式进行公共工作的能力。
通过确定政府部门中一些最常见的大数据预测运用,我们着手测试不透明的地方政府预测算法如何发挥作用。我们确定了由基金会、私营公司和政府实体开发的算法以及刑事司法和民事适用中使用的算法。然后,我们组建了一个针对各种用途和辖区的公开记录请求“文件夹”。通过使用MuckRock,即一个用于提交公开记录请求的非营利性协作平台,我们针对与6种预测算法有关的记录在23个州提交了42个请求。联邦政府和所有50个州(以及华盛顿特区)都有公开记录法案,要求对涉及公共使用算法给予不同数量的披露。无论大多数公开记录法案如何书写,与供应商的合同和相关通信几乎总是属于必须被公开的“公共记录”。根据《联邦信息自由法案(FOIA)》,软件是可被披露的“记录”,虽然并非全部,许多州法律也是如此规定。我们寻找包括通信、合同、软件、培训材料、现有的和计划的验证研究以及其他文件记录。虽然我们的重点是地方和州政府,但我们怀疑自己的发现是否对其他与私人供应商合作的政府实体同样适用。
我们从这些请求和相关调查结果中得出结论,政府在使用大数据预测的透明度方面有三个主要障碍:(1)围绕算法过程缺乏适当的记录生成实践;(2)政府没有充分坚持适当的披露实践;(3)政府承包商对商业秘密或其他保密特许的主张。在本文中,我们将调查每个障碍,并提出降低这些障碍的政策和做法。如果这些问题得到了解决,我们还怀疑在某些情况下真正的透明度会存在另一个障碍:高度动态或使用建模算法的运用使得即使记录被披露后也难以解释。我们将这个问题留到下次讨论。
在本文的第一部分,我们介绍了临床判断、精算判断和预测算法等基本概念,追踪智能城市算法治理的发展,调查算法治理的承诺和风险。在第二部分,我们提出了关于预测算法的“有意义的透明度”的概念。这涉及调查公众需要了解被植入这些项目的政治内容,以及它们的效用性、公平性和对政府能力的影响。第三部分描述了我们向各个管辖区提交的有关其预测算法部署的公开记录请求,以及我们收到的回应。第四部分确定了在算法过程中提高透明度的障碍。第五部分提出了算法透明度最大化的缓解技术,并提出了八种主要类型的信息,这些信息涉及公开实现的算法应该包含的内容。第六部分是结论。
一、算法治理的承诺和危险
(一)从临床预测到智能城市算法治理
巨量增加的计算能力和网络能够对大量数据进行收集、存储和分析,这让算法治理成为可能。城市寻求利用数据对诸如卫生服务、公共安全、刑事司法、教育、交通和能源的公共服务与基础设施实现合理化和自动化。当地政府的局限性使私人承包商成为这一流程的核心,引发因为政策外包产生的问责制问题。从公共需求到私人技术支持的这场运动起源于对“精算”预测的偏好多于“临床”预测。
1. 临床VS精算预测和判断
分配公共资源和部署强制性警力的政府官员经常使用所谓的“临床预测”来作出决定。从培训、实习和体验来看,这些官员培养了识别人们的行为方式以及行政决策可能产生后果方面的知识。老练的个案工作者可以了解孩子是否可能在家中受到虐待。法官预测囚犯被假释后是否会犯下其他罪行。公立大学招生职员可以大致预测何种奖学金提供方式会促使已被录取的学生报名注册。临床预测或临床判断不能完全正式化或被明确表达,因为它是基于将个人积累的智慧应用于特定情势,并通过对相关情况的开放式调查而被告知。
临床预测与精算预测相反,后者也被称为机械、统计或算法预测或判断。精算方法分析关于对象的数据,从而发现特点或特征与结果之间的相关性,但它绝对不是开放式的。例如,对假释者数据的分析可以假设性地显示,年龄在20岁到30岁之间的人在假释期间被逮捕的次数是50到60岁之间的两倍。与临床预测不同,数据定义、分析方法和精算预测的相关性可以被正式化和明确表达。然而,由此产生的预测或判断从来不会基于特定情景的所有情况,因为精算分析总是通过有限领域的数据而运行。例如,虽然可以考虑刑事被告的年龄、性别和犯罪历史,但他的家庭关系和社区关联的品质可能并不会被考虑。
精算判断已经存在很长时间了。1762年,第一家基于精算表保险单销售的人寿保险公司在伦敦成立。90年前,即1928年,欧内斯特·伯吉斯(Ernest Burgess)根据对21个因素的统计分析创建了一个预测假释者再犯的公式——后来的评论确定该公式比监狱精神科医生的临床预测更加准确。60多年前,精算预测的运用已经足够广泛,以至于保罗·弥尔(Paul Meehl)出版了一本有名的对比临床和统计预测的著作。当然,政府长期以来一直在应用更正式的统计方法及非正式的临床判断,至少通过零散的形式来考虑某些事项,例如,某些安全提升可能会减少交通死亡的程度,或未来某个时期社区对电力需求的可能变化。然而,精算判断在政府(以及商业)中的应用最近获得了巨大的动力,这要归功于为了分析而积累的大型数据集以及计算能力和机器学习理论的进步,这些理论可以对这些数据集进行更为复杂的分析。
2. 预测算法和机器学习
在大数据时代,精算判断通过创建和使用预测算法得以实施。通过分析大型数据集来构建预测算法,以揭示各种(人、环境或活动的)特点与期望或目标与结果之间的相关性。通常,该分析是在机器学习程序的帮助下进行的,在该程序中,计算机可以测试数千或百万的复杂相关性,以查验哪种情况最适合数据。机器学习过程的强大在于——它们梳理了大量的可能性——并且相对客观——计算机不知道某个特定变量是否代表一个人可能认为不相关的特点,比如鞋子的尺码,或者像种族这样的敏感事物,而仅仅测试该变量与表示结果的变量之间的任何相关性的强度。当给定相关事实(输入)时,具有最佳匹配的相关集将成为评估未来行为或事件(输出)可能性的模型。因此,算法过程通常涉及:(1)基于对收集的历史数据的分析,构建模型以实现一些目标;(2)对实施该模型的算法进行编码;(3)收集有关对象的数据,为算法提供输入;(4)对输入数据应用规定的算法运算;(5)基于数据分析链以预测或建议的形式进行产出。
3. 算法治理和智能城市
大数据使用和预测算法是一种治理形式——即当局管理个人行为和分配资源的一种方式。在地方一级实施算法是更广泛的数据驱动决策运动的一部分,其必须在“智能城市”议程的背景下进行理解。在21世纪,市和县日渐转向“数字硬件和软件,以产生关于城区处理的超大量数据”。首先,将数字技术整合入治理涉及基本的电子政务计划和数字化的政府资源。在过去的5年中,地方政府已经部署了更广泛分析并开始开发传感器网络、无处不在的通信和计算。所有这些工作——数据的收集、分析和使用——需要大多数政府所缺乏的技术性专有技术和基础设施。当城市转向基于数据的治理时,其被要求以更少的资源处理更多的事务。私营科技公司提供城市管理者难以评估的“解决方案”。
地方政府依靠公私合作(Public-Private Partnerships)开发“智能”城区系统所必需的分析。有争议的是,私人实体一直处于整个智能城市运动的前沿。的确,IBM将“智能城市”这一词组注册为商标,该商标作为其技术驱动城区管理市场化运动的一部分。思科(Cisco)也一直活跃。(拥有谷歌的)Alphabet,其子公司人行道实验室(Sidewalk Labs)正在重建多伦多海滨。这个智能海滨区的治理将在人行道实验室、政府机构和多伦多海滨之间均等划分。
(二)承诺和危险
智能城市对私营技术公司的依赖,以及更一般性地通过算法过程部署政府的精算判断,有好有坏。从好的方面来说,通过算法告知决策可以提高政府服务提供中承诺的效率和公平。正如医学中已经证明的那样,精算预测有时明显优于临床预测:数据集的形式化分析比多年来在实践中体验的非正式职业预感(Hunches)能更好地评估风险。数据分析可以表现出之前没有被关注或没有精确量化的模式。例如,对Yelp餐厅评论进行系统跟踪,可以向城市卫生检查员通报其辖区内餐馆出现的食源性疾病。整合孤立的管理域(如教育和人道服务)中的数据,然后使用该数据对需要政府帮助的家庭进行优先排序,可以提高所提供的社会服务。
通过算法告知决策还可以帮助政府官员避免其明显或隐含的偏见,这些偏见可能会蔓延到不那么正式的、以“预感”为基础的决策中。例如,仅仅会见囚犯即作出假释决定的假释委员会成员可能过分关注罪行的严重程度、囚犯的悔罪表现或文化或种族归纳。相比之下,数据分析的系统运用可以识别与再犯具有显著相关性的特征,并单独或组合以评估这些相关性的强度,然后将这些相关性编码成一种算法,用来在输入关于囚犯信息时评估再犯的风险。构建算法时,政府官员可以从考量中明确地排除种族、民族或宗教等敏感属性,以及作为这些敏感属性代替物的数据类别,假如他们认为对这些属性的考量不公平的话。与此同时,预测算法不太可靠且会构成特殊风险,尤其在私人合作者实质控制的情况下。如果不适当地被开发或实施,预测算法可能会比政府官员临床判断的准确性更差,它们会拘泥于形式,并对被嵌入作为训练自己的数据中的偏见进行掩盖。此外,正如我们将在下面讨论的那样,算法可能会制定与选民或被选举代表的偏好不同的政策判断。
私人供应商参与算法设计会导致其他一系列危险,包括不透明、公共权力被剥夺和问责制的丢失。已经将预测算法开发工作让给私人供应商的公共官员可能不参与,并且可能不知道被纳入这些算法的政策决策。使用预测算法输出以得知决策的公共雇员可能不理解算法的设计和局限性,可能无法确定它是否考虑了他们认为相关的事实。即使他们能够查询算法,也可能会被供应商起草的合同叫停,这些合同由供应商控制或拥有数据和分析。
通过算法治理使私人参与公共行政引发了某种担忧,即数据将被用来伤害公民并削弱公共权力。“警务、监视、群体控制、紧急响应,在历史上均系国家职能,公民期望其中所涉及的非常敏感的数据由国家持有。然而,可能的情况是,在一个……(建立在公私合作基础上的)城市,其数据被发现……在私人控制下。”据巴塞罗那的数字化负责人,一个智能城市技术的引领者所说,城市“最终会成为一个黑箱操作系统,城市自身会失去对关键信息和数据的控制权,这些信息和数据本可以用来进行更好的决策”。风险在于控制数据和分析公司占据了城区治理的指挥中心,而无法控制数据的民主问责官员则被边缘化。
一个相关的问题是,通过这些合作,私人供应商会将政府锁定在专有系统中。一些聪明的城市评论员警告,“智能”项目只是销售由供应商拥有和管理的市政综合数据管理系统的工具。服务合同使得政府依赖技术提供商进行升级和持续开发,将政府锁定在专有技术中,而它们却无法控制成本和创新步伐。锁定可能会将技术系统延伸至它们所嵌入的物理基础设施。例如,Alphabet子公司人行道实验室与多伦多海滨合作,计划“整体”建造一个800英亩的迷你城市,作为“一个由数字技术和数据增强的地方”。人行道实验室很可能会收集数据并利用城市数据对预期的海滨活动进行算法预测。尚不清楚公众对数据或相关分析的所有权或访问权限,物质性基础设施将如何管理,或公共实体是否能够如它们所希望的那样,结束与私营公司的关系后控制信息和物质性资产。
二、界定有意义的透明度:公众需要知道什么
随着人工智能和算法预测迅速渗透到地方治理中,公众最想知道算法所反映的政策判断以及在实现为其设定的目标方面的表现。本部分根据算法的运作方式确定有意义透明度的组成部分。第五部分通过我们推荐用于公共预测算法的具体披露做法,实现了有意义的透明度。
(一)什么是算法政务?
算法治理具有政治性。被编码入算法的判断运行在所有阶段。这些判断在某种程度上是公众应该知道和可以谈论的。然而,仅仅作为科学真理手段的算法可以掩盖嵌入底层模型的价值。此外,当私人供应商控制算法治理时,算法政务后退至私人“树篱”之后。算法是一门远离政治的科学想法可以掩盖其私有化控制的重大利益,这种控制在其他私有化领域如学校和监狱更为明显。正如哈里·色登(Harry Surden)指出的那样,预测算法推荐“实际上掩盖了由系统设计者所作出的关于使用、包含或排除哪些数据,如何对数据进行加权以及强调或不应强调哪些信息的一系列的主观判断”。在实施任何政策目标时都会存在权衡取舍。例如,即使在实施减少交通等待时间这样无争议的目标时,政策制定者也必须考虑在交通流量服务中被允许的行人安全风险,以及考虑如何减少尾气排放的因素。减少等待时间的一般指令并未规定这些权衡应该是什么。实际上,政策制定者甚至可能没有作出某些选择,但只有在工程师设计算法并决定解决权衡时选择才会显现。
不断增长的文献确定了算法的社会、政治和道德维度。我们在第三部分中解决了特定的语境化问题。就目前而言,通过举例说明算法政务的一个特别重要的表现形式就足够了:分类算法如何处理假阳性(False Positives)和假阴性(False Negatives)。来看一种算法,其将火车站中的物体分为可疑或不可疑,程序员必须在错误警报风险和错过危险物体的风险之间取得平衡。在统计学中,假阳性通常被称为“类型I 错误”,假阴性被称为“类型II错误”。程序员必须“调整”算法以支持一种错误而不是另一种,或者将它们同等看待。尼克·蒂亚克普洛斯(Nick Diakopoulos)观察到算法调整“可以在决策中为不同的利益相关者提供特许,这意味着算法设计师根据假阳性和假阴性错误被平衡的方式对这种算法进行基本的价值判断”。
这个调整是被揭示出来的少数算法之一,是费城的成人缓刑和假释部门的风险预测算法,用于缓刑者中的暴力再犯。该工具预测缓刑犯在释放后2年内犯下暴力犯罪的可能性,并将测试者分为高、中、低风险三个层次。该算法是通过将历史假阴性视为假阳性成本的2.6倍而构建的。犯罪学家和统计学家理查德·伯克(Richard Berk)被咨询该计划时评估到,29%到38%的预测最终都是错误的——错误率被一项政策合理化,即“释放Darth Vader比监禁Luke Skywalker危险得多”。然而,事实证明,将缓刑犯过度分类为高风险是有问题的,因为他们为了消除重新进入而要付出更昂贵的服务费用。这个城市回头找到伯克,并要求他重新校准算法,以减少高风险类别的规模。根据另一个项目参与者的说法,该模型被故意制作得不太准确,“以确保它在运行时产生正确的错误”。
一种类型的错误优先于另一种错误的选择是数十个或数百个决策中的一个,这些决策将告知预测算法架构。其中一些是微不足道的,另外一些则具有后续效果。有些会实施公开声明的政策目标,而其他则留待没有政策方向的程序员决定。卡里·科格里安内斯(Cary Coglianese)和大卫·莱尔(DavidLehr)承认:“不习惯通过任何正式程序进行道德评价的机构,更不用说分配给它们数字和机器学习算法的机构,将让解决组织和民主决策问题成为必要。”
(二)算法在执行吗?
无论由算法编码的隐藏政策选择什么,政府都可能为预测算法设定一个高级别明确政策目标——无论是减少交通等待时间还是假释者再犯的最小化。公众应该能够评估实现既定目标的算法性能。这是一个相对简单的效用问题,通过与预期结果数据匹配的统计性能来评估。
当然,即使在这里,也有各种各样的性能衡量标准,重要的是了解每项衡量标准代表了什么。例如,被用于预测算法的一种流行衡量标准是接收器操作特性(ROC)曲线下的面积。在0.5和1之间的单个数字中,它提供了一种评估,在同时避免假阳性和假阴性的案例中,算法为何比随机分配更好。然而,它有一些局限性——它只能在算法的输出是一个得分时应用,该得分将目标从最少到最可能与某些结果相关联进行排列——并且它仅提供关于算法相对成功的一个视角。其他衡量标准可能侧重于性能的其他方面。例如,“拟合优度(Goodness of Fit)”测试会显示,虽然模型在预测结果风险方面总体上相当不错,但是目标属于风险最高的10%的预测,其准确性明显低于目标属于风险最低的10%的预测。换句话说,当更多情况出现时,有许多方法可以衡量准确性。在不知道绩效如何被衡量的情况下,人们无法理解关于绩效的要求。
算法低效的原因有很多。它可能在不良数据输入(垃圾输入、垃圾输出)基础上进行培养。疏漏也可能由错误的归纳推理、数据选择和因素加权而产生。另一个更广泛的算法过程中的故障点可能处于实施阶段。除非算法预测是自我执行的,否则人类必须理解预测,以便选择在决策过程中给予多少权重。在市政环境中,政府工作人员通常也负责选择和输入数据。虽然验证研究有助于确保算法达到预期目标,资金紧张的政府可能不需要在实施之前或之后进行验证研究,或者它们可能无法正确执行。验证研究的结果以及有关其设计的信息都应受到公众监督,以便进行恰当的评估。
(三)算法公平吗?
算法在实现期望结果方面运行良好,但在公平衡量方面表现不佳。公众在确保预测算法正确设计和执行上抱有强烈的兴趣,特别是当其对个人造成影响时。相比算法的公平而言,开发商更关注算法的性能,并且算法的公平根本不在工程师的职责范围之内。
政府使用预测算法对传统的公平概念提出了内在的挑战。就其本质而言,预测模型是简化的,并不会考虑有关主题所有可能的相关因素,因此必然将人视为群体的成员,而非个人。将不相似的个案视为相似的概括特点是这一过程所固有的。对于敏感性决策,尤其在个人自由受到威胁的情况下,法官和社会工作者等决策者应该在算法预测之上进行人为判断,以便可以捕捉错误的预测。从理论上而言,算法告知仅供参考。从实践上而言,决策者过度依赖这些数字增加了公平性的风险。
最常被讨论的算法公平问题是预测算法是否会引入或保持基于种族、性别或其他受保护特征的不良歧视。其他形式的歧视受到关注,比如,算法是否偶然不利于(从而抑制)特定的行为。例如,如果使用会使儿童受到危害风险增加相关的精神健康系统,那么算法可能会将精神健康系统使用作为其风险评估的一个因素。精神健康系统的使用可能与受保护群体的成员资格相关。但是,一种对寻求心理健康治疗的人进行惩罚的算法会引发公平关注,如果那些在心理健康治疗方面会得到帮助的人选择不追求该治疗以避免儿童福利干预,那么就会引起更大的福利关注。
公平和性能有时是相关的。一个典型的例子是面部识别算法,该算法是在构建它的工程师所熟悉的面孔上进行训练的,这些工程师大多是白人。因此,程序更有可能无法识别或错误识别黑皮肤的人脸,这可能会使无辜的黑皮肤的人更容易被误认为是犯罪嫌疑人。使用所有肤色的人脸重新训练算法会使整体表现更好,同时减少浅肤色和深肤色的人脸之间在精确度上的差异。让算法更公平实际上会增加其效用时,我们可以预期对性能的严格分析也将导致更大的公平。
但在某些情况下,公平与效能之间要有所权衡。如果观察到的相关性不仅仅是数据中的其他相关性的复制品,则个体成员资格的内含物可以增强算法效用。通过对比某些邮政编码内被定罪的重罪犯和更高再犯率可以发现一些数据分析的相关性。如果算法也使用就业历史作为一个因素,那种相关性可能不会增加算法的预测能力。邮政编码和就业历史可能几乎是共同变体(Co-variants),但就业历史是更好的预测因素。可能的情况是,基于失业在地理上的集中,邮政编码仅仅作为未来就业的微弱信号,因此没有改善直接考虑就业历史的预测。但相反的是,邮政编码信息的内含物可能会明显增加算法的预测能力,并指出一些未被任何其他包含的变量或特征所涵盖的相关性。
然而,由于住宅隔离,邮政编码通常是种族的代表。了解到这一点,机构可能会选择将邮政编码排除在预测算法的输入之外,即使它们能提高算法的预测能力。它们可能得出结论,肤色与期望或非期望的结果之间没有因果关系,因此,预测能力必须植根于其他一些共同变体。使用种族或其代替物作为实际上可能存在某种因果关系的捷径,将保持基于“仅由出生机遇决定的不可改变的特征”的“有目的的不平等对待的历史”。换句话说,对受保护阶级而言,如果准确性略微提高,几乎肯定伴随着不公平性的增加,公共机构可能会选择公平性而非准确性。
当然,在某些情况下,考虑种族可能只会加强历史偏见模式。历史上受到更严密监管的少数种族社区将有更高的被逮捕率和再被逮捕率,然后通过算法推荐更多的警力,等等。因此,歧视待遇的历史模式将导致邮政编码内更高的可观察犯罪率,算法预测为犯罪活动产生了更高的风险。
管辖区用不同方式处理这种公平问题。奥克兰警察局决定不使用预测算法(PredPol),得出的结论是“将官员部署到大多数收入较低的少数种族社区,这些社区先前曾记录过毒品犯罪”。相比之下,像费城和芝加哥这样的城市正在使用预测警务程序,但它们的供应商(Azavea,Inc,即HunchLab的开发商)决定,在制定警务模型时淡化一些被捕数据,特别是关于与毒品相关和滋扰犯罪的数据,以避免可能的系统性偏见。最终,除非预测算法足够透明,否则我们将无法知道自动决策和风险预测是否符合我们对公平的实质承诺。
(四)算法增强或减弱了政府的能力吗?
进一步的危险是,算法治理不受批判性评估的影响,同时也取代了人类的决策,从而掏空了公务员的决策能力。起作用的因素可能包括对算法无根据的遵守、对算法过程理解不足以及运用人类判断的能力衰退。
政府官员会遵守算法输出,即使其存在疏漏、歧视,或就种类而言,其框架过于粗略或结果过于狭窄。当“机器这么说”时,匆忙和过度扩展的人类决策者很难抵制这项法令。正如哈里·色登指出的那样,鉴于围绕计算机生成的基于分析的以及分析的机械客观性的光环,法官可能“更加遵守基于计算机的建议,如果与可比较的基于人类的评估相比的话”。按照迈克尔·安安妮(Michael Ananny)的观点,“算法类型……发出信号确定性,阻止替代探索,并在不同对象之间建立连贯性”,使得算法模型选择具体化。当算法输出无法解释——当决策路径无法解释——政府官员没有办法知道他们所面对的因素是否以及如何与产生算法建议的因素一致。假设让算法来打分的刑事被告已经眼瞎或有过孩子,这些事实可以让偏离算法的风险预测正当化呢,还是它们会被解释呢?如果算法不透明,政府官员就不知道如何将算法推理与自己的推理相结合,必须要么不去考虑它,要么盲目地遵守它。因此,正如克里斯托弗·彻奇(Christopher Church)和阿曼达·费尔奇德(Amanda Fairchild)所说:“算法预测背后的推理至关重要。该算法不仅必须能够准确识别高风险情况……。而且也必须能够为某些情况被标记的原因提供背景推理。”
随着时间的推移,对算法的遵守可能会削弱政府官员的决策能力以及他们的参与感和责任感。人类通过自动化“去技能(De-skilling)”已经成为一种被广泛研究的现象,这种趋势无疑将扩散到公共行政部门。伦理学家还研究了计算机系统如何破坏一个人对自己道德责任(Moral Agency)的认识。当“人类用户在精神和肉体的很大程度上处于机械角色时”,并且“对他们行动的更大目的或意义几乎一无所知时……人的尊严受到侵蚀,个人可能认为自己对其使用计算机的后果基本上不负责任”。同样的情形可以用来更具体地说明预测算法和使用它们的政府官员。例如,被算法准确地指示在何处以及如何巡逻的警务人员可能会失去对犯罪风险的认识,并且无法有鉴别地偏离算法的指示。因此,理论上应该向负责实施任务的政府官员披露算法程序用以生成推荐的决策路径。这种披露将有助于政府官员对他们所作的决策进行负责,并培养适合其在所在领域进行决策的技能。
公众应该能够了解政府官员是否接受过他们使用的算法在逻辑和局限性方面的培训,以便公民可以评估该算法是否在侵蚀公职人员的技能、力量和问责。
(五)有意义的透明度
只有伴随算法如何工作的明显透明度,才有可能评估预测算法的政务性、性能、公平性以及与治理的关系。算法的不透明性是一个被广泛承认和具有不同概念的问题。作为一般问题和涉及公共机构的应用,评论家认识到在预测算法的实施中需要更多的透明度。法院也在案件中提出了关于受算法判断影响的个人正当程序权利的第一印象,以了解机器“如此说”的原因。
可以肯定的是,一直存在政府机构无效决策或偏见决策的风险。我们无法知道决定审前“跑路”风险(Pre-trial Flight Risk)的法官是否正确考虑了风险因素。为什么要向我们披露自动化推理,而不披露人类推理呢?首先,在决定使用政府力量、剥夺公民自由或分配公共资源时,透明度高比透明度低更好。在算法中,预测的形式化可以让我们有机会看到人类潜意识中不可知的决策过程,并检测这些预测是否不准确和不公平。正确的认识是,这是算法承诺的一部分。
其次,预测算法即使能够改善整体决策,也会带来不公平和疏漏的新风险。这是因为问题存在时,它会更糟,也更持久。预测算法通常用于指导整个政府单位的决策——在管辖区的所有刑事法官,例如——甚至跨越许多地方和州政府的所有刑事法官。这是凯西·奥尼尔(Cathy O’Neil)认为的算法可扩展性问题。这些算法过程能够进行扩展,从而统一和全面影响决策,放大了它们所包含的任何疏漏或偏见,并增加了让它们变得透明的重要性。面临的挑战是,确定一个对公众有意义且对开发商和政府来说实用的透明度级别和形式。下面的第五部分确定了应公布的有关公共部署算法的信息类型。在这里,我们解析几层透明度,并突出透明度对公开记录法的重要性。
算法过程可能是不透明的,并且以不同的方式抗拒被认识。在弗兰克·帕斯奎尔(Frank Pasquale)之后,评论员们专注于算法公式、输入和程序规则在“黑箱”中的隐藏。披露算法的公式要素可能会揭示算法本身的错误——例如,它可能会揭示算法有时会生成超出其应该被限制的范围之外的结果,或者相反,它的生成结果总是比它应该生成的范围更加有限。
算法应该能够在数学和逻辑符号以及自然语言的某种组合中进行形式公开。要由计算机实施,它们必须通过程序语言编码。如果担心计算机实施不正确,则计算机代码披露可能是适当的。计算机程序通常比数学、逻辑符号或自然语言更难以阅读和理解,因此对于更容易的解释方法而言,计算机代码的公开并非很有用的替代方案。
即使揭示了算法的公式要素,算法过程仍有可能无法进行评估。算法的有效性声明不限于对算法自身规则的遵守。该声明依赖于底层数据集中事实与结果之间的相关性。在不了解培养数据的情况下,我们无法询问此声明。如何选择数据,为什么选择特定的操作规则而拒绝其他操作规则,以及采取哪些步骤来验证这些选择?访问底层数据或至少对其进行描述将有助于我们了解声称相关性实际上有多强,样本大小是什么,以及影响统计有效性的其他事项。
现在通常被隐藏的其他类型的信息包括开发算法的公共目的、管理数据所有权和访问的合同条款,以及验证和后续计划。有时,此信息也将明确或隐含地解决算法所必需的一些策略权衡。所有这些对于评估算法是否有效、公平以及在政治上能否接受都至关重要。
我们承认,即使上面确认的所有信息都被披露出来,仍然无法理解算法过程的结果。这是因为透明度不一定让算法“可解释”。如果算法在单个输入可能出现在多个接合点的复杂决策树中使用数百个未加权的输入,我们不一定能够确定哪个输入在特定情况下起决定作用。这让该算法是否与我们的公平感相关特别难以理解,并且使得政府官员难以根据他们在情境中的感觉评估算法输出,要求他们要么忽略该输出要么无视自己的判断,也许最终会失去判断力。
最后,算法过程可能是动态的,它们的规则不断变化以适应数据中的新模式。结果,在时间1发布给公众的代码和数据集——即使在孤立中“可解释”——可能与在时间2进行的过程几乎没有相似之处。正如罗伯·基钦(Rob Kitchin)所说,动态算法“本质上是个体发育的(Ontogenetic in Nature)”,需要进行“编辑、修改、删除和重启”。这种动态会给透明度带来障碍,因为算法本身变得不那么容易理解。在很大程度上我们不会解决这种动态问题,因为我们研究的地方和州政府行动者尚未使用这些不断调整的预测算法。
正如透明度不一定支持可解释性,透明度也不会与问责制共同延伸,它只是一种手段。当算法过程的利益相关者拥有有意义的透明度,可以通过干预以影响算法、算法使用、算法实施中的变化时,算法过程是可追责的。在公共领域,政府实际上对由它部署的算法而被投票公众追责成为必要。这种问责制不要求完美的透明度——算法的操作规则以及创建和验证过程的完全知识——而是有意义的透明度的较低标准——足以赞成或不赞成算法实施的知识。缺少底层计算机代码的记录可能足以提供必要的输入。当然,实践中的问责制很可能要求超出我们这里所能解决范围之内的公共教育和政治程序,但有意义的透明度将是必要的第一步。
三、公开记录法案项目:获取算法文档
开放数据实践可能是生成政府使用算法透明特性的最佳方法,即政府应从一开始就自愿揭示算法的相关结构、逻辑和策略。2016年《联邦信息自由法修正案》将这种对政府透明度“推动”方法的偏好编成了法令,减少了公众对政府记录的“推动”请求的负担。然而,政府并没有推出有关它们使用算法的信息。政府算法过程的重要性与对这些算法的公共访问之间有着很大的鸿沟。在缺乏推动透明度的情况下,公开记录请求是缩小差距并证明公众有兴趣理解应用于他们及其同胞的算法的下一个最佳方式。我们测试了政府如何响应有关预测算法和相关数据分析的信息请求。我们首先讨论自己的项目设计,介绍公开记录法律,并解释我们如何选择目标以及如何制定公开记录请求,然后我们讨论自己的结果。
(一)项目设计和实现
1. 公开记录法案
我们在寻求有关算法过程的信息时所依赖的州信息自由法具有相同的核心目的:向人们揭示政府的运作方式。信息自由法的主要目标是构建负责任的政府。在1964年签署最初的《联邦信息自由法(FOIA)》时,总统约翰逊(Johnson)表达了“深深的自豪感,即美国是一个开放的社会,人民的知情权得到了珍视和保护”。通过FOIA修正案,10年后确定了政府机构回应的最后期限,国会庆祝“开放政府……作为政府为公共利益行事的最佳保证”。当国会在1996年确认FOIA的核心透明度授权适用于电子记录时,参议院委员会报告解释说,政府透明度“通过让公民们知道他们的政府在做什么以促进他们的利益,这与我们政府的民主形式一致”。法院一贯认为,FOIA体现了“全面机构披露的一般理念”。受相同的透明度原则激励,所有50个州和哥伦比亚特区的公开记录法案为个人提供了访问政府记录的权利,可享受各种豁免,包括保护个人隐私、刑事调查材料和机构审议程序的豁免。几乎所有法律也豁免商业秘密,这个我们将在下面讨论。
FOIA仅适用于“机构记录”——法规中未定义的术语。最高法院理解的“机构记录”包括:(1)创建或获得的任何记录;(2)在FOIA请求时具有控制权的任何记录。虽然州法通常使用“政府记录”这一术语,但覆盖范围相似。FOIA涵盖数字记录,包括软件和数据库。一些州法律明确将软件作为公共记录。例如,根据新泽西州的公开记录法规,“政府记录”包括任何“数据或图像处理文件”和“以电子方式存储或维护的信息”,如果它是由国家官员或雇员在其政务过程中制作、维护或接收的。其他州法规明确将软件排除在公共记录之外。还有一些州并没有解决这个问题。考虑到可以通过其他种类的记录获得有意义的透明度,公众能否有权坚持根据州开放记录结案生产软件,很少成为算法透明度最重要的问题。
披露的最大障碍是记录的所有权。大多数公开记录法仅涵盖政府记录。只要私人承包商拥有对记录的独家控制权,则这些记录可能超出透明度法律的范围。信息自由法规定,当记录是“由政府合同下的实体为某机构维护时,为了记录管理的目的”,其仍然是“机构记录”,受FOIA披露的限制,包括机构与私人供应商签订合同以维护记录的情况,例如警用摄像机视频。这些记录是机构记录,即使它们留驻在私人服务器上。然而,如果私人方为其自身目的生成记录并且从未将其存放在机构中,则此类记录不受FOIA和州公开记录法规的规范。关于算法,这些可能包括构建和验证算法过程的培训数据和文档。如下所述,公众对这些记录的访问权将取决于政府机构对数据所有权和/或记录占有的坚持。
2. 算法、机构和请求规划
虽然我们的公开记录项目是“经验性的”,在我们向世界发出请求以了解政府将如何回应这个意义上,它不是也不可能是定量或统计的。政府没有使用中央算法注册表,算法并不像摩天大楼或桥梁那样自然可见。因此,我们无法知道当前使用了多少算法,谁开发了这些算法,或者哪些政府正在使用它们。如果没有这方面的知识,我们就无法以任何方式开发任何采样算法的方法,以使我们从自己的研究发现中进行归纳。
我们所做的不那么正式。我们调查了公共信息,以确定当地政府对预测算法的使用。然后,我们选择了六个项目来混合不同的主题(警务、刑事司法、儿童福利和教育),不同的开发商(基金会、私营公司和政府实体)和不同的管辖区(23个州的42个不同的机构)。6个项目分别是公共安全评估、Eckerd快速安全反馈、阿勒格尼家庭筛查工具、PredPol、HunchLab和纽约市的增值措施。我们起草了一个公开记录请求,其设计非常通用且具有包容性,试图覆盖与所要讨论算法相关的任何记录。当一个机构回应说请求范围广而导致延期时,我们发送了修改后的请求。由于受时间和资源所限,我们没有质疑法院的最终否认或持续不回应,当一个机构被要求回应我们的请求时,我们也没有支付可观的费用。我们遇到的障碍是对有关算法信息公共访问的重大限制,纵然其中一些可基于更多时间和金钱而加以克服。在某些情况下,我们还能够与算法开发商进行直接沟通,以尝试获取更多信息。
(二)结果
总的来说,我们发现了广泛变量,即:管辖区是否回应了我们的要求;它们是否主张公开记录豁免;如果没有,它们提供了什么信息。然而,只有其中一个管辖区——阿勒格尼县能够提供它所使用的实际预测算法(包括完整的因子列表和每个因素给出的权重),以及关于它们如何被开发的大量细节。一些开发商也会比其他开发商更乐于合作。公共安全评估的开发商阿诺德基金会向公众披露了其相对简单的算法,但没有为我们提供开发过程,而HunchLab的开发商Azavea,Inc. 披露的更多。这些结果表明,透明度是管辖区及其供应商所做出的选择——该选择与公开文化相关性较多,而与一成不变的商业秘密或保密问题相关性较少。我们接着就这6种算法的详细说明得到如下回应。
1. 公共安全评估——审理前释放
公共安全评估(PSA)是劳拉和约翰阿诺德基金会(Laura and John Arnold Foundation)开发的一款预审风险评估工具,被设计用来帮助法官决定在审判前是否拘留或释放被告。截至本文撰写时,它在38个管辖区被使用,其中包括整个亚利桑那州、新泽西州和肯塔基州。PSA包括三种不同的风险评估算法,旨在评估被释放的被告分别在未能出庭、释放时犯罪或释放时从事暴力犯罪的风险。这三种算法的运行方式是根据有关被告犯罪历史的9个事实来分配分数。一些事实仅用于一种或两种算法,而其他事实用于所有三种算法。对于出庭失败和犯罪实施的评估,原始得分被转换为六分制,其中一个表示最低风险,六个表示最高风险。对于暴力犯罪实施的评估,原始分数被转换为二进制的是/否答案,所犯罪行可能是暴力的,也可能并非暴力的。
与其他一些算法不同,PSA相对简单——它可以在没有计算机的情况下通过为各种因素结算分数来实施,然后应用转换公式来获得最终的风险评估。与其他许多算法不同,PSA算法已完全公开。但是,阿诺德基金会尚未透露它如何生成算法,或者它是否执行了实施前或实施后的验证测试,如果是,那么结果是什么。同时,它还没有以数量或百分比的形式披露“低风险”和“高风险”的含义:“低风险”被告无法出现的几率是1/10或1/500吗?“高风险”被告无法出现的几率是低风险被告的2倍或50倍吗?
为了了解使用PSA的法院是否有这些或类似问题的答案,我们向16个不同的法院发送了有关PSA计划的公开记录请求。我们发送了大量请求——是我们选择研究的任何算法的最大请求——部分原因是我们知道许多公开记录法将法院从绝大多数的披露中加以豁免。在通过提供一些文件作出回应的5个法院中,其中4个——亚利桑那州的梅萨市法院、皮马和纳瓦霍县法院系统,以及加利福尼亚州的旧金山高等法院系统——表示它们无法提供有关PSA的信息,因为这些信息由阿诺德基金会拥有和控制。3/4的县(皮马县、纳瓦霍县和旧金山)向我们发送了与阿诺德基金会的谅解备忘录副本,其中包含禁止法院披露任何有关PSA计划信息内容的相同语言。除了谅解备忘录之外,我们收到所有有关PSA文件的一个法院系统是佛罗里达州第七司法巡回法庭,代表该巡回法庭所服务的其中一个县Volusia的预审服务计划。这可能是因为佛罗里达州法要求私人方明确指定商业秘密或放弃保密——这个法律特点反映在阿诺德基金会与第七司法巡回法之间的备忘录里,我们也收到了这个备忘录。
第七司法巡回法庭制作的文件提供了一些有趣的补充信息。例如,一份文件通过风险评分,披露了未能出庭、从事新犯罪或新暴力犯罪的被告实际百分比。在那些显然是阿诺德用于创建算法的原始训练数据中,通过风险评分,被释放并且未能出庭的被告的百分比是1(10%)、2(15%)、3(20%)、4 (31%)、5(35%)和6(40%)。因此,被设定为产生未能出庭最高风险评分风险是最低评分风险的4倍。然而,一旦PSA算法被开始使用,阿诺德基金会发现它产生了更窄的结果带,即1(12%)、2(16%)、3(18%)、4(23%)、5(27) %)和6(30%)。相比训练数据中得分为4而言,得分为6表示出庭失败的风险更低。不幸的是,唯一的验证研究结果是三个摘要图表。因此,我们无法知道,例如,在审判前每个风险类别中被告被扣押而非被释放的比例是多少,因此未能出现于验证研究中。
第七司法巡回法庭制作的两份文件也提供了有关阿诺德基金会本身未广泛宣传的另一项倡议的一些信息。基金会建议法院使用“决策框架”,将被告的PSA风险评分和当前待定费用作为输入,并作为输出生成具体的预审处理建议,覆盖从无保释金释放到拘留。决策框架是第二种算法,产生处理的具体建议(而不是风险评分)。基金会指出,决策框架由管辖区内与专门在特定法院系统实施PSA计划的承包商合作的代表们为每一个管辖区创建。但是,第七司法巡回法文件没有提供有关为法院的决策框架如何创建的信息,或者其是否已经过任何测试。
最后,我们直接与阿诺德基金会接洽,并通过一系列电子邮件和电话交谈,专门索要基金会可能拥有的技术报告、验证研究和其他文件,这些文件将提供有关PSA算法创建和测试的更多详细信息。该基金会回复了一份简短的三页声明,该声明主要内容都可以在基金会网站得到。
从基金会的网站、第七司法巡回法庭提供的文件以及基金会为我们制作的声明,我们知道基金会通过分析大约750 000个案例中的数据来创建PSA算法。我们对它如何分析数据,何种替代方案被尝试,或者这些替代方案与最终被采用的PSA算法的比较均一无所知。
我们特别询问为什么阿诺德基金会坚持要求谅解备忘录禁止法院披露有关PSA的任何信息。基金会回应:在发布算法之前,与早期接受管辖区之间的保密协议使PSA的使用受限,同时我们开发了本地数据基础设施来衡量结果,等待和研究实施后的预审结果,并启动了额外的研究。这些保密协议还有助于防止营利性公司利用PSA的要素开发不合标准的风险工具,从而向管辖区进行推销。然而,据我们所知,保密条款不仅限于“早期接受的管辖区”,而且所有条款都规定它们需要永久保密。
2. Eckerd 快速安全反馈——儿童福利评估
Eckerd快速安全反馈(RSF)是一种风险评估程序,旨在识别严重的儿童伤害或死亡可能性很高的儿童福利案例。RSF由非营利性家庭和儿童服务组织Eckerd Kids(Eckerd)与营利性软件公司Mindshare Technology共同开发。通过审查一大批儿童福利案例,包括儿童受伤或死亡的案例,Eckerd确定了造成儿童伤害或死亡的最大风险因素,即“三岁以下的儿童、家庭里的情人关系、药物滥用、家庭暴力史,以及父母之前曾被寄养”。Eckerd与Mindshare Technology合作开发软件,分析存在于儿童福利报告系统中的数据,并用这些因素标记对高风险案例的干预。
我们向Eckerd所报告的使用RSF系统的5个州,阿拉斯加州、康涅狄格州、伊利诺伊州、缅因州和俄克拉荷马州。儿童福利机构发送了有关使用Eckerd RSF算法信息的公开记录请求。我们从阿拉斯加、康涅狄格州和伊利诺伊州收到了几份文件。俄克拉荷马州回应说,它需要得到大约2 500美元的支付来回应我们的请求,这显然包括向我们提供它发送给Eckerd的儿童福利案例数据的支出,以及删除个人识别信息的支出。缅因州认可我们的请求,但是到目前为止还没有出示任何文件。
阿拉斯加健康和社会服务部向我们发送了一些文件,包括其儿童服务办公室(“OCS”)与Eckerd之间关于Eckerd向OCS提供儿童福利案例RSF评估的谅解备忘录。从备忘录中可以清楚地看出,Eckerd保留了对处理OCS儿童福利案例信息并生成风险评估的软件的控制权。儿童福利案例信息被传送到Eckerd或Mindshare,并且有关这些网站上可得案例所产生的风险评估由Eckerd维护,OCS人员可以访问它。
公共机构OCS无法访问生成风险评估的算法,也无法访问生成和调整算法的过程。此外,在OCS了解算法任何内容的情况下,它同意不公开它。Eckerd-Alaska OCS谅解备忘录规定,所有“Eckerd IP”,包括由Eckerd及其相关软件维护的网站,Eckerd生成的报告以及所有相关发明、过程、改进和算法,均被视为“机密”信息,OCS同意不去披露。
康涅狄格州儿童和家庭部提供了许多关于Eckerd RSF的文件,包括小册子、情况说明书、幻灯片演示和流程图,确认公共机构向Eckerd提供有关儿童福利案例的信息,然后由Eckerd处理该信息,并生成该机构可以查看的风险评估。
伊利诺伊州儿童和家庭服务部门提供了与Eckerd 2016年和2017年财政年度的合同。合同显示伊利诺伊州估算它将为Eckerd支付的服务金额——2016和2017财政年度分别为107 000美元和171 000美元。这些合同还包含了似乎是标准的州合同条款,这些条款比阿拉斯加谅解备忘录更有利于信息披露和公共所有。其中列举了“根据联邦法律、州法律或适用的FOIA豁免而不被禁止或免于披露的信息是公开信息”。合同还规定,州拥有根据合同生成的所有信息,包括所有知识产权和任何合同产品。伊利诺斯州的合同中有一些语言表明Eckerd会根据对伊利诺伊州数据的分析产生一种新的预测算法;“第一阶段:模型的发展”中的一项行动是“开发预测模型,用于确认即将到来的对严重受伤或死亡的最高概率的调查”。然而,目前尚不清楚这是否真的会涉及全新的数据分析,或现有算法的某些拟合。
3. 阿勒格尼家庭筛查工具——儿童福利评估
与Eckerd RSF一样,阿勒格尼家庭筛查工具(AFST)的开发是为了促进对儿童福利案例的三分法。AFST由奥克兰理工大学数据分析中心(“奥克兰大学联盟”)领导的大学联盟与阿勒格尼县人类服务部合作开发。阿勒格尼国土安全部门发布了关于利用阿勒格尼县数据库的项目提案请求,奥克兰大学联盟提交了一份成功的提案。虽然Eckerd RSF明显是在监控儿童福利系统内案例的不间断基础上得以使用,但AFST应用于报告虐待儿童被初次呼叫时的情形,它有助于确定报告是否需要进行正式调查。目前,阿勒格尼FST仅用于阿勒格尼县。
在我们向阿勒格尼县提交有关AFST的公开记录请求后,县官员与我们联系,向我们提供了奥克兰大学联盟编写的关于算法开发的报告,并表示他们很高兴与我们讨论算法及其开发。该报告在许多方面是我们在算法开发中看到的最全面的报告。它详细介绍了许多开发过程中所作出的选择、这些选择背后的原因以及被使用的数据和方法。最终创建了两种算法:一种用于预测一项指控(如果未经过正式调查)将在未来2年内导致涉及针对同一儿童的另一项指控的可能性;另一种用于预测一项指控(如果被正式调查)将在2年内导致孩子被寄养的可能性。算法的训练数据来自该县于2008年创建的综合数据管理系统;开发人员决定,对于数据集中的每起滥用指控,希望得到在指控之前18个月和指控后2年的数据。数据集包括800多个变量。开发人员使用非线性回归作为他们的主要分析方法,这在很大程度上是因为它产生了与其他方法一样好的结果,并具有可解释性的优势。换句话说,它是为了实现透明度和问责制目标。开发人员使用训练数据预留部分的内部验证研究,以及使用住院和“重大事件”(严重伤害或死亡)记录的外部验证研究。该算法实施后研究使用的时间并不长。该报告在附录112中公开了最终使用的变量——71用于预测寄养家庭安置的模型,59用于预测再次指控的模型——以及分配给每个变量的权重,其可应阿勒格尼DHS的请求予以提供。这些算法的输出表现为两个风险分值——一个用于再次指控或“重新转诊”;一个用于寄养家庭安置——按从1 到20的等级,每个数字代表被考虑的所有儿童5%的档次。因此,得分“10”意味着孩子重新转诊或安置风险在所有儿童的50-55%范围内,得分“15”将在75-80%的范围内。开发人员还决定创建一个阈值分值,该分值可能会导致强制性调查,但主管可能会放弃该结果;报告没有透露阈值。
阿勒格尼县最终决定不使用有色儿童或监护人作为变量,因为它没有显著提高预测能力,而且在其他方面存在问题。该报告在一定程度上讨论了假阴性和假阳性的危险,但没有透露是否最终进行平等或不平等加权。虽然奥克兰大学联盟保留了用于实施该算法的代码的版权,但与阿勒格尼县的合同准许其有授权其他管辖区使用该代码而无需进一步支付的权力,县官员表示他们有兴趣这样做。因此,虽然这个项目不完全是一个开源项目,但它比我们研究的其他5个算法更接近开源项目。
4. PredPol——预测性警务
PredPol是一种软件,可以预测各种类型的犯罪可能发生的地点和时间,从而协助警察策划巡逻以遏制这些犯罪。它最初由加州大学洛杉矶分校和圣克拉拉大学的数学家和行为科学家以及洛杉矶和圣克鲁斯警察局的犯罪分析师和官员合作开发,但现在由营利性公司PredPol公司管理,PredPol的创建者确定用于预测犯罪的三种最重要的信息类型或“数据点”是犯罪类型、犯罪地点与犯罪日期和时间。PredPol将有关过去犯罪活动模式的数据提供给一种预测新犯罪将在何时何地实施的算法。据一位消息人士透露,PredPol在保持其算法秘密上以“壁垒森严”而闻名。
我们向11个警察局发送了有关PredPol的记录请求,其中包括阿拉巴马州牛津市、阿肯色州小石城市、加利福尼亚州的洛杉矶市、莫德斯托市、奥兰治县、圣克鲁斯市、佛罗里达州可可市、佐治亚州亚特兰大市、马里兰州黑格斯敦市、宾夕法尼亚州雷丁市、华盛顿特区塔科马市。这11个警察局中有8个或没有回应,或收到我们的请求没有出示文件,或要求更多时间作出答复但尚未作出答复,或回复称他们没有任何相关文件。提供文件的是塔科马、可可和圣克鲁斯的警察局。
华盛顿州塔科马市是我们针对任何算法发送记录请求的任何管辖区中最新成员之一。它提供了塔科马警察局和PredPol人员200封关于实施PredPol的各种问题的对话电子邮件线程。它还提供了就PredPol和预测性警务的工作方式所做的10次发言。这些文件对于PredPol报告是什么样的,以及PredPoly用什么算法作为输入的数据等感兴趣的人非常有帮助。然而,这些文件都没有揭示PredPol用于从过去的犯罪数据生成预测的算法,也没有揭示PredPol用于创建该算法的过程。
可可市向我们发送了一些文件,这些文件都与购买PredPol服务有关。也许最有说服力的是在购买PredPol服务处于市议会议程时已提交给市议会成员的背景文件。该文件没有提供有关PredPol的任何细节,但声明:“市检察官已经建议,根据佛罗里达州法规s119.071(2)(d),披露监视技术、程序或人员的信息可免于公开查询。”可可市很可能依靠这一建议拒绝提供任何有关PredPol本身的文件,尽管该城市很可能隐藏监视技术,但是关于算法的价值和实现仍然更加透明。
加利福尼亚州圣克鲁斯市发送了PredPol软件的几个截图。一个屏幕要求用户输入关于最近犯罪的地点(纬度和经度)、时间和类型(车辆或住宅)的数据,并指出在接下来的24小时内对犯罪地点的预测将会出现在地图上;另一个屏幕是城市的地图,彩色区域代表犯罪可能发生的地方。这些屏幕截图提供了有关数据输入类型和输出格式的信息,除此之外几乎没有别的。圣克鲁斯市使用的PredPol版本似乎不如塔科马使用的版本复杂。
5. HunchLab——预测性警务
与PredPol一样,HunchLab是预测犯罪发生地点和时间的软件,具有制图输出以表明在特定时间段内特定类型的犯罪风险高发区域。HunchLab由Azavea,Inc.,一个具有认证B的营利公司开发和维护。HunchLab使用广泛的输入来预测犯罪风险,并允许个别警察局优先考虑选定的犯罪。
我们向4个警察局发送了有关HunchLab的公开记录请求,它们是佛罗里达州迈阿密市、密苏里州圣路易斯县、内布拉斯加州林肯市和宾夕法尼亚州费城市的警察局。
迈阿密市最终回复称它没有相应文件。圣路易斯县表示在出示任何文件之前要求我们支付400美元,并重申如果没有400美元的付款就不会采取行动。当询问是否可以缩小请求范围从而减少费用后,我们得到了相同的答复。费城市出示了采购HunchLab服务的订单,但是以我们没有要求提供具体文件而拒绝了我们的请求。内布拉斯加州林肯市提供了几份文件,包括一本介绍HunchLab员工的手册以及市公共安全总监在HunchLab上发表的博客文章。也许最有帮助的是,林肯市为我们提供了一套HunchLab的输入数据样本,经确认它包括了30天的警方事件报告滚动窗口。在此期间,林肯市记录了3057起警方事件报告;每份报告都包含如下细节:有关犯罪街道地址、纬度和经度的详细信息,犯罪类型,以及犯罪和报告的日期和时间。
Azavea的HunchLab项目经理和高级数据科学家杰里米·海夫纳(Jeremy Heffner)在得知我们对内布拉斯加州林肯市的公开记录请求后找到了我们。我们与他进行了电子邮件交流和电话交谈,他最终创建并向我们发送了一份题为“HunchLab公民指南”的草案文件,其中提供了有关HunchLab算法及其创建和验证的信息。从该文件来看,HunchLab算法比其他许多算法解释得更少。它们使用“梯度增强决策树”技术构建,其中连续的决策树被尝试和测试;开发商整合数据,不仅包括报告的犯罪及其发生的地点和时间,还包括已知违法者的位置,已知和可能的犯罪目标的位置、天气,每日、周和季节周期,社会经济指标等数据。警官不知道如何依照他或她自己的知识和判断进行算法决策。HunchLab算法也是我们研究的算法中最具动态性的算法。对于每个客户,HunchLab每隔几周进行一次新的“建模运行”以重新校准模型,并且每个建模运行都会创建一个新的预测算法。
HunchLab还公开讨论了在输入时的潜在偏见问题及其对该问题的判断。一种偏见是“报告偏见(Reporting Bias)”——某些社区可能报告的犯罪比例高于其它社区。HunchLab采取的立场是将大部分偏见纳入警方活动中。它指出:“我们认为警察活动应该反映社区报告的问题……如果报告偏见是由于对警方的不信任,那么我们认为在数据中存在偏见是恰当的。”它指出,如果不去报告是由于恐惧或羞耻,情况可能并非如此,但它并不清楚如何解决这个问题。HunchLab还评论了“执法偏见(Enforcement Bias)”——即使犯罪程度相同,警方最终可能会在某些社区中进行更多的逮捕并参与更多的执法活动。它表达了一个信念:在重大犯罪如杀人、抢劫或侵害罪中,这种偏见出现较少;对于其它与毒品有关的和妨害性的犯罪,它表示其试图使用反映社区呼吁服务投诉的数据,而不是反映警察执法活动的数据。
HunchLab程序还有其它三个有趣的功能。首先,该算法允许每个社区为每种类型犯罪的相对严重性设置权重——阻止谋杀比阻止入室盗窃到底有多重要。它还允许为巡逻功效调整权重——室内犯罪不太可能由于出警的增加而被阻止。其次,HunchLa建议该算法包含随机性,以确保警察不会每天被分配到相同的路线,以便克服工作单调,并减少警察不断在一个地区出现的负面影响。第三,HunchLab现已将其范围扩大到巡逻战术,在巡逻区推荐某些类型的警察活动,例如汽车巡逻、步行巡逻、汽车停靠等,并随着时间推移监测被使用战术的有效性。
6. 纽约市和纽约州增值模式——教师评估
纽约市和纽约州是采用增值模型(VAM)方法评估教师的管辖区。一般来说,增值模型算法通过比较学生在给定时间段开始和结束时的考试分数,以衡量这些学生的进步,然后对这些结果进行调整,以试图考虑教师效率以外的因素,例如社会经济状况,这可能是学生进步或缺乏的原因。然后,根据特定教师教授的学生的调整结果来评估该教师的有效性。
我们向纽约市和纽约州提交了有关其VAM计划文件的公开记录请求。迄今为止,纽约市已向我们发送了5封信,通知我们其需要更多时间来制作记录,但是却没有向我们发送任何记录。纽约州教育部制作了一些文件,包括与其供应商,即美国研究院的原始合同,这些合同用来实施纽约州的VAM计划,还有两份续约合同和各种作者发表的概括性评估增值模型有效性的5篇文章,其中没有一篇关注纽约州VAM实施,以及VAM算法的样本输出——50名学生和50名教师输出,其中删除了他们的姓名和其他身份。
样本输出确实提供了有关VAM算法产生格式的一些信息,并且它们提供了瞥见算法如何工作的机会,因为它们实际上包含一些输入——例如学生考试分数——以及输出。然而,50个样本输出数量太少,无法开始还原算法工程,教育部和美国研究院之间的合同规定了“合同履行时的方法或措施是承包商的财产”,是“专有信息”,教育部门仅被允许“将其完全用于教育目的”。因此,算法或这些算法不能被公开获得,并且它们的构建过程尚未公开。
(三)结论
我们通过公开记录请求了解预测算法的努力在很多方面令人沮丧。许多政府没有作出回应,其中许多政府通常要么声称免于公开记录行为(例如法院),要么无法配合请求,因为他们承诺对信息进行保密。虽然许多管辖区提供了与供应商的合同,从而让我们能够了解一些合同条款,但我们对算法的开发知之甚少,可能是因为政府从未拥有包含该信息的记录。阿勒格尼县的预测算法开发刚开始便由一个大学研究人员联盟提供,它是最大的例外,因为它委托并拥有详细说明其算法开发与算法本身公布的报告。
四、透明度的主要障碍
我们已经详细说明了通过对州和地方政府部署预测算法的公开记录请求以获取有用信息的努力,现在我们转向遇到的障碍。其中主要是未能产生重要记录或将这些记录交给政府并主张商业保密。我们也讨论公开记录法中的执法和审议过程豁免,这些法律很可能被滥用,因为政府担心算法的透明度。
(一)文件缺乏
政府不能披露比它们拥有的信息更多的信息。大多数公开记录法只允许请求者获取已经存在的“记录”或“信息”。在面对公开记录请求时,通常不得要求机构生成新记录。我们的研究表明政府根本没有很多关于算法创建和实施的记录,要么是因为这些记录从未生成过,要么是因为它们是由承包商生成,从未提供给政府客户,其中包括有关模型设计选择、数据选择、事实权重和验证设计的记录。在更基本的层面上,大多数政府都没有任何有关模型应该解决问题以及成功的指标是什么的记录。
大数据应用程序中许多最重要的决策都是在模型设计的“批发”层级进行的,而不是针对特定情况的“零售”层级。在模拟世界中,非立法的批发政策决策很可能通过行政规则制定来进行,包括拟议政策的宣布、评论该提案的机会、最终政策的最后披露、采纳的原因,以及如何实施的解释。这些规范和法律不适用于算法策略的创建。大数据预测模型通常是在没有明确化、合理化或被记录的关键政策决策的情况下建立和使用。在最好的情况下,将会有一个公共请求,建议私人供应商向政府提供预测算法。但更普遍的是,政府只会与私人供应商签订一份表格协议,而这些协议并未明确已嵌入算法的政治选择。
(二)过度的商业秘密和保密要求
考虑到私人供应商声称这些信息是保密的,即使政府拥有关键的解释性记录,他们也可能会拒绝透露这些信息。专有算法的所有者通常会要求与公共机构客户签订保密协议,并对算法及相关的开发和部署过程主张商业秘密保护。政府随后将使用这些声明来豁免对供应商材料的泄露,通常的理由是违反公开记录法相对狭窄的商业秘密豁免。
在刑事司法环境中,个人自由受到威胁,商业秘密的算法透明度障碍尤其成问题。由于涉嫌商业秘密保护,记者不能通过公开记录请求获取有关NorthPointe的COMPAS(替代制裁的矫正罪犯管理剖析)判决算法的信息。在与算法相关的诉讼中,威斯康星州最高法院维持对被告人使用COMPAS,并驳回被告的正当程序主张,但承认透明度问题,并要求判决报告告知法官“已经调用(算法)的专有性质,以防止披露有关因素如何衡量或风险分数如何确定的信息”。
如上所述,我们遇到了将商业秘密和机密作为理由而拒绝透露其预测模型的管辖区。例如,亚利桑那州的梅萨市法院、皮马以及纳瓦霍县法院系统、加利福尼亚州的旧金山高等法院系统都是如此,他们正在使用阿诺德基金会的PSA-Court。阿拉斯加也是如此,它使用针对儿童的Eckerd快速安全反馈风险评估。亚利桑那州、加利福尼亚州和阿拉斯加州的公开记录法都免除了商业秘密和机密信息,并且没有人能够公开访问政府没有的记录。这将需要大量的额外调查或诉讼,以确定政府机构是否依法行事。但我们可以说明的是,这些机构有代理机构。它们本可以仅仅通过减少保密范围和确保政府拥有解释算法所必需的记录来使更多记录得到披露。
针对公开记录请求过于宽泛的保密声明在该领域中很常见。例如,在研究加利福尼亚州警察局如何使用Shotspotter技术来反映其辖区内开火的枪声时,福布斯记者Matt Drange针对Shotspotter生成的枪击报告,提交了十几份国家信息自由法案请求。尽管事实是这些请求没有要求潜在的传感器技术,这些管辖区最初报告称它们无法披露数据,因为它们与Shotspotter之间存在保密协议。即使数据不是商业秘密或机密,厌恶风险的市政当局认为它们无法分享其辖区内检测到的枪击信息。
政府代表其供应商对商业秘密保护的声明有时可能是合理的。政府代理人在披露商业秘密和/或违反不得披露协议时承担一般责任,除非受到某种形式的豁免保护。大多数州都采用《统一商业秘密法》(Uniform Trade Secret Act),保护商业秘密不被“盗用” ,其被定义为:“未经明示或默示同意而披露或使用他人的商业秘密……在披露或使用时,知道或有理由知道他对商业秘密的了解……基于有义务保密或限制其使用的情况下获得。”政府是“人”,因此可能承担责任。因此,供应商通过主张保护或要求政府官员签署保密协议来创建保密措施。由于下面讨论的原因,政府机构自身的保密利益强化了这种措施。
公开记录行为不会像本来那样尽可能多地对透明度施加反作用力,因为它们通常豁免商业机密。FOIA的豁免4与州公开记录法案豁免有许多相似之处。它从披露中排除“从(具有)被特许或机密的人那里获得的商业秘密和商业或财务信息”。因此,豁免涵盖两大类:(1)商业秘密;(2)(a)商业或财务,(b)从某人获得的信息,以及(c)被特许或机密信息。在审查中,这些商业秘密豁免比公司所声称的要窄。在受到挑战时,过度慷慨的机构保护措施已被打破。D.C.巡回法庭——FOIA判例法的主要来源——将“商业秘密”一词解释为较《统一商业秘密法案》(以及2016年的联邦《保护商业秘密法》(Defend Trade Secrets Act)的含义更为有限。
根据豁免4,政府仅可以为了“用于和贸易商品相关联的以及可以说是创新或实质性努力的最终产品的秘密、具商业价值的计划、公式、流程或设备”而保留记录。必须存在“有争议的信息与生产过程之间的直接关系”,而不仅仅是“附属的商业机密”。换句话说,隐藏的信息必须是商业产品的核心,而不仅仅是辅助性副产品……鉴于此限制,并非所有供应商可能认为,商业领域商业秘密的算法过程都应被视为为了公开记录豁免目的的商业秘密。豁免4的第二方面允许对某些类型的财务或商业信息保密。这部分豁免也是有限的。信息必须是“特许或保密的”。D.C.巡回法庭认为,仅仅承诺对信息来源保密是不够的。相反,政府必须在强制记录中证明披露可能会(1)“损害政府未来获取必要信息的能力”,或(2)“对信息来源的竞争地位造成重大损害”。关于自愿披露的记录,如果消息来源没有习惯性向公众发布此类信息,商业和财务信息则是“机密的”。总而言之,FOIA商业秘密豁免仅适用于“赌公司(Bet the Company)”商业秘密的狭窄范围以及财务或商业信息的子集,披露的推定仍然存在。鉴于政府承担的负担,有些州要求州政府机构对私人实体为了商业秘密或机密信息的请求进行通知,并获得私人部门对其指定的辩护。
在解释商业秘密豁免时,政府官员应该注意目的隔离。FOIA豁免4的目的是保持政府从受监管实体收集信息的能力,或用另一种表述,“鼓励个人向政府提供某些机密信息”。同样,州公开记录法保护商业秘密和机密信息是为了推进公共目标。由于公开记录法规定了开放性的假设,并且由于各州追随FOIA法院狭隘地解释商业秘密和机密材料,因此公开记录商业秘密豁免的范围比私人供应商可能想要的(范围)更窄。当政府作为客户而不是监管者时尤其如此,因为保密不会煽动政府的监管权力。目前纽约正在进行的诉讼提出了这样一个问题,即当政府以其企业能力行事时,受保护的商业秘密索赔范围到底有多大。引用商业秘密保护,纽约市拒绝了布伦南司法中心的信息自由法的请求,该请求是为了获取名为Palantir Gotham的量刑算法相关的记录。
我们提出的所有请求均已提交给以企业身份行事的管辖区。我们可以确信,与算法相关的所有材料的商业秘密断言都过于宽泛。即使假设源代码和模型的某些细节符合商业秘密或机密信息,我们也会寻找培训材料、现有和计划的验证研究,以及有关反映在算法中的目标和设计选择的其他文档,很难想象这些材料中的大部分(如果有的话)都有资格获得豁免。几乎可以肯定的是,作为商业秘密保护的算法有时会激励公司为公共应用创建预测模型。同时,据称受商业秘密法保护的信息可能处于基本公共职能的核心,并构成对政治判断的长期公开审查。正如大卫·莱文(David Levine)所认为的那样,“商业秘密与透明和负责任的民主政府之间的冲突最终是管理理论和价值的交锋”。这种冲突可以在法院和立法机构限制商业秘密豁免公开记录法的范围与政府机构在签订算法合同时坚持透明度时得到缓解。
(三)其他政府关注和公开记录法案豁免
即使政府机构产生或获得足够的记录并确保这些记录不受商业保密主张的约束,它们也可能有其他理由抵制算法透明度:博弈或规避,审议中丧失坦率,以及不正当的公众争议。政府官员可能会担心公开披露的算法会被用于博弈或规避,使得预测不那么可靠并阻碍他们的目的。如果刑事被告知道她所作出的陈述将导致其得到更高的再犯风险评分,她可能会撒谎。如果恐怖分子知道其姓名如何被安置在恐怖分子筛查数据库中并与签证申请上的姓名相匹配,他可能会试图避免这种安置和匹配。
这些问题是可以理解的,但不能称为对公开记录请求无响应的借口。公开记录法确实可以解决执法调查和调查技术背景下的潜在博弈问题。《信息自由法》的豁免7(E)明确要求是否披露调查技术“存在规避法律的风险”。然而,其核心是,“调查”涉及查明肇事者并收集已经犯下罪行的证据。在特殊情况下,有些法院一直愿意将“调查”扩张以涵盖一些预防性措施。我们的一项公开记录要求显示一个管辖区豁免提供与警察监视技术有关的数据,可以说与预防类似。然而,像PredPol和HunchLab这样的预测性警务程序,其重点是威慑而非调查,处于豁免边缘或者之外。对于再犯和未能出庭刑事被告的风险评估似乎与“调查”的关联性更低。此外,对于其他非刑事司法博弈问题,不存在公开记录法的豁免。像Eckerd快速安全反馈和阿勒格尼家庭筛查工具这样的儿童福利计划主要与执法无关。
通过采用相对不受操纵影响的算法,政府机构可以最好地处理对博弈的担忧。例如,阿诺德基金会声称,PSA-Court仅依赖关于被告历史的客观、可证实的事实,产生的风险评估与依赖于被告主观陈述的算法几乎一样准确。Azavea已将随机性引入它的HunchLab预测警务算法,其除了别的因素之外,甚至会因公开算法而挫败推导巡逻计划的努力。
官员们可能会担心的另一个问题是,他们不想暴露他们对预测算法的尝试性思考。FOIA和许多州的公开记录法案均包括豁免以保护行政执法部门的审议程序。我们的公开记录请求均未在行政执法部门审议程序豁免下被拒绝,因此将此类豁免应用于算法程序依然是勉强的。审议程序特许假定机构已经宣布了规则并解释了其基本原理。豁免审议程序的目的是“通过传播文件来防止混淆问题和误导公众,这些文件表明行动过程的理由和原理,而这实际上并非该机构采取行动的最终原因”。
如果政府从来没有解释算法“规则”或为什么采用它,那么就没有权威性表达可以防止任意猜测。实际上,在算法的制定过程中创建的记录将是进入支持算法过程的规则和基本原理的唯一窗口。司法部门通常豁免于公开记录法。我们的一些公开记录法案请求被驳回,理由是法院不适合接受请求。我们不能说在每种情况下这都是错误的,但它应该是错误的。法院系统内算法的制定和采用与个案中的司法决策(通常由公众解释来说明)几乎没有相似之处。它更类似于起草和采用适用于大量案件的证据规则。与行政规则制定一样,司法规则制定通常是当众进行的。联邦法律要求由最高法院以外的任何联邦法院颁布的规则“只有在给予适当的公共告知和评论机会后才能规定”,并且最高法院还根据由司法会议发布的程序来使用通知和评论规则制定。州法院有类似的公共程序。在没有公开记录授权以提供算法被制定和采用的过程记录时,法院应考虑类似于它们过去常用的采纳和修改规则的某种形式的公共程序。
最后,政府可能担心某些选民对算法的部署感到不安,要么辨明其中没有歧视或不公平,要么过分地为算法建议辩驳。为了避免他们认为基于扭曲或不科学结论或错误而产生的无根据争议,政府可能不愿意发布算法模型。我们知道没有公开记录法案豁免可以防止有争议的事项被披露,虽然政府官员可能有理由担心歪曲和不科学的结论,但民主进程中的争议是不可避免的。这往往是其核心。
五、措施
政府如何提高预测算法使用的透明度?立法机构不太可能撤销对商业秘密和其他机密信息的保护。即使这种情况发生,取消商业秘密保护本身也不能解决文件不足和私人拥有记录的问题。一个更富有成效的过程是政府利用其合同权利坚持创造、规定和披露适当的记录。我们将首先考虑规定和披露要求,然后转向有关记录创建的最佳做法。
(一)要求条款和记录允许披露的合同语言
我们通过公开记录请求获得公共机构和承包商之间的协议表明,政府不会也不需要统一同意承包商对保密和数据所有权的意愿。例如,似乎当阿诺德基金会为其PSA计划起草了一份标准的谅解备忘录时,它包含了有关保密的强有力和广泛语言,没有要求改变该语言的法院承诺保留它们对PSA的所有信息的保密要求。然而,佛罗里达州的第七司法巡回法庭显然要求提供明显较窄的保密义务的语言。它给阿诺德基金会课加了标明商业秘密、编辑未受保护的材料以及向政府交付标记副本的负担。这种方法——给予承包商以责任,以识别和标记文件中的特定段落作为商业秘密——需要漫长的道路以避免过度主张商业秘密,并迫使承包商确切地考虑特定信息披露是为何以及怎样削弱其竞争地位。这种语言与公开记录法案中适当狭窄的商业秘密豁免构建相吻合。
重要的是要认识到,对更为狭隘的保密语言的要求并未导致阿诺德基金会拒绝与第七司法巡回法庭签订合同。基金会加入了不太有利的语言,即使它免费提供PSA,第七司法巡回法庭也没有扣款的议价优势。就像营利性公司一样,非营利组织和基金会需要客户——它们需要向捐赠者展示其提供的服务正在发挥作用并影响政府的运作方式。因此,政府必须明白,即使它们没有为服务付费照样具有优势。
如果政府为服务付费,它们就可以在保密和所有权问题上具有额外优势。例如,伊利诺伊州向Eckerd Kids快速安全反馈服务合同进行支付时显然使用了标准的公共合同语言,其中包含有利于州的披露和所有权条款。关于披露,合同规定,默认假设Eckerd提供的所有信息都是公开的——尽管它可以更进一步,正如阿诺德基金会与第七司法巡回法庭达成的协议所规定的那样,课加承包商以负担去制定具体的、加标记的商业秘密主张或丧失反对披露的权利。关于所有权,合同规定伊利诺伊州拥有合同规定的所有东西,包括这些产品的所有知识产权。相比之下,阿拉斯加州健康和社会服务局签署了一份Eckerd Kids同意无偿提供RSF服务的谅解备忘录,阿拉斯加州承诺将所有Eckerd产品和产品视为机密信息,并同意Eckerd拥有与快速安全反馈计划相关的所有内容,包括所有软件和软件生成的所有报告。
已经开发了针对多个管辖区而无需修改算法的承包商不希望将实施该算法的源代码的所有权转移到一个管辖区。但是,如果承包商为某个管辖区提供定制算法,那么该管辖区可能适当地坚持所有权,或者至少坚持为自己使用或其他管辖区使用的许可。例如,阿勒格尼县与奥克兰财团签订的合同授予州和联邦政府非独家许可,以使用根据合同生产的软件并授权其他人使用该软件,并授予该县根据受任何知识产权保护的合同而使用和分发任何产品的权利。在所有情况下,政府机构应对根据特定管辖区提供的数据对该管辖区内评估风险的报告主张所有权。伊利诺伊州的合同提出了这样的主张,而阿拉斯加州的协议则将所有报告的所有权归于Eckerd。
然而,即使用非常有利的语言规定所有权和披露,如果没有创建文件,或者从未向政府客户提供过文件,也是无效的。由于与阿诺德基金会缔结的第七条司法巡回协议中的披露条款,该法院能够向我们提供有关PSA风险等级的信息——在原始培训中,未按风险评分出现的预审人员百分比设置和验证研究——没有其与法院或阿诺德基金会本身提供。然而,它只能提供这些信息,因为它恰好被纳入阿诺德基金会助理向法院提交的幻灯片演示中,因此完全取决于阿诺德基金会确定披露政策。负责任的政府应该做出这些决定,并将披露规定与向政府提供记录的要求联系起来,如果这些记录尚未存在,则可以创建。
(二)创建问责记录
政府应该有意识地生成或要求其供应商生成记录,以促进算法过程的公共理解。这似乎是Alleghen《欧盟通用数据保护条例》(European Union General Data Protection Regulation)(2018年生效)所设想的,该条例规定了算法的功能必须为公众所理解。
在理想的情况下,相关的利益相关者会生成一套最佳实践,用于记录预测算法的创建和实施,这样的最佳实践文件可以利用一些现有模型。例如:透明度和问责制倡议发布了政府透明度、问责制和公民参与的最佳实践指南;国家市政分析师联合会颁布了一系列与市政债务发行有关的最佳披露做法;在线信任联盟发布了一系列与市政债务发行有关的最佳披露实践;在线信托联盟(The Online Trust Alliance)发布了一些最佳实践文件,包括物联链信托框架2.5,一套专注于互联家庭和可穿戴技术的隐私和安全原则。也许最实用的是,尽管处于很高的抽象水平上,美国计算机组织协会公共政策委员会(U.S. Public Policy Council of the Association for Computing Machinery)制定了一套7个“算法透明度和问责制原则”。
虽然我们不能希望在此提供可持续的多利益相关方审议所产生的最佳实践声明,但我们根据自己的研究确定了8个类别的可取的文件:算法模型的一般预测目标和应用;相关、可得和可收集的数据;被视为数据排除;具体预测标准;使用的分析技术;主要政策选择;验证研究和审核的结果;预测算法和算法输出的解释。
1. 一般预测目标和应用
各国政府被期待能在使用预测算法时明确其目标。这将提供一个重要的基准,可以衡量特定的标准,并可能导致更好地理解算法预测所告知的决策。目标并不总是不言自明。例如,像PredPol或HunchLab这样的算法最一般的目标是预测犯罪发生的地点和时间。然而,当地警务力量可能真正感兴趣的是关于何地布置的有限数量的巡逻人员能够最有效地阻止犯罪的决策,并承认在室内发生的犯罪很难通过巡逻来阻止。因此,该部门会更准确和更仔细地描述其目标,预测警察巡逻的出现可以在何地与何时阻止犯罪。
作为制定一般预测目标的一部分,政府可能希望更进一步明确它试图解决的问题。例如,正在寻求得到预测哪些囚犯因假释而被释放后最有可能犯罪帮助的政府,可能会受到各种担忧的驱使。由于监狱过度拥挤,它可能希望减少收监人数,或者它可能希望减少从事新犯罪的假释者人数,或者它可能面临对假释决策实践公平性的挑战。每一种情况都可能在创建预测算法时要求不同的敏感度。预测算法也可用于协助各种接合点的政府决策。例如,虽然阿勒格尼家庭筛查工具和Eckerd快速安全反馈都提供儿童福利评估,但前者作为直接筛查工具,旨在应用于儿童福利热线电话被拨打的时刻;后者显然用于由一个机构处理目前定期审查的所有儿童福利案件。理想情况下应该对特定决策过程进行一些反思,算法为何而设,算法预测是否在该机构运营中被最佳应用,以及算法设计是否适合该应用。
2. 数据:相关性、可得性、可收集性
有了预测目标的想法,下一步是考虑什么数据与预测决策相关。它既有助于算法的评估,也有助于引导审议以记录什么数据最初可能被认为确实和问题的结果预测有关。例如,那些可能已经确定被告先前逮捕历史和就业记录数据的数据科学家也考虑了被告的运动体制和教育背景的数据吗?如果没有,为什么不呢?大多数预测算法将在已经为其他目的而收集的数据基础上进行训练。因此,数据科学家将继续搜索现有的数据源,它对记录他们在何地看到和发现什么非常重要。
3. 数据排除
可得的数据最终可以从用于训练算法的数据集中被排除,并且最终将用作生成关于特定主题的预测的输入。排除数据至少有五组原因:质量问题、操纵易感性、时间和地点限制、缺乏相关性,以及除缺乏相关性之外的政策考虑因素。记录所有这些对于理解训练数据和算法的输入数据是很重要的。
(1)数据质量。数据科学家可能担心数据集或某些数据字段存在太多不准确性,在收集数据时没有一致地定义,或者已经以各种方式在损坏。例如,地址可能已从手写原件手动转录并测试为无效,或者两种类型的数据可能在一段时间内被输入到单个字段中。对这些问题的记录,以及关于是否保留数据 ——甚至带着其缺陷——或排除数据的决策,这些对于评估所产生的算法的质量非常重要。
(2)操纵和博弈。预测算法的创建者还可以决定排除某些类型的数据,因为它易受操纵或“博弈”的影响,因此破坏了训练数据的准确性或完成算法输入的准确性。例如,如上所述,阿诺德基金会决定创建一个审前释放算法,该算法不需要将与刑事被告会见中收集到的任何事实作为输入。这种排除部分被诱发而产生的问题是,当被告知道回答可以决定审判前的释放时,会见期间收集到的信息会受到操纵。
(3)时间和地点限制。关于在不同时间和地点行动的受试者数据需要被收集。在所有其他条件相同的情况下,训练数据集越大效果越好,但所有其他事情可能并不相同。由于经济、可获得的社会服务和许多其他因素,具有相同状况的囚犯10年前再犯的风险可能与今天的不同。如果来自不同年份的数据子集明显地表现出不同的相关性,则可以做出老数据因陈旧而被排除的决定。另一方面,如果目标是预测假释者是否会在未来5年内犯罪,那么训练数据集必须排除关于不到5年前被假释的囚犯的数据,因为新的假释者不会有足够长的跟踪记录。在某些情况下,某些数据可能不得不因为太旧而被排除,而其他则因为太新而被排除。
关于HunchLab,林肯市警察局透露,HunchLab在任何给定的一天产生的输出都是基于前30天的警方事件报告。30天窗口的选择显然涉及竞争因素的平衡。限制上个月的输入使数据保持相对新鲜,并允许查询每周和每月的活动周期。同时,它不允许对季节性周期进行调查,并且可能导致相对不常见的犯罪类型的非常单薄的数据。
算法开发人员还必须对训练和输入数据的地理范围作出判断。由于不同的社会和经济条件,或许更具争议的是由于不同的种族构成、收入状况或其他因素,来自一个地区的——可能是一个城市地区的——被告人群与来自第二个地区的——也许是农村地区的——被告人群相似,可能会带来不同的审前“跑路”风险。
我们知道,阿诺德公共安全评估算法是根据来自全国300个不同管辖区汇总的数据进行培训的。我们不知道阿诺德基金会是否测试了来自不同州或地区的数据集的子集,是否将数据集作为整体表现出与之相同的预测相关性。如果来自不同区域的数据表现出显著不同的预测相关性,则可以作出地理上限制数据集的决定。无论数据集是否受时间和地点的限制,最佳做法是测试时间和地点之间的差异并记录结果。
(4)关联。一些数据元素被排除,那是因为它们似乎与要预测的结果之间不具有充分的相关性。记录排除和记录低于被排除数据的预测值的阈值将是有用的。
(5)相关性之外的政策原因。也许最值得注意和具有争议性的是,由于各种政策原因,某些数据尽管具有潜在的预测价值,但仍会被排除在外。例如,阿诺德基金会推广其算法的优势时,并没有考虑诸如“种族、性别、收入、教育、家庭住址、吸毒史、家庭状况、婚姻状况、国籍、就业(或)宗教等问题”。种族和性别等不可改变的特征在宪法上存在问题;家庭住址在许多情况下可能与种族密切相关。排除诸如教育水平和吸毒史等特征的决定,如果被发现具有实质的预测价值,可能会更具争议性,应予以记录。
4. 具体的预测标准
我们在上面指出,阐明算法开发项目所追求的一般预测目标是有用的。然而,一旦决定使用何种训练数据,可能会发现实际预测必须与原始预测目标有所不同。因此,应该记录用于预测标准的选择,特别是当它们与明显的选择不同时。
例如,算法的一般预测目标可能是预测犯罪将发生的地点和时间,但唯一可以得到的训练和输入数据很可能是已报告的犯罪,并且在发生后相对较快地被报告。因此,该算法最终会更具体预测的并非犯罪将发生在何处,而是将要被报告的犯罪将发生在何处。这是令人不安的,不仅因为很多犯罪没有被报告,而且因为不同社区的犯罪以不同的比率被报告。例如,一项研究发现,在贫困社区报告的简单攻击的可能性较小。另一项研究发现,在大量移民社区犯罪行为特别少地被报告。第三个研究发现,犯罪报告往往随着受害者年龄的增加而增加,因此老年居民社区可能会报告更高比例的犯罪。因此,一个受报告犯罪训练的算法可能最终导致警察被指引远离贫困、移民和年轻受害者,而他们则可能是最脆弱的群体。这些问题不仅限于预测警务。例如,阿勒格尼县最有兴趣预测何时被报告的虐待儿童可能导致严重伤害或死亡,但它决定不去创建直接这样做的算法,实际的原因是严重伤害或死亡的案例提供(幸亏)数据点太少。因此,它决定不再使用寄养家庭的代理人和其他虐待报告作为具体的预测标准,原因在奥克兰联盟报告中有详细的解释。同样,COMPAS再犯算法接受有关因犯罪重复逮捕数据的培训,而不是关于定罪的数据,虽然阿诺德基金会没有透露有关其PSA培训数据的细节,但它几乎肯定也使用了逮捕而不是定罪。重要的是要了解这两者如何区分。Abe Gong要求我们考虑:“相比白人嫌犯,要是警官更愿意追捕、搜查和逮捕黑人嫌犯,那该怎么办?要是执法部门在黑人社区部署不成比例的武力或使用更具侵略性的警务策略,那该怎么办?”逮捕少数族裔社区成员将被人为地歪曲,因此必须选择其他预测标准;且那些选择应该被披露。
5. 使用的分析和开发技术
使用相对少量的分析技术来发现预测对象的特征或特点之间的相关性。其中,最受欢迎的是回归技术(Regression Techniques)(线性、逻辑和多项式)、随机森林(Random Forests)、神经网络和支持向量机(Support Vector Machines)。这有助于记录尝试了哪些技术,选择了哪种技术以及为什么如此选择。例如,当认为一个或多个输入与输出之间可能确实存在线性关系时——例如,被告的年龄与被告如果在审判前被释放将从事犯罪的可能性之间的关系,线性回归可能是合适的。可能的情况是,非线性预测模型(例如,因为它使用特定年龄的截止值)产生相当于统计上的明显结果,该结果恰好在统计上是明显的。还有一些标准的算法开发技术正在使用中,例如,将数据集随机分成将用于训练算法的子集,然后在一个或多个阶段中对其进行测试(“验证”)。记录这些开发技术也可能是最好的做法。
6. 主要政策选择
我们已经提到了在算法开发中作出的许多不同类型的策略选择。一个是出于各种原因排除其他相关数据的决定,另一个是衡量假阴性和假阳性相同或不同的决定。应该记录这些选择,并记录它们为什么按照它们应有的方式被生成的解释。
7. 验证研究、审计、日志记录和不透明的问责制
实施前验证是预测算法初始开发中的标准步骤。然而,在算法投入使用之后,在真实条件下考虑到算法的预测强度以及它可能产生的任何输出偏差,可以实施额外的实施后验证研究。针对何时以及如何实施此类研究,以及何时适合坚持由独立实体实施该研究,可以开发最佳实践。公共客户可以要求对它们的案件进行此类研究,并交付给它们。
审核可以作为验证研究的替代或补充。如果由于商业秘密、安全或隐私原因最优披露不会发生,那么可能重要的是算法开发的第三方机密审计。当算法错过某些目标时,或者当客户发现开发过程存在缺陷的证据时,公共客户可以坚持审计。要求开发人员保留包含上述许多或所有类别记录的日志也是适当的,即使通常不会公开完整的日志,以防万一需要进行审计。公共实体也应该为算法实施的审计签订合同,这是第七巡回法庭为实施PSA 算法(由Arnold 基金会分包商执行)而获得的。公共客户应该知道并能够向公众透露它们是在输入数据还是正确地解释结果。
8. 算法和输出解释
对作为算法基础的相关性提供简单语言解释通常是重要的,该解释对于产生预测采用的一般路径——无论该路径是权衡因素的公式、决策树或其他路径——同样重要。这将允许为了公共责任和算法用户而判断其输出。如果算法如此复杂以至于似乎不可能进行简单语言解释,那么也应该进行公开,以便使用算法预测输出的人理解它是一个黑箱,与任何可以明确表达的解释或因果理论无关。如果可解释算法与不可解释算法的处理一样好,那么为了政府能力和公共透明度,政府应该更倾向于可解释算法。如果政府代理人(或他们信任的人)理解算法,他们就会更好地适应去接受其判断或无视它。
提供算法输出的解释通常也很重要。当算法产生未校准的测量,例如PSA从1到6的风险等级,尤其如此。在对算法的早期实施所进行的验证研究中,审前“跑路”风险得分最低的被告确实出现在审判中的占了几乎9/10;对于那些获得最高风险评分的被告来说,出现的占了7/10。如果预审服务官员和法官不了解这些百分比,他们可能会认为最低和最高风险分数之间的差异大于实际分数,或者他们可能对“低风险”被告会造成多低的风险,或“高风险”被告会产生多高的风险有不同的假设。
六、结 语
在公共实体中,使用开源代码,或者以其他方式发布运行预测分析的代码总会有其价值。但是,访问代码对于获得有意义的透明度并非必要,有时甚至不会有帮助。公共实体应该更加关注的是以更缜密和透明的方式从事算法过程的设计、采购和实施。公共实体合同应要求供应商创建和提供解释关键政策决策和验证工作的记录,而不必披露精确的公式或算法,然后可以发布这些记录并支持公开政策辩论,而不会对承包商的竞争地位产生不利影响。就不可减少的商业秘密仍然存在于预测算法项目中而言,那么响应公开记录请求的政府记录保管人会狭隘地解释这些主张。法院也会这样做,要求承包商发布不会削弱其竞争地位的记录(即使是采用编辑形式)。这将允许有意义的透明度,从而使政府对这些算法的使用负责。
往期目录
●上政学报 | 陈 兵:生成式人工智能可信发展的法治基础●上政学报 | 袁 曾:数字法学研究现状的再反思——法学理论向何处去?●上政学报 | 郑 曦:侦查机关调取公民个人数据的规制
●上政学报 | 黎 宏:论中国特色刑法教义学话语体系的建构
●上政学报 | 王利明:论平等保护民营企业产权●上政学报 | 宋亚辉:网络平台的动态规制理论
●上政学报 | 李友根:公共承运人理论与互联网平台规制的正当性——美国公共承运人判例变迁的考察报告
●上政学报 | 齐爱民 倪 达:元宇宙虚拟法庭的提出及其法律机制
●上政学报 | [美]索洛姆·维尔琼著,林少伟译:数据治理的关系理论
●上政学报 | 胡玉鸿:党的二十大报告中民生法治建设的“公平”话语解读
●上政学报 | 张明楷:犯罪故意中的“明知”
●上政学报 | 杨立新:《民法典》构建的我国侵权责任法自主立法体系
●上政学报 | 汤维建:我国个人破产立法的制度框架构想
●上政学报 | 马长山:数字时代的法学教育转型●上政学报 | 陈兴良:区分制与单一制:共犯教义学的学术站位●上政学报 | 舒国滢:菲利普·赫克的法律漏洞填补论与法律(诫命)更正论
●上政学报 | 陈瑞华:企业合规不起诉改革的动向和挑战●上政学报 | 蒋大兴:论出资义务加速到期的商业逻辑:股东/董事作为履行者与监督者责任之差异●上政学报 | 熊秋红:刑事司法中的人工智能应用探究●上政学报 | 谢鸿飞:财产权的公共性●上政学报 | 谢士衍:论我国紧急状态的决定和宣布
●上政学报 | 刘俊海:论股权转让时的股权变动规则:契约自由、公司确认与登记公示的三重维度●上政学报 | 孙运梁:非法占有目的的两个侧面及其功能●上政学报 | 高铭暄 傅跃建:新时代“枫桥经验”与国家治理现代化:内在逻辑与实现进路●上政学报 | 常鹏翱:论规划对产权的影响——以城市房地产为分析对象●上政学报 | 谢 杰:期货市场内幕交易犯罪的机理解构与刑法规制●上政学报 | 张宇晖:算法决策的结构化问责机制:欧盟经验与中国借鉴●上政学报 | 胡玉鸿:全过程人民民主的价值依归●上政学报 | 李建伟:股东双重派生诉讼制度为何重要——由10份典型裁判说开去●上政学报 | 魏健馨:《生物安全法》的宪法逻辑●上政学报 | 肖新喜:论网络安全的公益诉讼保护●上政学报 | 黎 宏:《刑法修正案(十一)》若干要点解析●上政学报 | 赵 云:中国空间站运行所涉基本法律问题探析●上政学报 | 周永坤:法学是科学吗?——德国法学界的史诗性论辩●上政学报 | 李 敏:虚拟货币的反洗钱监管探析及借鉴●上政学报 | 杨立新:侵害个人信息权益损害赔偿的规则与适用——《个人信息保护法》第69条的关键词释评●上政学报 | 顾永忠:论“委托辩护应当优先法援辩护”原则●上政学报 | 李 翔:袭警罪的立法评析与司法适用●上政学报 | 孙 远:论庭前会议环节对控方证据的实质审查——以新《刑诉法解释》第232条为中心●上政学报 | “初创学者佳作”专栏征文启事●上政学报 | 上政《数字法治评论》约稿函●喜报 | 王利明教授在《上海政法学院学报》发表的文章被《新华文摘》全文转载
●喜报 | 陈瑞华教授在《上海政法学院学报》发表的文章被《新华文摘》等全文转载
●喜报 | 熊秋红教授在《上海政法学院学报》发表的文章被《社会科学文摘》全文转载
●喜报 | 熊秋红教授在《上海政法学院学报》发表的文章被《中国社会科学文摘》等全文转载
●资讯|中国知网发布法学期刊影响力指数排名,《上海政法学院学报》位居33●《上海政法学院学报》2023年第5期目录与摘要●《上海政法学院学报》2023年第4期目录与摘要●《上海政法学院学报》2023年第3期目录与摘要●《上海政法学院学报》2023年第2期目录与摘要●《上海政法学院学报》2023年第1期目录与摘要
●《上海政法学院学报》2022年第6期目录与摘要●《上海政法学院学报》2022年第5期目录与摘要●《上海政法学院学报》2022年第4期目录与摘要●《上海政法学院学报》2022年第3期目录与摘要●《上海政法学院学报》2022年第2期目录与摘要●《上海政法学院学报》2022年第1期目录与摘要●上政学报 | 2021年1-6期目录
●《上海政法学院学报》2021-2022年栏目专题论文汇编●重磅|国内第一本《数字法治评论》辑刊创刊首发!我校首届“数字法治论坛”举办!
●《数字法治评论(第1辑)》目录与摘要
《上海政法学院学报》创刊于1986年,原名《法治论丛》(2003年改名为《上海政法学院学报》),至今已走过37年的发展历程。《上海政法学院学报》是我国最早以“法治”命名的法学专业学术期刊之一。
我们立足一流期刊建设目标,坚持 “高质量”“特色化”“专题化”办刊思路,在法学期刊建设上努力探索,逐步成长,影响因子稳步提升。据中国知网年报,《上海政法学院学报》(法治论丛)“复合影响因子”从2021年的2.428上升到2022年的3.192,“综合影响因子”从2021年的1.048上升到2022年的1.500,CI指数排名也从2021年的第41位提升到2022年的33位。此外,据中南财经政法大学2022年信息检索报告统计,《上海政法学院学报》2021年刊文共有31篇次(2020年14篇次)被《新华文摘》《中国社会科学文摘》《高等学校文科学术文摘》和“人大复印资料”等二次文献全文转载或论点摘编,在全国法律类院校学报排名第7位(2020年排第14位)。
我们以“问题意识”为导向,以做好选题策划为根本,在持续推进“党内法规”“上合组织法治”特色栏目建设的基础上,继续追踪法治前沿,实现“个人信息保护”“数字经济法治”“国家安全法治”等专栏的可持续发展;紧紧围绕法治中国建设中的重大战略问题,精心策划,开辟 “学习贯彻十九届六中全会精神专题”“新《刑事诉讼法解释》”“数字化时代的刑事诉讼改革”“产权保护专论”等新栏目新专题。此外,还开设“初创学者佳作”专栏,为有潜质起步的青年学者搭建平台。
我们以开放姿态拥抱新技术。全面升级网站建设,建立投审稿系统,实现全流程数字化出版;提升微信公众号运营策略,同步推出作者音频解读;积极开展网络首发,同步上传作者音频视频,增强学术出版。
我们虽然取得了一些进步,但同全国许多优质兄弟期刊相比还存在着很大差距和不足。我们诚挚地欢迎广大海内外科研工作者关注和支持上政学报并惠赐大作,也欢迎各界朋友积极建言献策、批评指正,以期共同办好《上海政法学院学报》(法治论丛)。来稿请通过《上海政法学院学报》编辑部网站(http://www.shupl.edu.cn/xbbjb/)投审稿系统进行投稿。本刊对来稿严格遵守三审(二审外审)定稿制度,以确保稿件选用公开公平公正。
编 辑:汤仙月
审 核:康敬奎
以法为基,寻社会治理之策
○
以文为器,求兴国安邦之道
投稿邮箱:xuebao@shupl.edu.cn
微信公众号:law-review1986
网址:http://www.shupl.edu.cn/html/xbbjb
电话:021-39227617 39227619
更多内容请点击下方“阅读原文”进入学报官网查看