算法世界并不必然公平，但应朝向公平 | 《腾云》63期精选 | 自由微信

算法世界并不必然公平，但应朝向公平 | 《腾云》63期精选

Original 2018-03-07 曹建峰 腾云

长久以来，人们对计算机技术存在一个广为人知的误解：算法基于数据进行决策，更倾向于是公平；因为数学关乎方程，而非肤色，而且算法不受人类偏见干扰，所以消除了歧视。但实际上，算法被默认为必然公平的想法要大打折扣；因为在算法决策起作用的诸多领域，歧视屡见不鲜。

所以，为了避免歧视通过代码和算法被固化或者放大，或让算法世界中的歧视和不公平反过来塑造现实世界，人们迫切需要塑造算法世界中的公平，通过算法设计保障公平，实现公平，而这单靠编程人员是无法达成的，需要跨学科的参与和互动。

曹建峰

腾讯研究院高级研究员

算法何以影响人类

XXXXXX

尽管算法决定论还没成为流行词，但是，算法，尤其是被冠以人工智能之名的可以自主学习、适应、进化的算法，却在塑造我们以及我们的世界，无论人们是否意识到这些变化。可以说，算法在塑造我们的文化，塑造我们所听所见，塑造我们的生活。

华尔街早已不是金融专家的天下，算法控制了70%的交易。罪犯的危险性，不再由法官来评判，而是托付给了算法。算法在预测犯罪的发生，从而帮助警方合理部署有限的警力。算法还被用来决定谁能得到面试机会，谁能获得贷款，谁能拿到救助金，诸如此类。算法支撑起了互联网的个性化、定制化运动，搜索、新闻、广告、数字媒体、社交网络等是最热门的领域。这场运动之所以成为可能，是因为算法可以将人们在网络世界中的浏览历史、购物记录、GPS位置数据等各种网上足迹和活动，转变为对人们的各种打分和预测。

算法不过是一系列指令，可以将输入转变为输出，而学习算法则可以自主形成其他算法和规则，可被用于难以手动编程的认知领域。算法的本质在于预测，基于大量的数据和输入，来形成比人类更优、更实时的预测。预测或者就是决策本身，或者为决策服务。

比如，人工智能算法执行的自动驾驶比人类驾驶更安全，它得出的医疗影像诊断结果比医生更准确，它识别语音的出错率比速记员更低，诸如此类。正是由于算法的这一效用，它正在成为一种通用技术，被普遍应用在各行各业和各个领域，有望提高生产力并带来经济增长。然而，它也可能成为一种威胁，尤其是当它被应用在关切人身和财产利益的场合，如工作、教育、贷款、刑事司法等。没人能够想到，互联网带来数据大爆炸，推动人工智能的又一轮热潮。

潜藏的算法歧视

XXXXXX

长久以来，人们对计算机技术存在一个广为人知的误解：算法基于数据进行决策，倾向于是公平的，因为数学关乎方程，而非肤色，而且算法不受人类偏见干扰，所以消除了歧视。人类决策受到诸多有意或者无意的偏见以及信息不充分等因素的影响，可能有碍公正，所以存在一种利用数学方法将人类社会事务量化、客观化的思潮。有学者将这种对数据的崇拜描述为数学清洗，就是说，利用算法、模型、机器学习等数学方法重塑一个更加客观的现实世界。《未来简史》一书的作者尤瓦尔·赫拉利将之称为“数据宗教”，基于数据的人工智能算法决策未来将成为一切决策的基础。

实际上，算法被默认为必然公平这个想法是要打折扣的。在算法决策起作用的诸多领域，算法歧视并不鲜见。比如，在卡内基梅隆大学的一项研究中，研究人员发现，谷歌的广告系统将高薪职业广告更多推送给男性用户，而不是女性用户。再比如，由于实证研究认为，犯罪人遭受什么样的刑罚，取决于法官早餐吃什么，意即法官在给罪犯量刑时是很不靠谱的，很多美国法院依据犯罪风险评估算法得出再犯风险分数，来决定罪犯所应遭受的刑罚。然而，非营利机构ProPublica调查研究发现，很多美国法院使用的一个名为COMPAS的犯罪风险评估算法系统，系统性地歧视了黑人——黑人被该系统错误地评估为高犯罪风险的概率是白人的两倍，而白人则更多地被错误评估为低犯罪风险。ProPublica还发现，就预测未来犯罪而言，该系统给出的再犯风险分数是非常不可靠的，并不比掷硬币准确多少。

算法歧视有多个来源

XXXXXX

从来就没有客观的算法。算法在本质上是“以数学方式或者计算机代码表达的意见”，包括其设计、模型、目的、成功标准、数据使用等都是编程人员的主观选择，他们可能将自己的偏见有意或者无意地嵌入算法，使之代码化。更进一步，算法决策在很多时候其实就是一种预测，用过去的数据来预测未来的趋势。算法模型和数据输入决定着预测的准确性。因此，这两个因素也就成为了算法歧视的主要来源。

其一，因遗漏而产生歧视。图像识别软件曾犯过种族主义大错，一些图片软件曾将黑人的照片错误地标记为“大猩猩”“猿猴”或者“动物”。这是计算机视觉中的肤色歧视。原因并不总是那么显而易见。训练数据中缺乏足够多样性的数据，所以计算机和机器人才看不出黑人，除非他戴上白色面具；才把亚洲人看成是闭着眼睛的，除非他换上更大的人造眼睛。

其二，因有偏见的数据而导致歧视。道理很浅显，训练数据中的历史偏见将被算法习得，过去的歧视将导致未来的歧视。比如，数据是社会现实的反映，训练数据本身可能是歧视性的，用这样的数据训练出来的算法系统，自然也会带上歧视的烙印，典型的例子包括犯罪风险评估算法和预测性警务技术。再比如，数据可能是不准确、不完整或者过时的，带来所谓的“垃圾进、垃圾出”现象。更进一步，算法可能不当地考虑了种族、性别等受保护因素。

其三，因代理建模而带来歧视。有时候直接测量或者预测是困难的，或者是不可行的，此时，代理建模就是必要的，或者是更易操作的方式。比如，通过“点赞”这一代理数据来观察社交网络如何判断用户兴趣或者内容好坏。这部分地解释了社交网络上的假新闻问题。因为代理数据很容易被操纵，或者被伪造。当然，代理数据的相关性也是重要的。比如，拿一个人吃的食物来评估其犯罪风险，必然会得到很荒谬的结果。

此外，歧视也可能是机器学习的结果。比如，拿一个甄别错误姓名的机器学习模型来说，如果某个姓氏是极为独特的，那么包含这个姓氏的姓名为假的概率就很高。但是这可能造成对少数民族的歧视，因为他们的姓氏可能本来就不同于普通的姓氏。再比如，数据挖掘可能意外发现一些有用的规律，而这些规律其实是关于排斥和不平等的既有模式，不加深思熟虑就依赖算法、数据挖掘等技术，可能排斥弱势群体等参与社会事务。更糟糕的是，歧视在很多情况下都是算法的副产品，是算法的一个难以预料的、无意识的属性，而非编程人员有意识的选择，这更增加了识别问题根源或者解释问题的难度。

最后，歧视可能是自主的算法系统在交互过程中习得的。比如，曾经在推特上和网民互动的聊天机器人Tay，在交互过程中被网民“教坏”，成为了一个集性别歧视、种族歧视、反犹太人等于一身的“不良少女”，后来就被紧急下线了。可见，缺乏伦理价值、常识、正义观念的算法系统，在现实的交互中，很容易就会造成歧视以及其他形式的不公平。

塑造算法世界中的公平

莫让算法成为武器

XXXXXX

在如今的世界，为了获得竞争优势，大家都急匆匆地采用机器学习和人工智能技术。但存在一个真正的危险，那就是，技术可能被部署在不适合的领域，最终结果可能是歧视和不公平通过代码被固化在社会中。美国数据科学家凯西·奥尼尔在其专著《杀伤性数学武器：大数据如何加剧不平等、威胁民主》中，将能够带来歧视和不公平的算法系统描述为“杀伤性数学武器”，因其规模性、隐蔽性和破坏性需要引起人们足够的重视。为了避免歧视通过代码被固化或者放大，或者算法世界中的歧视和不公平反过来塑造现实世界，人们迫切需要塑造算法世界中的公平，通过算法设计保障公平，实现公平，而这单靠编程人员是无法达成的，需要跨学科的参与和互动。

第一个需要解决的问题是透明性和可解释性。现代人工智能系统越来越成为一个“黑箱”，甚至有时连编程人员自己都无法理解他们的造物，更别提社会公众了。不透明性或因私人权利（如商业秘密）而产生，或因技术文盲而产生，或因机器学习算法的特征以及要求将它们有效适用的测量而产生。为了实现透明性和可解释性，开源是一种可行的方式，制定标准也是一种可行的措施。此外，为了便于监管，利用区块链来对系统的行为形成不可改变、不可篡改的记录，也可以作为一个核心的机制。当然，透明性还意味着企业在针对用户部署自动化的算法决策时，需要告知用户并获得其用户同意，以及在必要时向其提供必要的信息。这是信息自决中的知情同意在算法世界中的天然延伸。

第二个需要解决的问题是如何问责。如果人们不满意政府的处罚，可以提起行政诉讼，如果不满意法官的判决，可以提起上诉，正当程序（Due Process）确保这些决策可以得到某种程度的审查。显然，对算法进行司法审查，向算法问责以便给受到算法决策影响的人提供某种形式的救济，是必要的。但在缺乏透明性的情况下，人们可能面临着审查什么、如何审查等问题。当然，借助区块链来实施基于信誉的访问控制，也是一种问责的机制，只不过是通过技术手段实现的。

第三个需要解决的问题是算法决策的边界。人们担心，技术可能被部署在不适合的领域。因此有人呼吁禁止将人工智能用于致命武器的开发，有人呼吁禁止将“黑箱”性质的人工智能和算法系统应用在诸如刑事司法、医疗、战争、教育等领域。算法决策边界的确定，对于维护人的自由、尊严、权利、幸福等至关重要，这方面需要更多的公共对话和协商。

最后，对于技术人员而言，需要明确的人工智能和数据伦理原则。他们开发的算法和系统正被广泛应用于可能对个人或者公共利益产生重大影响的现实场景（如司法、医疗、教育、交通，等等）中，仅仅考虑技术事项，而不考虑诸如隐私、责任、公平、价值等社会正义观念，是无理由的，也是不正当的。所以，人们呼吁对技术人员和编程人员进行伦理教育。就原则而言，包容和多样性是极为重要的。此外，对谁来编程、如何编程、为何编程等问题的追问，也有助于确保算法设计能够兼顾、包容人类多样性。女性的参与同样重要，很难想象只是由男性塑造的算法世界不会充满性别歧视。

最后的最后，借用《算法帝国》一书的作者克里斯托弗·斯坦纳(Christopher Steiner)的话来说，前行路上，各行各业的数据科学家和程序员，将面对一个如何划定效用和威胁之界限的困境。未来20年的故事，是人工智能算法和大数据的故事，而这个故事将取决于如何划定这些界限以及由谁来划定。无论如何，在人工智能和算法系统日益代替人类进行各种决策的时代，设计出验证、证实、知情同意、透明性、可问责性、救济、责任等方面的机制，对于削弱或者避免算法歧视，确保公平正义是至关重要的。

XXXXXX

丨本期主要内容丨

□ 曹建峰算法并不必然公平但应该朝向公平

□ 王新锐、罗为算法监管路径选择与原则思考

□ 余盛峰未来的庭审什么样？AI将成为原告和被告！

□ 刘朝回归中国现实看中国人工智能的法律

□ 阿改技术带给艺术的可能

□ 汪丁丁公共政策与群体创新能力

□ 张吉豫打破人工智能算法黑箱

□ 张潼腾讯将用“AI+X”赋能传统行业转型升级

□ 方可成欧美社会如何打击网络假新闻？

感谢您关注和支持《腾云》，第63期限量赠阅开放申请中，敬请点击阅读原文填写相关信息，即有机会获赠本期《腾云》。

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过