苏宇:《算法霸权》之“数学杀伤性武器”引发社会经济问题的危害性原因是什么?
日前,《周泰 · 书声》第九期之《算法霸权》品读会在北京周泰律师事务所举办,现场邀请了中国政法大学数据法治研究院教授张凌寒、中国人民大学法学院副教授郭锐、北京大学法学院长聘副教授戴昕、北京大学法学院副教授胡凌、中国人民公安大学法学院副教授苏宇、北京航空航天大学法学院助理教授赵精武、北京周泰律师事务所高级律师储江、北京大学法学院副教授江溯共同探讨、解读这本《算法霸权》!
本文整理自品读会上品读人苏宇副教授的发言内容,供读者参考。
全文共: 3959字 预计阅读时间: 10分钟
苏宇
中国人民公安大学法学院副教授
谢谢江老师,对于《算法霸权》这本书,实际上我们觉得这个书的意义是非常明显的,因为这本书实际上出版在2016年,那个时候很多人对数学杀伤性武器的威胁了解还并不是很深,对于我来说,看到这本书之后,倒是勾起了很多回忆,因为其中有一些事件和场景,我个人可能刚好有一些体验。
大概十年前的时候,我当时正在美国,正好是占领华尔街运动的一个目击者,当时他们正在占领伯克利,我路过的时候就听到了激情澎湃的演讲,说伯克利过去20年的学费蹭蹭上涨了多少倍,当时我还没有意识到这个学费上涨的驱动力是什么,看到这本书之后,发现它是由美国的大学排名算法所间接推动的,这方面各种各样的算法模型,书里面提到的例子非常多。这本书充满了诸如此类事实性的描述,里面使用的例子涉及到的模型主要就是在教育领域和金融领域,还有劳动领域。
这几个领域里面有很多模型我之前是有所接触的,在美国访学期间,在一个法理学课堂上,法学院的教授Kevin Quinn(后来去了密歇根)就是用各种各样的模型来做司法分析,实际上主要是来做法官画像,预测什么样的法官可能会在什么样的案件里面做什么样的判决。一些人工智能方面的算法,最初我也是在他的课堂上听到的。在法理学的课堂上充斥着算法模型,在当时,也就是2011到2012年的时候,我还是难以想象的,但是在那个法学院里面确实如此真切。
后来才发现这种算法分析的风潮不仅仅是出现在美国,逐渐也席卷到全世界,在这么多模型的背后,实际上发生了什么事情呢?作者在书中表达的各种各样的忧虑,我觉得可以总结成这么几点。
第一是这个模型里面设定了不恰当的目标,一开始他的追求目标就是不对的,或者是有偏颇的,比如说只考虑逐利,像星巴克的例子,就没有考虑给员工们带来多少的不便和痛苦。第类是设置了不恰当的变量,尤其是两类变量可能会引起最大的争议,一类是在价值上面本身就背离了这个社会的规范,比如说使用种族或者与种族有关的地理变量。
第二类是使用一些替代变量,可能会造成结果的不准确、不公平。因为原始变量不好获得,或者是违反了规范价值,所以用替代变量,而替代变量不仅会有不当联结的问题,另外也有可能产生损失精度的问题,利弊两方面都需要考虑到。
第三是使用了不恰当的算法,不恰当的算法最主要的可能是错误的理解了变量和结果之间的相关关系,或者是因果关系。
第四是变量和算法可能在设置上面没有问题,但是输入的数据是错误的,就导致了比如说在乘机前被错误审查的结果,或者跟毒贩之类的人物重名,在找工作的时候遭到错误的对待。
第五是过度搜集数据,比如说为了保险公司提供健康保险,搜集了过度的个人轨迹数据。
第六是为了配合算法或者模型导致扭曲性后果,就比如说为了满足大学排名,刷各种各样的指标,最后导致了一个比较扭曲的后果。
这六类原因导致所谓的“数学杀伤性武器”造成了这么多让大家感到痛苦、不公平或者引发了其他社会经济问题的危害性后果。这里我再说一遍书名的问题,这个书名原来只包含了“数学杀伤性武器”,但是加上“算法霸权”这个词,其实可以让我们在这样的算法时代对这本书所讲的主题有一个更深刻的认知。
对于所谓的“算法霸权”或者“数学杀伤性武器”来说,作者谈到的例子里面有一些是我们也许可以寻求纠正的,就比如说著名的辛普森悖论,这里面可能有些读者不太了解这个悖论,我做了一个最简单的实例(请看PPT)。比如说有很多篮球的球友会吹某些球星,比如说PPT里列举的张山峰和韦小跑两个虚拟的球星,如果单看每一年的数据,比如说每一年篮球命中率,韦小跑2019年、2020、2021年投篮命中率都是张山峰的两倍,某些球迷就有可能会说韦小跑是吊打张山峰的,因为每一年投的命中率都是两倍,这说明韦应该远比张优秀,但实际上如果算总的命中率,张山峰才是明显比较强的那一个。
为什么呢?你如果把他的数字加起来,那就不一样了,最主要的变化方式2020年,张山峰投800个中了320个,而韦小跑投100个中了80个,这造成韦小跑的比例虽然数字很高,而且有一年最高是80%,但是总体上却比张山峰差了一大截。相应的就是书里面提到的美国教育改革学生成绩统计分析的例子,按照家庭背景条件分组,每一个学生组别后来的表现在比例上都可能优于原来的表现,但是总体上一算,其实改革的效果还不如原来。这样一种悖论的存在是因为我们对数学之间的关系认识,数字之间的关系认识还不够深切,通过因果关系理论的发展,像Pearl提出的因果图模型,我们如果用好了,在这一块我们可以越来越有能力避免错误认识,但是有一些东西在“算法霸权”低下恐怕是很难被纠正的。
这里面我是用一个moba游戏,比如说dota的战场阴影来做比喻,难以被纠正的部分是什么呢?我的概括是源于决策黑域的局部信息供给与不完全信息博弈,这是什么意思呢?比如说我们在这个游戏里面,我所能看到的战场只是我周边的一部分,哪怕你盯着小地图,你也看不到战场的全景。在我们的现实生活中,在传统的这么一个生活方式里面,一个人能够感知到的信息只是整个世界的很小一部分信息,只是他能凭借最原始的感知手段能感知到的很少的信息,对于他所要做的决策,所要依赖的信息,大部分其实都处于信息黑域里面。
然而,大数据时代的兴起,其实提供给我们很多发现信息的手段,在我们原来的决策黑域里面,突然多了很多供给信息和数据,这本来是一件好事。但是在这样一种决策黑域里面,目前大数据的发展只是供给了一些局部的信息,就是全局信息的一些节点(可以类比为战场阴影里突然闪过某些点的视野),但是他并没有供给我们一个全域的、全时的信息。数学武器的本质其实是根据这些新的局部信息供给,用数学的方式来做这个决策,然后做决策的这一方往往是掌握优势地位的,这是“算法霸权”的基础。但是,没有做决策的一方,或者被决策的对象,也可以根据新的条件来做一个博弈。就比如说做大学排名的这一方是利用搜集到的数据给大学的好坏做一个评价,大学虽然说不能改变这个评价,但是他可以去迎合这些指标,来做一个博弈,回应这样一种算法决策。在这种情况下,实际上人类的决策模式走向了新的模式,比如说我原来只看到战场的一小部分,其他地方全是阴影,只能靠猜测、靠经验,但是现在数据给我们提供了战场很多点的瞬时信息情况,尽管看不到整个战场,双方是围绕“其中一方知道了很多信息的点、另一方可能也知道对方掌握了很多信息点”这样一个新的条件做出新的博弈决策,导致扭曲了很多东西,这是我们现在面对的这样一个“算法霸权”的局面。
这个局面当然是不公平的,当然这个时候我们也有可能迈向一个新的公平,我自己提出了一个想法,就是“算法制衡”,这个想法在我的《算法规则的谱系》一文里面有提及过,但是还没来得及展开,我将来有可能从事这个主题的进一步研究。因为刚才很多老师也说传统的决策和秩序,可能更加不公平,更加低效或者更加残酷,单纯靠人、靠经验、靠猜测的这么一种决策,可能是有更多问题的。但是我们现在新的决策方式、新的判断方式起来了之后,我们要寻求一个新的平衡点、一个新的秩序。传统的决策秩序虽然不公平、低效或残酷,但是它被很多人接受了,慢慢我们适应了这个秩序,发展出了稳定的博弈策略,并赋予它很多正当性,我们在这里面就形成了一个多多少少过得去的博弈均衡局面。我们要在新的“算法时代”里面形成新的均衡解和平衡点,并且探索一种新的合理的秩序框架。
这里面就带来一个新的问题,最关键的是制衡力量怎么形成、传统的均衡局面如何回归?传统的决策秩序之所以最后会接受,除了部分人无奈接受一部分不公平之外,更多的可能是依托于一种制衡力量,让每一个人在里面各得其所,因为我有制衡你的东西,有预期,就可以一定程度上趋利避害。随着数学杀伤性武器和算法霸权的出现,制衡力量被打破,我们就要追求制衡力量的回归,这可能是总体的思路。原来我在思考这种问题上,觉得制衡力量回归要依靠算法规制的整个谱系,包括像算法解释、算法审查、算法认证、必要性措施、算法验证等各种各样的东西来迫使算法的使用者满足一系列的义务,并且尊重参与主体,或者是用户加社会公众的各种各样的权利,但是这样一种局面,我慢慢意识到可能还是不足以回归一个制衡的状态。
有一个新的维度需要被打开,这本书里面也触碰到了这个维度,但是没有真正彻底揭示这个维度,我觉得是很有必要的,那就是各种各样的人,特别是各种各样的弱势群体,对算力、算法、数据、知识还有新型基础设施等需要充分的接触和入口,要强调新型基础设施使用的便利性、数据的开放、算力池的公共化、算法的开源、知识社区的建设、数据的共享和开放,还有鼓励防御型软件的提供或者鼓励社会的自我防御,鼓励企业和社会组织为保护用户和公众的权利进行更多的工作和努力。这样一些事情可能对于走向算法制衡、对于回归一种新的均衡局面,可能也是必不可少的。在我们反思数学杀伤性武器和算法霸权的情况下,应当更多地思考怎么样能够使数字、数学、算法、算力背后的各种各样的群体,能够回归知识、信息和行动力方面的平衡和均衡。这是我个人一点思考,谢谢大家。
直播回看方式
微信长按识别上方二维码
回复【算法霸权】即可回看本次精彩直播
欢迎关注周泰,欢迎点“赞”和“在看”