查看原文
其他

商建刚|算法决策损害责任构成的要件分析

商建刚 上海市法学会 东方法学 2023-12-16

商建刚
海政经济副教授

要目

一、问题的提出二、算法决策系统性瑕疵的危害三、算法决策控制者的主观过错分析
四、算法决策控制者的责任来源分析
五、算法决策损害的因果关系分析
六、算法决策损害的归责类型分析结语

算法决策的高速发展与其模糊的归责机制和相对后滞的裁判标准间形成了巨大鸿沟。算法黑箱理论认为,算法决策者无需对算法决策造成的损害承担法律责任。客观上,算法决策内部的构建和自学习的缺陷会造成相对人直接损害,算法决策系统受到外部偏差数据的影响会造成相对人间接损害。主观上,算法决策控制者对决策目标先决已定、决策进程可干预以及逃逸风险可度量。算法决策控制者通过算法应用场景与手段限制、数据与算法系统自身适恰性保障等手段可有效地介入算法决策过程,进而有能力避免损害后果的发生。算法“解释权”理论无法消除算法决策的“非知”,应在尊重算法决策“非知”的基础上赋予算法决策控制者作为产品提供者法律责任。

算法决策损害的归责机制是大数据算法系统设计必须解决的问题。在近几年大数据杀熟案中,法院认定原告应对其多支付的费用与算法损害之间存在因果关系承担举证责任,作为普通消费者决然无法与“数据利维坦”对抗,此类原告的诉讼请求被驳回,意味着算法相对人的合法权益被置于虚位。算法决策的“非知”具有正面价值,以所谓“解释权”理论解决算法决策的“非知”不但在技术上不现实,从规制角度看也并无必要。技术上看,算法的可控制性与算法的自身适应性成反比。更功能化的设计意味着算法存在更多的变量,即效率越高的算法对算法系统的控制力就越弱。从规制的角度而言,算法可控性与投入正相关。控制算法决策进行的算法审计与认证所需付出的成本可能和算法设计不相上下,这对于中小企业而言是不可承受的。总体而言,技术创新类似于立法行为,任何技术研发都意在建立以特定形式将技术体系嵌入社会契约的模式,赋予契约各方的权利义务必须符合技术与社会现实。
一、问题的提出
算法决策已渗透到人们日常生活的各个领域。算法不仅用于对人进行客观描述,如推测人的兴好、犯罪倾向、财务状况、社会关系、工作能力等,也被用于新冠肺炎公共健康应对、自动驾驶、虚假息传播应对、图像识别、医疗服务、人员雇佣、互联网搜索、在线广告推送、产品推荐、阅读内容推荐、贷款资格审查、恐怖分子筛选等领域。毫无疑问,算法决策时代已降临。算法决策对政治、经济、文化以及知带来的深刻影响将重塑个体行为模式与社会经济发展模式。算法决策具有其正面价值,然而算法决策错误也常见诸报端,其负效应引发的伤害也不容小觑。人们希望建立可信算法,算法和数据治的终极目的是建立一套“负责任”的数据和算法体系。如何应对算法决策的负效应,解决算法系统可能带来的潜在社会危害风险,是算法决策可持续运用的先决问题。
近期的算法推荐侵权纠纷案中,原告捷成华视网聚(北京)文化传媒有限公司(以下简称捷成华视公司)诉被告广州荔支网络技术有限公司(以下简称荔支公司)侵害《港囧》《美人鱼》等影片作品信息网络传播权。审理此案的北京知识产权法院认为,被告荔支公司具有充分的条件、能力,应当知道其用户实施了涉案侵权行为。荔支公司在本案中提供了信息流推荐服务,可能提高侵权传播效率、扩大侵权传播范围的风险,理应对用户的侵权行为负有更高的注意义务,但其未尽到合理的注意义务和管理义务。据此,法院认定荔支公司的涉案行为构成帮助侵权,并判定赔偿原告捷成华视公司经济损失及合理开支。然而,为什么荔支公司要对算法推荐服务承担法律责任,归责原则是什么,责任类型是什么,判决书均未进行具体说理。现有法律规范应对算法决策的归责机制、法律标准与技术发展并不协调。国内学者主要从“算法解释”“算法透明”“算法平衡”三个角度进行分析,认为必须加强对算法决策的管理甚至建立新机制,以解决算法决策带来的黑箱问题,并未深入探讨以现有制度规制算法决策的进路。算法决策“黑箱”已然成为算法决策控制者逃避法律责任的主要托词。为此,本文尝试对算法决策损害的归责模型进行系统分析。
二、算法决策系统性瑕疵的危害
算法决策系统并不能真正理解并完全刻画真实世界,无法像人一样融于世界之中。“算法依赖于可以符号化且具有确定含义的概念,现实世界的复杂性在符号中被高度简化,算法也忽略概念的模糊性,生活经过逻辑和符号处理后,与真实的场景可能相去甚远”。与传统的静态自动化理论不同,算法决策系统并不是机械地执行任务,而是在运行过程中会被外部的数据影响,因内部的自适应学习调节而变动。这就导致算法决策系统无法对真实世界作出完整反应,由于难以避免的内在与外在的系统陷,造成算法决策损害。一方面,由于被外部世界偏差数据不断修正,训练出的算法模型本身就带有偏见、视和指向性;另一方面,算法决策具有自适应性和鲁棒性,在运行中不断进行学习、修正、强化并优化结果,可能会脱离算法控制者的初始意图进行决策,且不易被实时检测和察觉。因此,在算决策被广泛使用的当下,算法决策系统比任何时候都更能影响人们的生活。算法在不同的使用场景下会形成不同的算法权力形式,如算法操纵、算法合格权威、算法合法权威等。算法决策系的瑕疵会导致该系统脱离法律的有效监管,以不易察觉的方式对用户等相关人造成损害并最终反噬算控制者,进一步影响社会运行。
算法决策可能对人类的决策带来损害。深度学习依靠算法模型识别大量数据并汇总分析的模式,产出了人类难以发现且不能完全理解的“算术”。算法基于标准化的决策机制,增加了决策效率与客观性,强大之处在于能从海量数据中发现相关性,对新信息和数据进行分类或执行全新任务。研究发现,算法在诊断乳腺癌、皮肤病方面的表现优于医生,基于算法的医疗设备可以精准发现脑瘤的位置,通过算法能快捷发现药品新用途。然而,算法决策的负效应也很明显。医疗领域的算法决策错误可能导致医疗过错,给病人的生命、健康带来伤害。在预测未来犯罪可能性方面,算法系统自带种族偏见,对没有犯罪记录的黑人标识其未来罪犯的概率高于白人两倍,可能错误关押当事人带来人身自由的损害。所以,算法决策瑕疵可能会让盲目“听命”于算法的人类决策出错,进而带来损害。
算法决策可能对社会信任体系带来损害。算法决策的本质是自我编程,我们仍不能理解算法决策的过程,无法以人类的方式理解其决策结果。易言之,算法决策并不会揭示事物的因果机制,其仅仅是数据关联的引擎,也即算法决策的“知识债务”问题。这意味着即使是算法设计者也不能真正搞清楚算法会产生什么结果及人类将如何运用。例如,深度伪造并不是为了“换脸”而发明的,最初的在于通过音频合成相应的口型。但随着技术发展,逐渐被使用于伪装他人的形象、声音等方面。若将这种技术运用于一国元首发布战争动员或紧急行动,将给社会带来致命后果。在web3.0时代,人们通过去中心化的网络与市场进行交流,以点赞、评论等为工具的群体化反应成为信任的基础。深度伪造技术滥用会导致社会真实信息传导偏差,久而久之,即使公众面对真实信息也不会轻易相信。算法产生的虚假信息导致群体反应的过度化,从而引发信任崩溃,损害人们的社会参与。
算法决策所引发的损害包括系统性间接经济伤害与个体直接经济伤害。随着更复杂算法的广泛使用、更大规模数据被收集,市场已超越对个体数据的交易,朝着萃取集体数据价值的方向发展。对集体数据的不当利用将导致某些群体受到系统性伤害,因系统性伤害具有普遍性、算法外在不可感知性,受害人往往难以察觉其受到的伤害,很多受害者并不知晓其被算法歧视。如在商业方面,算法决策可用于自动检测和响应竞争对手的价格偏差,或使用相同的算法系统来设定价格,通过竞争企业间的背后联盟抬高市场定价,增强寡头企业的垄断,打击正常的市场竞争,让消费者花更多的钱得到更少的服务。此外,社会边缘群体所受的偏见、歧视、压制、仇视言论等都属于系统性伤害。这会对社会整体利益造成损害,引发社会整体信任危机。算法决策还可能对个体造成包括人身、财产、可得利益损失等方面的损害。比如,优步自动驾驶汽车的算法决策系统没能识别行人乱穿马路导致行人被撞身亡;无人机错误识别导致平民伤亡等对人身、财产造成损害;基于算法的错误决策导致工作机会丧失、没有获得应获得的社会救济;信贷资格、减刑或假释机会等预期利益丧失。
算法决策可能造成人格利益受损。算法对个人隐私数据的非法利用侵犯了当事人的隐私权,对数据主体的其他数据利用侵犯了当事人的数据自决权。算法对个人数据的非法利用包括隐性利用与显性利用。显性利用是直接使用数据主体数据获利并对数据主体造成损害,比如人脸识别将人识别为动物、深度造假的复仇式色情、将正常人识别为恐怖分子、信用状况评价算法错误影响企业与个人的信用和声誉等会对当事人人格利益直接带来损害。隐性利用则是利用数据主体的数据给第三人造成损害。例如,基于婚恋网站公开照片的算法系统未经允许对当事人性取向进行画像,这直接对数据主体造成了伤害,但被错误画像的第三人受到的损害可能更为严重。
三、算法决策控制者的主观过错分析
算法程序包括:建立目标模型、对模型进行编码、收集数据输入、训练算法、输出结果并分析。算法结果取决于所为之事、设计者立场以及目标何为、算法在实践中如何运行、用户如何与之互动以及对输入大数据的使用等。从程序及结果产出来看,算法决策非常复杂,存在着“未知”因素,黑箱化和失控的风险会不断增大。“算法透明”与“算法黑箱”是数据驱动社会的一对根本矛盾。处理算法风险时,我们必须关注潜在的成本与收益。算法决策效率的提高需要源源不断的大量数据,可能侵犯消费者权益,但完全禁止信息流转会造成消费者便利减少,对于消费者而言也是净损失。因而,需要建立平衡社会公众利益与算法决策效益的有效机制。算法决策不仅在客观上存在系统缺陷的事实,其控制者更需在主观上对决策目标、决策进程、逃逸风险具有预见性。
算法决策目标可知
算法决策控制者基于自身对世界的认知来构建算法决策步骤,是对过去世界以及对自我认知世界的模型化处理。算法自我不能从零建立规制内容,必须由人定义目标、命令以及嵌入机器学习系统可能选择的最优规则,以达到建立适恰算法的目的。算法结果取决于对分析边界的定义,选择从何处设定边界将影响哪些要素在算法中得以考虑,哪些要素被忽略,进而限定算法运行结果。比如,“如果……那么”是算法决策的基本规则。算法决策控制者对“如果”的选择体现了其对世界的感性认知,对“那么”的选择则体现了其对决策目标的价值追求。在人员招聘算法决策系统中,如果算法设计为“如果候选人文身,那么候选人不合格”,该算法就体现出该算法设计者对文身群体的偏见。在自动驾驶系统中,设计的算法是“如果外来风险可能对行人与乘客同时产生损害,那么车内乘客利益优先”,这意味着算法决策控制者对行人可能受到的损害采取放任态度。也就是说,在任何算法决策系统中,算法决策控制者对算法决策所达成的预期目标都具有清晰的设定。
算法决策进程可知
算法决策控制者对算法自身的可控性存在明确的认知。算法决策控制者一般根据问题目标与类型进行算法选择。如果算法问题的结果已呈现在数据中,或可以从数据中发现结果的特征,控制者一般采用监督习。监督学习算法控制力较强,该算法以标签化的数据作为学习基础,可以把控数据选择过程,对见具有更多的控制能力,体现控制者对结果可控性的关注。如果目标是对输入数据进行聚类,从未签的数据中获取推论,控制者一般采用非监督学习。非监督学习算法控制力较弱或无控制力,该算法通过动挖掘数据进行算法学习,算法可能学习到瑕疵数据从而形成瑕疵算法,体现控制者对输出果的放任。在算法设计过程中,若控制者选择采取简单、较少的变量作为数据样本,则可能导致系将某一高度个性化特征定性为整体特征,引发高偏见问题。而采取过于复杂、庞大的变量虽会降低见,但会产生将看似正确却无用的关系纳入预测范畴的情况,引发过度拟合问题。采取低偏见还是高偏见的模型进行预测也体现了算法决策控制者的选择。所以,算法控制者通过算法选择,控制了算法决策进程。
算法逃逸风险可知
基于自我学习性、自适应性,算法决策也面临算法逃逸风险。算法逃逸是算法决策系统普遍存在的现象,是指算法运行脱离了设计者的预设目标,产生了预料之外的结果。传统的计算机信息系统是基本封闭的,体现在信息存储、处理与传输系统是静态的,更多关注知识的处理与获得,其安全风险相对可控。而现今的算法决策系统不再是封闭的自给自足的信息传播系统,是一个开放的自适应系统。同相对封闭的传统信息传播与获取系统相比,算法决策系统更易受到外部因素的影响与控制,从而产生算法逃逸现象。算法逃逸一般源于两方面的因素:一是算法自身优化不足。例如,足球比赛转播算法系统将裁判的光头识别为足球。二是外界的对抗干扰。算法决策系统中的学习系统已成为计算机信息系统安全链环节中最薄弱的环节。几乎所有算法在将简单、易于解释的逻辑回归到复杂的深度神经网络过程中,都可能遭受对抗算法攻击。在对抗性攻击面前,算法决策系统呈现出出乎意料的脆弱性。比如,以人类几乎难以察觉的扰动对图像识别系统进行攻击,将导致神经网络分类器完全改变预测结果,会将缺陷误识别为正常。对此,有学者指出,既然微软设定了聊天机器人有从用户反馈中学习的能力,理应知晓该聊天机器人存在被操控而产生种族歧视言论的危险。所以,算法决策系统控制者明确可知其算法决策系统可能脱离掌控,产生难以预料的结果,进而侵权。
综上所述,在算法决策系统中,控制者对算法决策的考量体现了其对技术工具价值、技术工具所欲达成的目标、具体运用场景中的负效应具有明确的认知。联合国颁布的《商业与人权指导性原则》明确要求,算法系统使用者(公司)必须阻止、减少其服务对人权的负面影响,对损害人权的行为有义务采取修补措施。国家互联网信息办公室《互联网信息服务深度合成管理规定(征求意见稿)》第7条第12款也明确了深度合成服务提供者的主体责任。所以,如果明知算法决策系统存在安全风险且可能引发对相对人的损害,却放任损害的发生,那么算法决策系统控制者就需要承担相关的法律责任。
四、算法决策控制者的责任来源分析
人类组织是一个社会技术系统,算法决策只是嵌入其中的一个环节。过于高估算法决策力量是对介入行为的估。在何种环境下使用算法决策、使用何种算法决策系统以及如何使用算法决策结果都体现了控制者的干预与认知。算法系统自身不能理解世界,需由控制者设定使用背景以及使用方式。仅仅关注算法技术本身,而忽视人在社会技术系统中的作用,会引发归责模型的偏差与错误。人脸识别的应用就是这方面的典型事例。人脸识别技术本身是中立的技术,然而将该技术运于具体的决策场景就不能纯粹从技术角度来理解其价值与作用,必须放在具体的社会技术系统中。在容错机制较为宽松的领域,如金融支付等领域利用人脸识别算法决策还具有一定程度的正当性。但在明人脸识别算法错误率高企的情况下,将人脸识别运用于执法领域等敏感领域,是对算法决策致损的放任,可能造成人权和财产的双重损害。同样,健康码本身是中立的算法决策系统,而健康码策系统控制者如果以此作为人员流动的唯一参考,意味着控制者放任边缘群体自由流动的权利受到损害。总之,任何决策都不是单一要素而是系统化的信息处理过程,算法决策控制者对算法结果不致人损害负有法定的义务
算法决策的合法性义务
首先,算法目的合法性义务是算法决策控制者必须承担的基于法律明确规定的义务。任何算法决策系统自身必须满足合法性要求,算法决策控制者不能利用违法算法获取非法利益。任何以攻击他人系统、欺骗、假冒、获取不正当竞争优势、引发极端思潮的算法决策系统都应被严格禁止。比如,电子商务经营者使用杀熟算法损害消费者利益的行为违反了消费者权益保护法的规定。其次,算法决策控制者也不能将合法算法用于非法目的,更不能故意将偏见算法运用于决策。以生产色情影片为目的,实施技术中立的深度合成技术,违反关于淫秽物品管理的规定。将歧视女性或以精神治疗记录作为考量因素等算法运用于招聘决策,损害劳动者的平等就业权。再次,应尊重数据主体的知情同意义务。欧盟《通用数据保护条例》第22条明确限制对数据主体的自动化决策,该条赋予数据主体以“拒绝”应对包括识别性数据分析行为在内的算法自动化决策机制所提供服务的权利,明确数据主体的明示同意成为算法自动化决策的合法性基础;同时规定自动化处理的最低限度合规要求是“提供人工干预与提出质疑的权利”。我国的个人信息保护法也明确要规定个人有权拒绝个人信息处理者仅通过自动化决策的方式作出决定。最后,算法决策系统安全是算法决策系统运用的前提。算法决策控制者必须确保系统的安全性,通过各种方式避免系统所引发的安全风险。美国将系统安全作为AI规制最优先考虑因素。欧盟在其值得信赖的AI行动方案中也提出AI系统的弹性与安全性要求,建立应对安全的非强制性检查清单。我国网络安全法也明确要求网络产品与服务提供者承担网络安全保护义务。民法典规定利用网络侵害他人民事权益的,应当承担侵权责任。算法决策系统作为一种特殊的计算机信息网络系统,其决策所引发的安全风险侵害他人权益的,理应承担侵权法上的责任。
数据的适恰性义务
算法决策模型由识别、关联与决策等几个部分组成。识别是对数据本身的认知,关联是发现数据素中存在的相关性,而决策是基于模型对输入数据的反馈。完整、无误的数据是正确决策的前提。如果使用受到污染的数据,或是收集的数据本身存在瑕疵,其决策结果一定会出现偏差,甚至是错误的。首先,算法决策系统控制者有义务使用完整、干净、无缺陷数据进行决策。算法决策控制须确保收集训练数据的完整性与代表性,确保数据真实、完整反映社会现实状况,应当加强训练数据管理,确保数据处理合法、正当。其次,必须对偏见数据进行清洗。数据清洗能在一定程度上克服据本身的瑕疵与偏见,从而确保依据数据决策结果的公正性。再次,必须尽可能采用人工方式对练数据进行正确标签与归类。利用算法对数据进行自主标签与归类虽然可以节约成本,但可能引发标签、归类错误并导致决策结果出错。算法决策系统控制者为保证结果的正确性,特别是在一些感的应用领域采用人工方式进行标注、归类是现阶段遏制错误决策的最有效方式。最后,任何训练数据都有其具体的应用场景,并不存在适用一切领域的通用数据。训练数据的应用场景应与其收目的相契合。未定义收集目的的训练数据不应当在实践中应用,否则会产生错误或不准确决策。因在于任何算法都基于特定目的设计,基于特定目的算法必须基于特定特征的数据进行训练。而,算法决策控制者有义务确保数据适恰,并且基于特定目的收集的数据将算法决策应用于特定场景。
算法系统与运用的适当性义务
算法决策是一种对活生生的人进行物化的过程。算法设计正义要求设计理念、设计模型必须关注社会公平、考虑弱势群体的利益,而不能仅仅是关注算法优化,如在商业领域进行“杀熟”就有违算法设计正义。首先,针对敏感领域,算法应透明并便于推理。如涉及人身与财产保护、人格权保护等领域,应要求数据、模型以及使用保持透明,从而确保算法系统所作出的决策符合法律法规,个人在算法适用过程中可以理解算法系统的推理。也就是说,在敏感领域,算法控制者必须选择可理解算法。其次,控制者应减少算法决策系统的偏见。偏见可存在于输入、训练、程序设计等多个环节,如源数据可能缺少特定种类信息而存在偏见、对基准数据的归类过程中出现的偏见、深度算法学习在与用户互动过程中修订或纳入新信息所产生的偏见。算法决策控制者应当减少偏见的产生,若基于自身对某一群体的偏见,在算法设计程序中加入不必要的条件使得某一群体被排除于算法决策系统之外,也是违背设计正义的。最后,将算法决策系统运用于具体场景时,算法决策控制者有义务进行算法认证。为了保证对算法权力的全方位监督,应支持学术性组织和非营利机构的适当介入,加强第三方监管力量。美国国会所草拟的算法问责法案强制要求企业对算法系统偏见进行审计与认证。UNI Global Union认为,算法决定与结果的透明,要求个人有权利对算法的决定进行复核,并接受人工审查。欧盟宪章要求AI的司法系统需包括人工审核过程。在德国已出现由技术专家和资深媒体人牵头成立的名为“监控算法”的非营利组织,宗旨是评估并监控影响公共生活的算法决策过程。算法认证的另一个工具是算法测试与审计。算法认证不需要理解算法黑箱。也就是说,并不需要知晓算法代码及其程序设计,可以通过算法的反推解释,对算法进行测试。算法测试与审计是发现算法偏见的有力工具。算法反推解释或审计并非易事。当然,如果开放算法的源代码、程序员的设计思路等将更有助于理解算法并找到可能存在的偏见。另外,算法决策控制者需对敏感领域的决策结果进行审查。对于非即时运用的算法结果,特别是敏感领域的算法决策结果,算法决策控制者不能听任由算法进行决策并将决策结果运用于实践。一旦涉及第三方的重大利益,算法决策控制者必须对这些结果的公开与使用进行事后的审核,或者必须建立算法偏差纠正机制。对于涉及公共健康应对的近邻算法与位置算法机制,由于涉及公民自由的限制与公共健康的维护,必须进行事后的人工复核,而确保能避免错误结果。
即便赋予算法决策的合法性义务、数据的适恰性义务、算法系统与运用的适当性义务,然而并非任何领域都适合引入量化算法。无论多复杂的机器学习算法,仅仅能处理单一目标问题,在某个领域适宜的算法决策可能并不能适合于其他领域。比如,用于识别物体的算法不能用于下棋。可以说,算法运用领域与目标是算法决策系统控制者选择的结果。事实上,算法决策是基于对世界的量化认知进行的量化决策。比如,将算法运用于面相识别用以区分罪犯与非罪犯,建立罪犯的“通常面孔”无疑是典型的“以貌取人”。伦敦城市警察使用人脸识别算法系统所标识的嫌疑人,81%都是无辜者。此外,在线考试中通过测试者眼球运动以评断学生是否作弊的算法、通过面部分析性倾向与智商水平的算法、预测人感情的算法、通过面孔分析抑郁状况的算法等也不合时宜。事实上,我们对世界的认知更多是直觉感知而不是数字化量化,将算法系统强制运用不适于应用数字化评价的领域缺乏正当性。如果明知某种算法的非精确度达98%仍然使用并给他人造成损害,使用者不能逃避其主观过失。
五、算法决策损害的因果关系分析
一些学者或第三方机构尝试对算法进行认证以探明算法如何运作。然而,算法认证是事后解释算法,不是厘清算法运行过程中的各种因果关联。事实上,算法系统通过一些事件去关联另一些事件,这是现象层面的相关性规律而非内核逻辑理性的因果关系。算法决策系统在内被自我学习和修正强化导致其不可控制,在外被偏差数据修正导致其越学越错,这样的算法决策特征导致的系统缺陷对人类决策、社会信任体系、系统性目标与个体目标、当事人隐私权和当事人数据自决权等造成大量且无法估计的损害。与此同时,算法决策控制者主观上对决策目标先决已定、决策进程可干预、以及逃逸风险可知。具体而言,算法决策控制者、算法决策、算法决策损害之间存在“主体、行为、损害后果”的直接因果关系。
数据瑕疵间接导致算法损害
数据是算法运行的基础,也是响应算法决策结果的决定性因素,通过算法对数据集展开分析,进而建立相关模型进行决策是算法决策的基本路径。算法决策效果与目标变量、类别变量、训练数据标签、训练数据收集、特征选择以及代理等因素相关。没有大数据支撑,算法不可能进行深度学习,从而建立有效的决策模型。算法决策控制者未尽义务,则会造成数据瑕疵。数据瑕疵包括数据不准确不合时宜。不准确数据主要是因果关系逻辑推理错误,不合时宜的数据是将不应考量的数据纳入分析范畴。数据瑕疵体现在:
一是数据固有瑕疵。数据的价值在于通过对数据理解、分析,发现更优、更快以及更普适的算法。算法于杂乱无序中提炼了可利用与标准化的事实要素,这种描述方式嵌入了社会对事实的某种认知。如果现存认知本身就存在偏差与错误,那么对现存事实与问题的数据化处理无疑也嵌入了某种固有偏差与错误。数据的固有偏差与错误源于社会的结构性歧视,导致算法据此建立的模型缺乏公正的基础。譬如,IB成绩预测算法中差学生和受教师偏见的群体数据、美团学习算法中外卖骑手的错误反馈数据等均会对这些群体的权益造成损害。
二是数据处理和收集瑕疵。完整、真实数据是算法学习的前提。残缺、有误差、重复数据必然导致机器学习错误理解特征之间的关系或模式进而建立错误模型,将该模型用于预测或决策必然引发错误结果。数据收集瑕疵主要源于不准确的收集方法,从而导致数据对现实描述存在错误。对人脸识别算法的研究表明,训练数据集所包含的图片不完整,如妇女样本严重不足将导致算法中对妇女的识别偏差。根据该研究,对于浅色皮肤的男性其错误率仅为0.8%,而对深色皮肤的女性的错误率高达34.7%。
三是数据集标注与归类瑕疵。机器学习算法通过被标签的训练数据集建立变量之间相关性模型。被标签的对象体现了标注者对客观世界的感知。信息归类是对现实世界强大的语义与政治化干预。如何分类?什么东西应归入该类别?谁来决定实践中如何实施这些分类?这些都是对事物状况与应然情况的力断言。正是因为有人的参与,以数据标注与归类为基石的数据决策才会产生偏差,造成侵害。
算法模型缺陷直接导致损害结果
除了偏差数据造成的间接损害外,对数据进行分析、处理与运用的算法系统缺陷是算法决策系统损害发生的直接原因。算法控制者自身理念受社会支配矩阵影响与制约,控制者所作的算法模型看似公正、进步,但本质上仍是反映、复制现实世界的不平等。为谋取算法决策利益的最大化,算法控制者总是假设其用户是健康的、有相关能力的、处于中产阶级等。算法瑕疵包括:
一是算法设计理念瑕疵。若算法控制者故意偏离或违背现行法律、社会规范约束设计算法,会造成无法预估的社会危机。比如,算法设计者设计无差别、违反比例原则的武器攻击系统等反人类行为。所以,算法控制者必须坚持设计正义,遵从法律、伦理与社会规范要求,在现行法律、社会规范的框架内选择最优算法,并排除一些并不适合运用算法决策的场景。比如,关键的政治决定或可能引发严重后果的领域显然不宜运用算法决策。多因素介入的场合也不适用算法决策。HireVue算法将2.5万名应聘者的皱眉、扬眉、开眼幅度、嘴唇紧闭、下巴上升以及微笑等人脸信息与语调、被动词或主动词使用、句子长度以及表达速度等语言信息建立招聘算法模型,运用于预测跳槽、作弊、国际预科项目成绩等。事实上,是否存在跳槽、作弊,可能更多是随机因素等非客观要素影响所致,而应聘者是否合格、是否可以进入大学等受客观条件影响,基本不存在数字化决策空间。算法工具降低弱势群体与边缘群体的福利,不当损害这些群体的利益,有违设计正义时也不应适用。
二是算法模型设计瑕疵。算法的客观化、内部化与普世化所采取的形式主义方法将可能排除对其他关键信息考量,特别是个性化信息的考量。乔丹·埃伦伯格在《魔鬼数学》中指出,对约会对象的选择取决于两个因素:魅力与个性,你不会同个性差又没有魅力的人约会。也就是说,你删掉了所有的“负-负”结果。这种筛选造成魅力与个性的伪相关关系。在一份甲状腺疾病的研究报告中没有考虑年龄这一因素,因此认为吸烟者的存活率76%比不吸烟者存活率69%高且平均多出20年,这一可疑结论无疑将加剧吸烟对甲状腺患者的损害。此外,有研究者在考虑了经济状况因素后出经济状况不佳者不适宜接受器官移植的结论,这将导致经济弱势群体的利益受到严重损害。算法对现实世的内化受限于分析框架,分析框架受制于设计者的目标选择,过少或过多的考量都无法设计出恰到处的算法模型。人类可能永远无法设计出完美的算法模型。例如,在客户信用评价算法中,设者注重利润率最大化还是还贷数量要素将导致机器学习建立不同的分析模型进而影响算法结果。算法适恰性要求设计者优先考虑获利与算法益处,而算法普适性倾向则会降低计算机科学家对算法适恰性的整体评价
三是算法安全保障不足。算法系统安全是算法得以商业运营的前提。近几年来,算法决策系统泄漏当事人隐私与个人信息的情况屡见报端,为避免对第三方造成安全风险,就要承担对第三方的安全保障义务,此义务是指算法设计时必须将第三方的安全保障放在最优先地位。在具体运用中,必须确保第三方的隐私安全、数据安全、人身安全、财产安全等。当存在安全优先级冲突时,算法决策系统必须以一种损害最小化目标决定决策结果。在优步自动驾驶汽车致人死亡案件中,美国国家运输安全委员会就认为优步算法不符合安全风险评估程序是死亡发生的原因之一。美国将系统安全作为AI规制最优先考虑因素。欧盟在其值得信赖的AI行动方案中也提出AI系统的弹性与安全性要求,建立应对安全的非强制性检查清单。算法决策系统的安全包含系统自身安全以及系统不会对第三方造成安全风险。所谓系统自身安全是指算法自身不存在明显的安全漏洞,如易于泄露用户隐私与数据,易于受到黑客攻击,易于受到对抗算法干扰等。为避免算法安全隐患,算法设计者除了考虑算法的表现维度外,还需考虑算法的安全特性,必须开发应对潜在对抗算法的合理威胁模型。
四是算法误导。有研究者在图像识别算法中增加了不易察觉的向量,导致系统将大熊猫识别为长臂猿。现代社会,对同一事物的影响因素不断叠加再生,机器学习算法基于用户反馈产生新模型进而生成新决策,用户反馈作为算法样本所具有的误导特性会增加算法的适应难度。对抗样本算法则反映了机器学习魔法般预测力的阴暗面,对人类来说无意义的细微改变,也可能引发归类错误率的极大提升,对算法的误导是人类难以识别、理解与控制的。计算与理解之间的鸿沟引发深度学习在社会领域应用的错误与偏见,对算法分类机制的无知可能带来错误结果。例如,攻击者可以操纵无人驾驶系统的识别算法系统,错误识别“停止”标志从而引发无人驾驶的致命混乱。
综上所述,算法以客观标准化数据作为分析对象,通过数据分析来反馈社会的现实状况。然而,任何社会形态都不是标准化的静态过程,而是处于不断变化的个性化动态发展。算法决策控制者以客观化、标准化的数据来决策动态化、个性化的社会现实可能引发算法结果的假阳性与假阴性。这种假阳性与假阴性既可能由设计者设计偏差与错误引发,也可能由于机器学习建立的算法模型不可知导致该模型输出的结果存在偏差与错误。假阳性意味着对错误的肯定,而假阴性是对正确的否定,均会导致损害后果的产生。算法决策控制者控制着算法决策的基础,即数据。如果算法决策控制者无法及时调整社会性偏差或错误,确保数据完整无误,客观地对数据进行标注和分类;那么就会产生瑕疵数据,甚至放任瑕疵数据进入系统,此时,会先后形成数据来源瑕疵、算法瑕疵、系统瑕疵。算法决策控制者还需要保证算法系统设计理念、算法模型、算法安全,避免算法误导。总之,算法决策控制者与算法决致损之间存在因果关系,算法控制者的疏忽大意甚至是故意,会造成算法决策损害。
六、算法决策损害的归责类型分析
欧盟通用数据保护条例赋予数据主体获取相关自主算法决定解释的权利。如何理解算法的可解释性存在不同看法。机器学习算法包括使用黑箱并在事后进行解释的可理解算法以及不使用黑箱模型的可解释算法。可理解算法是指构建新模型解释黑箱模型,可解释算法是指模型自身具备解释功能。事实上,对数据进行预处理后这两种解释方法在表现上并无重大区别。在很多情况下,选择可理解还是可解释算法所引发的决策结果并无差异。然而,正如对抗样本所显示的那样,这些解释方法并不能保证对算法数学意义上的解释对人类具有同样的解释力。事实上,对算法的事后理解与解释经常是无意义的,并不能充分解释理解数据黑箱。
基于不同的司法制度,我国的民事诉讼程序中缺乏证据发现机制,因此算法解释权理论在我国司法实践中并不能取得预期的司法效果。通过对至目前为止为数不多的大数据杀熟案件分析发现,法院并未要求被告解释算法,相反赋予原告过高的举证义务。在上文所述的刘权被大数据杀熟一案中,刘权通过美团外卖平台向商家购买了三明治套餐一份,同日不同时间段,另一美团注册用户通过上述平台向同一商家订购了同样的套餐一份,收货地址相同。两者下单时间仅仅间隔13分钟,然而外卖平台收取的配送费比原告少1元。原告刘权认为,美团外卖平台对其多收取的1元钱配送费是“大数据熟杀”区别定价所致。审理该案的湖南省长沙市中级人民法院认为,根据最高人民法院《关于适用〈中华人民共和国民事诉讼法〉的解释》第90条的规定:“当事人对自己提出的诉讼请求所依据的事实或者反驳对方诉讼请求所依据的事实,应当提供证据加以证明,但法律另有规定的除外。在作出判决前,当事人未能提供证据或者证据不足以证明其事实主张的,由负有举证证明责任的当事人承担不利的后果。”原告刘权应当对被告价格欺诈的行为负举证责任。但由于原告刘权没有提供证据证明多收1元配送费是利用大数据区别定价所致,因此驳回了他的主张。本案法院将举证责任安排给原告,而原告明显缺乏举证能力。第一,原告不具有相应的算法知识,对算法的建立和运作原理并无专业的认知,不具有举证的认识能力。第二,原告没有有效的途径搜集、整合证据,作为算法控制者的平台掌握着所有的证据,原告在客观上不具有举证的可能性。但即使将举证责任倒置,也无法解决问题。若令被告负举证责任,那么被告需要进行算法解释,然而黑箱理论可以成为被告逃避责罚的有利证据。显然,算法解释权理论不能用于解决中国问题。民法典的颁布为解决算法决策侵权问题提供了新思路,应从民法典寻找理论依据和制度支持。
一般侵权责任条款不适用于算法决策损害
我国民法典第1165条规定了一般侵权责任原则,行为人因过错侵害他人民事权益造成损害的,应当承担侵权责任。在一般侵权责任原则下,证明侵权人存在主观上的过错属于受害方的举证责任范围。由于算法具有黑箱性、不确定性与复杂性,对算法进行系统性解释还是个案性解释、事前解释还是事后解、人工解释还是机器解释,都存在解释争议与适用困境。有学者提出,要从算法解释权的原理出发,重新建构算法解释权制度。然而,基于一般侵权责任条款原理的算法解释权理论无法移植进入我国司法体系,无法解决中国算法决策损害问题。首先,算法属于算法控制者的核心技术秘密,供算法将损害算法控制者的技术秘密,要求算法控制者对算法进行解释来规制算法损害在实践中并不可行。算法决策控制者在算法使用过程中会进行系统、数据、模型等选择,每一个选择过程都包含大量的金钱投入和智力选择,解释算法可能会导致这些商业秘密和技术秘密的泄露。在保护企业算法的技术秘密和算法解释权之间,目前的司法案例显示更倾向于保护企业技术秘密。其次,社会公对算法没有识别能力,无法对算法进行认证、审计和鉴定,算法解释权制度难以发挥有效作用。正如上文所举,因为偏差数据没有充分特殊人群的病理特征,导致算法将未生病的病人识别为生病,进而广泛宣传影响公众对某种疾病的认识。显而易见的是,大众没有能力指出因未考虑其他变量导致的算法瑕疵,甚至某种程度上认可了这种错误的算法决策结果。最后,算法解释权是对行为和方法的规制,限制了算法设计的创新自由。进行算法解释是非常困难的,算法决策具有不可知的特,算法决策控制者难以证明其完成了算法决策系统合法、使用适恰数据、适当运用的注意义务。即便算法决策控制者解释了其算法,也难以对算法的适当性进行评估。算法设计具有较高的技术创新性,对创新行为的评估、审计,将会抑制创新动力,限制了算法设计者的创新自由。因此,一般侵权责任条款不适用于算法损害赔偿。
互联网条款不适用算法决策损害
我国民法典第1194条到第1197条规定了网络用户、网络服务提供者利用网络侵害他人民事权益,应当承担侵权责任。民法典规定的网络服务提供者针对链接、存储、搜索服务提供者,尚不包括算法决策控制者。正如本文开篇提及的我国首例算法推荐侵权案,该案被告既提供了信息存储服务,又提供了算法推荐服务。审理该案的法院认为,被告不因其提供信息存储的行为而承担侵权责任,而是因为被告提供了算法推荐服务。可见,法院将信息存储和算法推荐视为两个独立的行为。民法典互联网条款规制的是利用网络实施的侵权行为,在算法决策损害赔偿纠纷中,算法决策控制者利用的是算法以及数据,而非网络。总之,现行的互联网条款不能直接适用算法决策损害。
产品提供者责任条款可适用于算法决策损害
有学者主张构建层级式算法责任框架过于复杂,无法适用于我国的司法实践。由于行为人负有对算法程序的影响评估和合规审计义务以及一定的算法解释和说明义务,违反义务本身即可认定其有过错。民事主体因受“信息茧房”裹挟正在丧失信息获取自主权。我国民法典第1202条规定,因产品存在缺陷造成他人损害的,生产者应当承担侵权责任。算法决策系统可视为电子产品系统,算法决策系统的产生,建立在对决策模型和数据选择的基础上。在大数据时代,产品和服务的边界已模糊,硬件与软件交融。在算法专利申请中,可以将算法模块写成虚拟装置。例如,笔者作为法官时审理的“一种用户词参与智能组词输入的方法及一种输入法系统”专利侵权纠纷案,这种算法可以写成方法专利,也可以写成“输入法系统”的虚拟装置专利。在商标法的语境下,商品可以扩张解释到服务。在国际上,已经出现将产品责任条款适用于算法决策损害之中的声音。欧洲议会在2020年提出关于人工智能民事责任制度的建议,提到“在对《产品责任指令》PLD进行审查之后,‘生产者’的概念应包括制造商、开发人员、程序员、服务提供商以及后端运营商,呼吁欧盟委员会在经过适当评估后考虑在明确界定的案件中,撤销关于新兴数字技术所造成损害的举证责任的规则”,赋予人工智能的产品责任。因此,算法决策系统可以视为算法决策系统的控制者对外提供的产品。损害应当是客观的、法律上的损害,在大数据时代个人隐私和个人权利需要向社会公共福祉进行必要的让渡。
产品责任形式是无过错责任或者过错推定责任。无过错责任和过错推定责任的出现与产品的发展有关。恩格斯称赞罗马法为“商品生产者社会的第一个世界性法律”,早在罗马时期就为保持公平正义而规制生产者不允许出售瑕疵商品。到了近现代社会,美国的威廉·普儒瑟与特雷诺根据公平正义理论建立严格责任制度,减轻了受害者的举证义务。无过错责任和过错推定责任的核心理念是公平正义,在个人权益与社会效益之间取得平衡。现代社会产品生产工艺复杂,比如工业皇冠上的明珠航空发动机,需要三万多个独立零件组装而成,日常生活中的汽车也有一万多个零件,需由各种上下游公司配合完成。在产品致人损害发生时,往往不是因为最后生产者的组装过程存在瑕疵,而是某一由其他公司生产的零部件存在瑕疵,这也是侵权发生后侵权溯因困难的原因所在。对消费者而言,无法跟所有公司签订合同,只能同销售者签订合同。根据合同的相对性,如果出现侵权只能起诉销售者而不能起诉生产者,这对处于弱势地位的消费者而言是相当不利的,所以生产者承担无过错责任是有必要的。同样,算法建立的过程需要多方参与,算法建立后算法决策控制者明显处于强势地位,并且出现侵权难以溯源的问题,不利于消费者维权。基于公平正义原则,应当赋予算法决策控制者无过错产品责任或过错推定责任。我国民事诉讼法缺少证据发现制度。在司法诉讼中,在一方无法举证的情况下,法院扮演着事实查明的大部分职能。为此,受害人只要证明损害与产品之间存在因果关系,而产品提供者则应提供反证来证明产品不存在瑕疵,受害人的损害与产品之间没有因果关系。正如前文所言,算法决策致损可能存在于算法决策的全过程中,无论是瑕疵数据的使用还是瑕疵模型的使用,任何细分环节出现问题都可能导致损害;而且算法数据掌握在对方手中,受害人举证非常困难,所以在算法决策中出现了实质性损害,算法决策系统控制者需要证明损害不是由算法决策系统的瑕疵造成的,法律无需赋予算法决策控制者毫无边界的解释义务。
民法典第1207条规定产品提供者的惩罚性赔偿责任。在算法时代,算法决策控制者必须提高自律能力,如果多次出现侵害消费者利益的现象,算法决策控制者不去介入自己的算法产品,可以视为明知自己的产品存在瑕疵,受害人可以请求惩罚性赔偿。
结语
自启蒙运动以来,“祛魅”成为理性主义勃兴的目标,它将一切神圣驱出私人生活的隐秘幕后,以理性来筹划人类的公共生活。启蒙运动口号“Aude Sapere”就是“敢于认识”“要有去知的勇气和决心”。然而,机器学习算法的“复魅”现象与“祛魅”逆向而行。巴塔耶认为,启蒙运动所高扬的理性与科学就是“谋划”最典型的表现,它们都是为了未来而舍弃当下或者推迟对当下的享有。每次我们放弃求知的意志,我们就会有触及更大强度的世界的可能性。对于巴塔耶而言,“非知”并不是必须消除的东西,而是应该作为丰富的经验予以拥抱。在“复魅”时代,与我们祛魅直觉相反的数据看似不合理,但却非常奏效。算法放弃了原理或因果关系解释,预测的效率却胜过了基于因果关系的诠释。为此,赋予算法的产品提供者责任在“祛魅”与“复魅”之间寻找到合理平衡。在产品责任的法律体系下,针对算法产品使用、算法开发者、算法服务接受者、数据控制者的具体的责任构成要件是需要进一步研究的课题。

往期精彩回顾

《东方法学》2022年第4期目录
《东方法学》2022年第5期目录
《东方法学》2022年第6期目录
杨凯|习近平法治思想中的公共法律服务理论
魏治勋|中华法系立法文义解释方法与规则论析——从法律答问到唐律疏议的立法文义解释方法与技术
夏庆锋|智能合约的法律性质分析



上海市法学会官网

http://www.sls.org.cn


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存