欧盟的人工智能数据治理方案
本文编译自《数据治理背景下的人工智能》(Artificial intelligence in the context of data governance), 原文载于International Review of Law, Computers & Technology,作者Bogdan Fischer & Agnieszka Piskorz-Ryń
为了阅读的流畅性,本文对正文及脚注部分略有删减。
1. 摘要
欧盟2020年底提出的《数据治理法》草案旨在提高公众对共享自身资源的信任,挖掘数据的潜力。尽管仍然缺乏部分定义和细节,但这些措施将提高数据分析和机器学习的效率。
在以数据为基础的经济世界中,需要根据各自的治理规则高效地使用数据。为了人工智能的发展和效率,我们需要大量高质的数据发展人工智能。获取数据是竞争性人工智能格局的关键要素。
本文的基本目的为介绍欧盟数据治理相关活动为人工智能提供的信息。此外,本文将确定欧盟在开放、安排、创建人工智能数据空间阶段如何实现此前的软法等有关数据流动的声明,立法阶段如何执行此领域所采用的假设,以及公法规范的重要性。
欧盟认为对人工智能的态度将决定世界。欧盟鼓励企业共享数据,将公共部门产生的数据用于人工智能,并允许公共部门使用“私人数据”。对于公共部门,欧盟拥有更具影响力的数据治理法律机制。本文将在软法基础上尝试从法律规定中重构数据治理行为准则。下文将介绍软法对硬法的依赖关系,并确定欧盟法律中有关数据治理的法律解决方案在人工智能等领域的不足。基于数据的可重复使用,充分的数据治理使各方都能使用数据,从而在人工智能领域开发出创新的解决方案。本文旨在表明,如果有一个连贯和复杂的数据治理政策,欧盟的数据治理将有利于人工智能发展。因此,我们必须回答以下问题:这样的政策在欧盟存在吗?它符合人工智能的需求吗?
2. 人工智能术语和欧盟为人工智能所作的贡献
人工智能的定义和术语不断变化。目前流行的“AI”是一个通用术语,这个两个字母的缩写包含了不同的方法和技术。而在动态技术领域定义精确的监管目标十分困难。目前人工智能的定义在操作、技术及法律/政策层面都没有达成跨国协议。静态人工智能理论及其发展被动态理论所取代。当下,人工智能不仅能够赶上人类的能力,还能够利用机器学习在数据的基础上实现自主性,在没有人类帮助的情况下根据环境采取行动。人工智能的目标是“理解人类认知系统的运作并进行重建,定义类似的决策过程”。
本文认为以下关于人工智能的阐释在法律上是最精确的:在模仿自然智能的特定功能时,使用大量的高质量的合法的数据模型生成算法。由操作系统和兼容软件组成的智能IT系统的目标是通过模仿和改进“人类的”理性思考和行为解决问题。与人脑相比,整合所有的知识能够构建不受错误观念影响的模式。深度学习是达到此目的最重要的方式,软件经过培训能够将经验转化为知识,但每个培训阶段都需要对合法性进行分析,例如访问、下载、复制、分析处理、分析和得出结论。
法律与人工智能之间一直存在着联系。随着人工智能的发展,欧盟开始为人工智能建立法律框架。
首先,欧盟实施了软机制,旨在2021第一季度提出关于这一问题的法律解决方案。在2017年10月举行的欧洲理事会会议上,欧盟认为需要对人工智能等新兴趋势做出紧急反应,“同时确保数据、数字权利和道德标准得到高度保护”
人工智能被认为是欧盟决策者的优先事项,2018年4月10日,24个成员国和挪威承诺在这一问题上进行合作,确定了以下目标:(i)欧洲应该在人工智能领域具有竞争力;(ii)在数字转型方面,任何国家都不能落后;(iii)新技术将基于价值观。
在《欧洲人工智能》报告中,欧洲理事会、欧洲经济社会委员会和区域委员会将欧盟定义了该议题上的下一步行动:(i)增加投资;(ii)加强从实验室层面到市场层面的研究和创新;(iii)支持整个欧洲的人工智能科学改进中心;(iv)向所有小企业和潜在用户提供人工智能的使用权;(v) 支持研究和实验;(vi)从事私人投资;以及(vii)提供对大量数据的访问。
人工智能是为了改善人类福利而为人类服务的工具。因此,欧盟的价值观与《欧盟条约》第2条应与人工智能发展方向相适应。由高级人工智能专家组开发的具体指导方针已经确定。该指南称,要“获得可靠的人工智能”需要具备以下三个要素:(i)符合法律规则;(ii)符合道德标准;(iii)可靠。指南规定了七项关键要求,并建立了审核清单鉴定人工智能应用程序,清单内容包括:人类的主导和监督作用、技术可靠性和安全性、隐私和数据保护、透明度、多样性、非歧视和公正、社会和环境福利、以及责任。
下一份文件是人工智能白皮书《人工智能白皮书:欧洲追求卓越与信任方法》(White Paper on artificial intelligence)。文件的主要规定了在欧洲、国家和区域各级联合努力所使用的工具及政治框架。基于公共和私营部门的伙伴关系,该框架能够激活资产,从科学研究和创新开始,沿着整个价值链条达到“卓越生态系统”,并为尽快采用基于人工智能解决方案的部门推出相应激励政策。文件的第二部分为“信任生态系统”的未来欧洲人工智能监管框架的关键。为了实现这一目标,它们必须确保遵守欧盟的法规,特别是关于在欧盟使用的高风险水平的人工智能系统的规则。
2020年10月20日,欧洲议会通过了一份决议,该决议包含了向委员会提出的关于人工智能、机器人和相关技术伦理方面框架的建议。欧盟计划在2021年第一季度公布人工智能相关法规。
3. 人工智能需求背景下的欧洲数据空间
在这一领域,欧盟开展了各种活动,包括(i)修订《公共部门信息再利用指令》(英文名称);(ii)提交关于欧盟数据治理决议的草案(法律法案);以及(iii)在企业数据共享方面采用软治理。
欧盟数据处理的治理正处于由软法到筹备中的决议已经采用了相关假设的阶段。它们侧重于改进有关数据处理的管理结构,提高可重复使用的高质量数据的可用水平。因此,需要在确定数据市场统一活动的基础上,建立部门间数据自由流动的框架。第一个重要事件是更新欧盟委员会关于通信中数据互操作性的建议。这些建议构成了数据治理的基础,促进了它们在网上的发布,以及它们的合并、共享和重用。
另一个重要事件是2018年召开的“迈向共同的欧洲数据空间”交流会。会议描述了能够访问并重复使用来自欧盟不同来源、部门和学科的数据的工具。除了公共部门产生的数据外,私营部门创造的数据也是一项重要资产。上述文件定义了共享私营部门数据的准则,即:(i)企业数据共享(B2B);(ii)企业和行政管理机构(B2G)数据共享。
欧盟委员会于2020年2月19日发布了《欧洲数据战略》,强调了增加人工智能或物联网技术可用数据量的重要性。《人工智能白皮书》与其相辅相成,该白皮书致力于改善数据访问和治理。数据对人工智能发展十分重要。推广数据治理和数据公平规则有助于建立信任,提供重复使用数据的可能性。这两份文件构成了定义广泛的欧洲数字政策的第一支柱。上述文件包含有关数据治理、互操作性、数据质量以及数据保护和安全的规定。
4. 关于开放数据和公共部门信息再利用的指令(第2019/1024号指令)
欧盟监管公共部门重复使用信息的历史可以追溯到2003年2003/98/EC指令(Directive 2003/98/EC of the European Parliament and of the Council of 17 November 2003 on the re-use of public sector information)。欧洲议会和欧盟理事会第2013/37/EU号指令(Directive 2013/37/EU of the European Parliament and of the Council of 26 June 2013 amending Directive 2003/98/EC on the re-use of public sector information)对其进行了修订,进而通过了关于开放数据和公共部门信息再利用的第2019/1024号指令(Directive (EU) 2019/1024 of the European Parliament and of the Council of 20 June 2019 on open data and the re-use of public sector information)。
第2019/1024号指令在人工智能领域非常重要。它提供了大量可重复使用的数据。该指令通过动态数据、高价值数据和研究数据扩展了数据资产,还规定了提供数据的规则。
5. 重新使用公共部门机构拥有的特定种类的受保护数据
欧盟提交了《欧洲议会和理事会数据治理条例》(以下简称“DGA”)草案,它规定了重复使用欧盟公共部门机构拥有的特定种类的数据。
根据2019/1024号指令的第1节第1条,数据重用不适用于以下类型的文件:知识产权归第三方所有的文件;基于成员国访问系统无法访问的敏感数据,包括基于国家安全的原因;公共防卫或安全;统计保密;以及商业秘密。而根据DGA草案的第1节第3条,第2章应适用于公共部门机构拥有的数据,这些数据因以下原因受到保护:商业秘密;统计信息保密;保护第三方的知识产权;以及保护个人资料。这意味着DGA草案提供了该指令不适用的数据处理的法律法规,确定了新数据的可访问性问题。到目前为止,欧盟法律法规还没有明确规定这一问题。这些数据可以用于人工智能等各个方面。
DGA草案第1节第3条旨在规范条款中规定的数据重复使用规则。根据DGA,如果公共部门机构在法律允许下能够决定是否使用数据,则该部门可以获取本法规第3条第1节中规定的数据。这意味着,第2章仅在公共部门机构决定重新使用这组数据时适用。但草案没有提供关于可能产生的权利的法律性质的具体细节,以及强加于公共部门机构的相应义务。有批评者认为,该条文本身、条例的陈述及正当性都缺乏明确的概念。有人在草案的辩论中明确指出,第2章的规定不构成重复使用的权利。
此外还存在公共机构授权不清的问题。根据第3条第3节“本章并不强制规定必须准许公共部门的数据重用”。但根据第6条第1款,公共部门应考虑重用第3条第1节规定的数据。从DGA草案中,无法得出数据权与重用许可以及授予或不授予重用访问权之间的关系。
DGA草案中的此类内容使人们对以其为基础的数据采集产生了怀疑。缺少对公共部门权利义务的规定,且实体利益将妨碍数据获取。这种解决方案不适合用于人工智能相关目的的数据采集。
DGA草案只在有限的范围内提到了所获取数据的质量问题,没有规定数据结构化、完整性或其引用等问题。DGA草案第2章规定了专有权、费用和再使用条件。草案提议每个成员国设立一个数据中心,获取数据关键信息并在第2章范围内重复使用。此外,有人提议建设实体提供技术支持。
草案第4章对于人工智能数据使用具有重要意义。欧盟指出,在取得同意的情况下使用个人自愿共享的数据,或由法人共享的非个人数据对实现公共利益具有重大意义,包括医疗保险、气候变化,同样包括科学研究。上述法规将有助于创建基于利他主义的数据获取方法的数据集,数量足以进行数据分析和机器学习。
创建这些大型数据集需要数据信任。采用利他主义方式应理解为,为了公共利益,自然人或企业应该提高信任水平,自愿共享数据。但目前没有规定什么是公共利益。就个人数据而言,资源共享数据是基于草案个人数据的同意。DGA草案不包括撤回同意的权利。根据GDPR,如果科学研究目标符合公认的伦理标准,或者仅适用于某些研究领域或某些研究项目的某些要素,可以通过对某些科学研究领域的许可证明科学研究目标是合理的。尽管在利他主义方法的背景下使用了“数据捐赠”这一术语,但在任何情况下都不能将其理解为个人数据的“放弃”或“自愿转移”。
DGA草案强调数据上承载着公共利益,并可以用于创造人工智能等社会利益。这假定组织、部门和成员国之间共享或合并数据。用利他主义方法注册数据,有助于提高对其活动的信任程度。此类信任源于在欧盟开展商业活动的事实、注册实体开展非营利业务的要求、与透明度有关的要求、以及存在用于保护数据所指人员和企业权益的某些预防措施的事实。为了实现这些假设,需要借助工具降低获得同意的成本,并促进数据传输。此方案有助于创建数据存储库,发展人工智能算法。
DGA实施的后续配套措施应包括注册实体、监管机制管理的安全处理环境中处理各自数据的能力,以保数据管理员保持较高的科学伦理水平,以及基于处理基于GDPR的数据的实体的报告义务,和用于持续通知个人数据的工具的高效技术手段,允许在任何时候撤回或更改同意。
软法数据治理政策开始转变为硬法。欧盟软法中假定的扩大数据经济价值实现数据发布过程并提高安全性的必要条件,也在DGA中有所体现。
DGA应被视为挖掘数据的大规模经济价值和定义数据流动的关键法案。欧盟正在计划中的解决方案将提供协调机制,使商业和利他主义数据供应商提高数据保证水平,谨防数据非法使用;这将提高对拥有数据的认识,让有利于人工智能开发的较小实体更容易决定如何使用数据。建立公共法律机制,为数据共享和交易市场创造条件,是人工智能发展的必要条件。提供高质量的合法且具有代表性的数据将有助于避免侵犯个人权利。
(完)
往期文章:
数据权属与数据治理之争 如何设计数据交易市场?(下) 如何设计数据交易市场?(上) 如何实现大数据价值?(下) 如何实现大数据价值?(上) 政策制定者应密切关注数据治理(下) 政策制定者应密切关注数据治理(上) 当讨论数据所有权时,我们到底在讨论什么? 没有人拥有数据?(下) 没有人拥有数据(上) 数据所有权:问题盘点与总结(上) 数据所有权:问题盘点与总结(下)
请扫描二维码获取该系列文章中英文原文: