查看原文
其他

“数据不动模型动”的法律意义与局限

法治周末报 法治周末报 2024-01-09

智道


聚焦前沿科技与法律伦理的交汇碰撞


栏目主持人:於兴中

投稿邮箱:zhidao0101@163.com


▶   未经授权 不得转载

文 | 朱悦

责任编辑 | 尹丽


数据和模型的关系正在改变。之前,是“模型不动数据动”:将个人的数据输入到模型中,得到数据经过处理的结果。现在,是“数据不动模型动”:通过端侧部署、联邦学习和可信环境等技术,让模型来服务个人数据的处理。

政策和法律正在认可这一新兴变化。我国“数据二十条”(即《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》)提到了“以模型、核验等产品和服务等形式向社会提供(公共数据)”。欧盟《人工智能法案》和《数据法案》也认可了“将模型带往数据”的技术。尽管如此,政策和法律的论述还是过于简洁。数据不动模型动在法律层面的意义和局限还有展开的空间。就此,首先简介实现数据不动模型动的三种技术路径,然后说明其法律层面的意义和局限。


5月23日,工作人员在贵州大学省部共建公共大数据国家重点实验室算力中心工作。 新华社


如何实现数据不动模型动


实现数据不动模型动,主要有三种技术路径。一是将模型挪动到个人设备部署到端侧部署。二是在尽量减少个人数据流动的同时、训练和运行模型的联邦学习。三是让模型和数据在高度可信的环境中相遇的可信环境。

先说端侧部署。这一技术路径最符合数据不动模型动的字面意思。概言之,通过模型的压缩和加速,可以让模型的大小变得很小,运行模型的要求变得很友好。这样,模型就可以整个装进个人的手机或者其他设备里。既然模型完全挪到了个人的设备里,也就没有必要再向外去流动数据了。现在非常热门的文字和图片的生成合成模型,都可以实现端侧的部署。

再是联邦学习。这一技术路径相对复杂一些。简单来说,如果不使用联邦学习,模型的训练和运行很多时候要使用原始的个人数据。也就是数据动了。使用联邦学习以后,模型的训练和运行只使用原始数据加工以后的中间产物。这些产物没有直观的意义,也极难识别或者关联到个人。这样就避免了个人数据的对外流动,也就实现了(个人)数据不动模型动。

最后是可信环境。这一技术路径的理解要更加复杂一些。所谓可信环境,一方面能够完成数据处理,另一方面又能够几乎完美地控制对数据的访问。通过组合运用经过证明的数学算法和严格验证的安全硬件,还可以在确保没有任何人能访问的前提下处理数据。这样,尽管个人数据还是要流动到可信环境里,但因为确实没有人能访问,所以也可以说是没有发生流动。


数据不动模型动的法律意义


无论技术多么先进、多么复杂,最终都必须在法律层面上展开分析和评价。数据不动模型动的法律意义主要有三方面。一是提供数据处理的安全措施。二是豁免处理者与数据收集有关的法律义务。三是将处理者的义务与责任落到个人头上。法律的确定性由强而弱,对合规的价值由低而高。

一是充任数据处理的安全措施。无论是端侧部署还是联邦学习,都避免了个人数据的流动。可信环境同样能够对个人数据的流动和使用施加十分严格的控制。综之,这些都是相当先进、同时也相对可靠的数据处理安全措施。在高水平上履行了和数据处理有关的安全义务。

二是豁免与收集有关的义务。这取决于法律如何定义收集这一处理活动。广义的收集涵盖了任何处理者能够利用数据的情形,狭义的收集则是要求处理者能够对数据施加事实上的控制。美国伊利诺伊州等地的个人数据保护法律就采取了狭义的观点。端侧部署和联邦学习使得个人数据始终留在个人设备上。可信环境也确保了处理者只能以非常有限的方式利用数据。无论采取哪种技术路径,处理者对数据都缺乏事实上的控制。既然没有收集,也就不存在和这一处理活动有关的义务。

三是使得个人成为数据处理者。数据处理者是自主决定数据处理目的和方式的组织或个人。在模型不动数据动的情况下,处理者通常只能是提供或部署模型的企业。在数据不动模型动的情况下,企业在很大程度上把处理目的和方式的决定权还给了个人。以端侧部署为例。理想情况下,企业对端侧模型不再具有决定权。个人完全按其目的,以其所偏好的方式使用模型。既然个人,而非企业才是数据处理者,企业也就豁免了几乎所有的义务与责任。不过,也有学理和实务观点认为个人一般不能构成数据处理者。在涉及模型等高风险处理活动时尤其如此。


数据不动模型动的潜在局限


尽管政策和法律正在认可数据不动模型动,但无论采取哪一种技术路径,法律上都还存在三方面潜在的局限:一是个人数据究竟有没有“动”,值得深究;二是模型本身可能构成个人数据,存在侵害个人权益的风险;三是对于个人权益的其他余量风险。

首先是深究个人数据究竟有没有动。这是联邦学习的主要局限。诚然,原始的个人数据没有流动,流动的只是加工过的没有直观含义的中间产物。然而没有直观含义、极难识别关联不代表一定无法识别或关联。这些中间产物可能依然携带了一些个人的信息。通过一些特别精致的技术攻击有可能把这些信息反推出来。因此,除非进一步验证这方面的安全,很难断言个人数据没有动。

其次是注意模型和数据之间没有截然的二分。端侧部署特别需要注意这一潜在局限。大致来说,像文字和图片的生成合成模型,因为其参数量大、结构复杂,可能会“记住”很多用来训练的个人数据。由此,这些模型携带了很多个人的信息,甚至可以说本身就是特别复杂的个人信息。即使只在端侧部署这些模型,如果不采取其他保障措施,也不能完全消除个人权益受到侵害的风险。

最后是对于个人权益的其他余量风险。可信环境的例子能够很好地说明这一局限。可信环境的“可信”更多指的是这个环境能够忠实地完成设定的处理任务,数据在处理过程中不会遭到泄漏或者其他不当利用。这并不代表设定的处理任务本身不会侵害个人权益。假如所设定的处理任务并不具备同意或者其他合法性基础,即使环境完全可信,个人对其数据的权益还是受到了侵害。

综上,数据不动模型动是正在得到广泛认可的技术发展。其有多方面法律上的意义,也存在不能忽视的局限,特别是无法完全排除个人权益遭到侵害的风险。对于端侧部署、联邦学习、可信环境等不同技术路径均应在具体场景中开展正面基调的评价。如果能够准确、全面识别和纾解对于个人权益的风险,理应予以认可。如果没有能够识别和纾解这些风险,则应相应“降级”评价,并且鼓励其纾解余量的风险。


(作者系北京科技创新中心研究基地研究员)


END


视觉编辑 | 王硕 马蓉蓉

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存