查看原文
其他

田申:隐私计算与数据要素流动规则

The following article is from 上海市法学会 东方法学 Author 田申

隐私计算与数据要素流动规则

隐私计算作为一项新兴的安全技术,近年来受到广泛重视。基于对一线业务的亲历与思考,我们认为这一技术在提供安全保障的同时,对数据要素流动规则的构建与完善也具有独立的价值。

促进数字经济的发展,构建数据要素市场,需要统筹“安全与发展”两个价值目标。我们认为,隐私计算技术有助于部分合规要求的实现与增强,但仍存在“力有不逮”的领域,需通过建立“数据保护评估体系”来增益优势、补强短板。因此,实现这一目标的路径在于“技术+制度”的双轮驱动。

隐私计算对数据流动规则的供给与协同:

数据要素有序流动的前提是妥善处理好个人信息保护合规问题。个人信息保护的本质是确保个人的基本权利与合法权益不因数据处理活动而遭受侵害。为平衡保护与利用,个人信息保护法律体系构建了一套以“知情-同意”为导向,以“合法公平”“数据质量”“目的限制”“目的正当”“最小必要”“安全可信”六要素为核心,以“问责”为基础的框架。

第一个供给是对于目的限制原则。传统技术条件下数据流动,一旦数据流出原持有方的控制环境,数据处理目的就难以限定,我们将其称之“后链路风险”。联邦学习、安全多方计算等技术,在限定数据处理目的方面具有原生优势。因为相关参与方需要共同设定计算目标、共同约定计算逻辑、并接受特定技术方案约束。数据处理的目的被技术凝聚成了特定的“共识”,各参与方难以在“共识之外”将数据用于其他目的。

第二项供给是针对最小必要原则。在传统技术条件下,两个合作方在进行数据对齐时,非交集的数据会被迫暴露给对方。而隐私计算所具有的“范围限定”“机器可读”的技术特征,对突破困境具有直接作用。例如,采用PSI技术进行数据对齐,可避免非交集数据泄露。又如,安全多方计算可以将原始数据进行“分片式”或“梯度化”处理,以仅机器可理解且难以复原为原始数据的“数据碎片”形式进行共享、传输以及进一步处理。

举例说明:若广告主能将转化结果作用于投放模型训练,则有助于提升投放模型的推荐效率,不仅能增进经济效益,也能提升生产资料的有效配给。在传统技术条件下,广告主直接向广告投放平台提供明文的转化结果(ID,是否转化)。在采用联邦学习技术下,各方原始数据只在本地的联邦学习中计算,双方仅传输经过PSI求交后的ID密文、加密的embedding或梯度等数据,而用户特征、标签等原始数据均只在各方自主控制的环境中,不发生流动,由此确保数据处理的目的被限定在固定范围内,保障了数据在后链路流转过程中目的不被变更。

我们用这个表格来梳理示例中的数据交互及其保护措施:

首先,在样本对齐环节采用PSI技术保护了非交集ID,另外还可以采取辅助措施,保护ID上的关联信息。
然后,如果双方采用的是联邦深度模型,还会发生embedding的交互,为确保符合匿名化的要求,建议采用MPC、差分隐私对embedding进行保护,以避免劫取、逆向。
最后,交互的还有梯度数据,数值形式的梯度并没有直接包含有意义的原始数据。可以采用同态加密等算法对梯度信息进行加密,以避免反推原始数据。
我们可以看到联邦学习平台之间未发生个人信息的“提供”,而且从技术上避免了个人信息被滥用。
数据处理的目的与结果是否对个人、公众乃至国家安全造成负面影响是数据安全的核心。我们需要承认隐私计算技术并不能直接提供完整、全面的解决方案。而问责制所要求的数据保护影响评估,弥补了隐私计算的短板。将隐私计算技术与问责制,或者说多维数据保护评估体系进行有机协同,才可能实现保护数据主体与助力构建规范互信数据要素市场的终极目标。
数据处理活动可以根据其目标不同划分为两种:
一是数据处理的结果指向个体,对个体产生直接或间接的影响,例如金融信贷评分;二是数据处理结果不指向个体,仅将输入的数据作为优化模型的基础参数,例如优化输入法准确性、优化搜索关联度等。
这两种数据处理类型在【输入阶段】【处理过程】【结果输出】阶段均需根据特定场景开展阶段性匿名化评估与个人信息处理影响评估。
当数据处理结果指向个体时的评估步骤:
第一步,需要确定合法性基础。包括关注原始数据来源的合法性,以及数据处理行为的合法性基础。
第二步,需要对处理目的的正当合法性、伦理和成比例性做评估。
第三步,必要性评估,实践中应当“基于够用”来确定“必要”。如果苛求字面意义上的最小数据范围,将会导致技术目的难以实现,也会导致数据要素流通的目标失去意义,必要性和数据处理质量原则是要兼顾考虑的。
第四步,在可能构成自动化决策时,需关注对用户相关权利的保障情况,明确责任分担。
最后,对整体技术方案的安全性进行具体评估,包括输入数据的安全性、过程交互数据的安全性,以及计算结果的安全性。
当处理结果不指向个体时的评估:
传统技术条件下,在算法训练过程中不仅个人信息权益面临着挑战,数据资产价值也难以有效保护。针对这类需求场景,我们提出了一套结合隐私计算的评估方法,即:如果基于隐私计算的数据要素流通满足以下条件,则不构成“提供”“收集”:
首先,数据处理目的是训练模型算法或产出聚合性的统计数据,而不是为了在参与方间传输个人信息或对个人进行分析、评估或影响。
其次,应确保参与方无法通过该隐私计算获取个人信息,不论是过程数据还是计算结果。
当然,算法本身的伦理问题,仍需在数据处理影响评估层面进行分析;以及将算法模型用于分析、评估或影响个人时,涉及个人信息处理、自动化决策的问题,仍然需关注其合规性,需开展数据处理影响评估。
我们认为,任何新事物的发展与推动都离不开法律规则所提供的稳定而可预期的合法空间。基于此,我们将隐私计算技术对法律规制所发挥的积极作用以及自身的局限进行了初步的提炼与总结,希望这一技术对推动数据要素流动规则的构建发挥积极作用。


END
往期推荐:




隐私计算头条周刊(9.4-9.10)


招标 | 近期隐私计算项目招标中标19(复旦大学、邮储银行、浙商保险、工信安全、海淀城市大脑、山东移动、民生银行、人保集团


IDC中国数据安全发展路线图首发,隐私计算技术将重塑市场


2022年隐私计算技术与行业应用报告合集(附下载)


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


隐私计算又遇技术突破,亿级数据密态分析可在10分钟内完成


清华大学张超:实现数据确权与保护,数据密态渐成行业共识


数据确权:第五要素的战争


未来十年,将会有95%的企业采用隐私计算技术

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存