《隐私计算法律适用规则报告》:隐私计算如何助力数据合规
近日六分仪法律实验室发布了《隐私计算法律适用规则报告》,本报告在剖析不同类型隐私计算技术特点的基础上,结合产业实践,对这一技术在保障目的限制、最小必要以及安全可信原则方面的供给作用进行了深入阐释。提出需要将其与数据安全影响评估制度有机结合,共同构建完整的“数据保护评估体系”,方可真正发挥其平衡“数据要素充分利用”与“数据安全隐私保障”的核心价值。
关注公众号并回复 20220719 获取完整报告
隐私计算应用路径:
协同数据评估体系 防控系统性风险
隐私计算只有在具体的数据处理场景中满足数据保护相关法律法规所规定的原则与具体要求,才能实现其特有的价值。《个人信息保护法》具体规定了处理个人信息应当遵循目的明确、最小化处理等原则,提出了数据处理需遵循合法、正当、必要的要求。隐私计算已经在产业实践中对这些法律原则和具体规则的实施提供了应用实例。例如,苹果公司利用联邦学习的方式,在用户个人的iPhone上生成并训练一个本地模型,生成的模型权重(weight)将定期传回中央服务器,由中央服务器通过对数据的聚合从而构建一个全局模型,并不断重复这样的过程。在这一模式下,苹果既能得到定制化的模型,又可以保障其不会收集任何与用户声音相关的原始数据。
尽管隐私计算的多元价值已经得到了各方的关注与推广,但是不可否认,隐私计算在提供系统性合规解决方案层面具有局限性。个人信息处理者仍需遵循风险规制路径,结合具体场景,采用本报告中提出的“多维评估”的思路进行全面评估。“多维评估”需要围绕数据保护法律框架中的“合法公平”“目的正当”“公开透明”“目的限制”“最小必要”“安全可信”等核心原则展开,客观、全面评估隐私计算技术在不同场景中对法律的“供给”与不足。在“目的限制”“最小必要”“安全可信”等法律规则的落地实践中,隐私计算具有较好的供给效应,但任何法律合规工作都不可能依靠单纯的技术方案解决,特别是在保障数据处理目的的正当性、公平性等方面仍需开展系统性的合规评估。在合规评估的过程中,需要综合考虑数据处理目的与结果是否符合其他相关法律法规的要求、隐私计算的输出是否针对个体、隐私计算的具体阶段、隐私计算所应用到的数据生命周期等多种因素。
隐私计算技术与数据评估体系的相互协同是多维评估的核心,需要根据法律的要求与业务场景选择适当的隐私计算技术,并结合相应的法律评估流程与指引,系统性防控个人信息保护、数据安全和算法伦理等多维度的风险。
在“成本-收益”分析框架下,隐私计算技术与数据保护体系之间的“供给与协同”价值也得以彰显。在数据要素流动过程中,为落实法律合规要求需付出相应的“固定成本”(包括人力、技术、管理等生产要素),并以此换取固定的“合规收益”(例如避免被处罚、被起诉且败诉等)。在这一过程中,引入隐私计算则可以将落实部分合规目标的固定成本转化为“边际成本”,并在整体上提升收益率。
隐私计算对法律规则的供给与协同
1.对目的限制原则的供给
实现目的限制原则在数据共享过程中的“破局”,核心思想是通过技术手段限定各参与方对共享数据的处理目的,确保数据流转后被固化在特定范围内。在实践中我们发现以联邦学习、安全多方计算等基于“共识处理框架”的隐私计算技术,在限定数据处理目的方面具有原生优势。
隐私计算的“共识处理架构”主要包括:计算参与方共同设定计算目标、共同约定计算逻辑、接受特定技术方案约束。这一基础架构确保了数据处理的目的被凝聚成特定的“共识”,各参与方难以在“共识之外”将数据用于其他目的。
第一,隐私计算以参与方共同设定的、某个明确的待计算目标为前提,后续的数据处理和计算活动均围绕共同约定的目的展开,所处理的数据须与实现计算目标紧密相关,处理与计算逻辑无关的数据对实现计算目标没有意义。
第二,隐私计算将数据处理行为限制在参与方共同约定的计算逻辑范围之内,某一参与方很难直接改变数据处理逻辑,参与方的数据处理行为也均须严格围绕约定的计算逻辑展开。
第三,隐私计算对原始数据的处理专为实现计算目标而特别“定制”(例如基于秘密分享的密码学思想将原始数据进行“分片式”处理)。数据共享双方都需要接受这一技术方案的约束。一旦脱离该特定的技术方案,数据难以被二次利用,该技术方案显著降低共享原始数据所导致的数据滥用风险。
2.技术选型与规则适配
数据处理活动的复杂性决定了不同业务场景下需适配不同的隐私计算技术,以满足法律在相关业务场景中关于数据处理目的限制的规定。
(1)联邦学习
联邦学习技术从计算目标与计算逻辑维度限定了共同的数据处理目的。数据对齐后的处理活动无法超越各方约定的目的。
(2)安全多方计算
安全多方计算通过多种密码学方法独立或结合使用,可以实现对于数据在限定目的下进行共享与交互。
(3) 差分隐私技术(Differential Privacy)
在数据采集、传输以及聚合计算后发布统计级别的计算报告等场景下,即使最终对数据计算结果以统计级别的形式呈现、未披露自然人个体粒度的个人信息,但是恶意攻击者依然有可能在特定条件下利用相应的背景知识,通过“差分攻击”等方式对自然人个体粒度的个人信息进行攻击和窃取,这种情况下对数据集的处理超出了进行统计分析的目的,不符合目的限定原则的要求。
差分隐私技术通过增加扰动、添加噪声的方式,既能够保障正常产出数据分析结果,同时又能够在数据的收集、传输以及对外发布的不同阶段提供对个体粒度数据的隐私保护,使得攻击者难以利用相关背景知识识别查询结果的差异性,进而避免个体粒度的个人信息遭到窃取和泄露;同时对于“本地差分隐私”技术而言,其在数据收集阶段即通过增加扰动、添加噪声的技术方式使得所收集的数据并非完全精确的原始数据,而是在尽可能平衡数据准确性和可用性的前提下进行了“模糊化处理”之后的数据。差分隐私采用技术手段确保了对数据集的处理活动仅限于统计分析,而不能用于其他目的。
隐私计算与数据保护评估体系构建
实践用例
(1)基于纵向联邦学习实现广告投放模型优化
在数字广告场景,若广告主能将广告转化结果作用于广告投放平台的模型训练,则有助于提升广告投放模型的推荐效率,不仅能增进经济效益,也能减少用户打扰。在传统技术条件下,广告主直接向广告投放平台提供明文的转化结果(ID、是否转化),涉及《个人信息保护法》第二十三条的“提供”行为,需要取得用户单独同意。而借助纵向联邦学习,可以实现转化结果训练投放模型的同时,避免发生个人信息的“提供”行为。
如图,基于联邦学习实现广告投放模型优化的过程大致如下:
广告主、广告投放平台在各自环境内部署联邦学习系统,分别向本地的联邦学习系统输入数据;
输入的数据只在输入方本地的联邦学习系统中计算,两方的系统之间只会传输经过PSI求交后的ID密文、加密的embedding或梯度等数据,而特征(feature)、标签(label)等原始数据均只在本地平台中,不发生流动。
基于如下数据交互情况及数据保护措施,联邦学习平台之间未发生个人信息的“提供”,而且从技术上避免了个人信息被滥用的可能性。
(2)基于横向联邦学习优化车联网智能场景算法
车联网智能场景算法服务,不仅可以根据车辆内外的环境情况(如气温、风力、空气质量等)智能推荐开启车内的辅助配置,如调节空调温度、开关车窗等,还可以根据车内乘员情况、驾驶路况推荐娱乐或服务内容(如有儿童则播放儿童歌曲、动画)。该算法服务应用初期,仍有完善空间,算法的提供方需要基于车内用户的实际反馈情况(如是否接受了智能推荐结果、做了多少调整等)来优化算法的推荐策略。
虽然该算法是在车机端部署、运行的,但算法的优化训练目的需要集合运用多个车机端的反馈数据,所以需要最终在服务端完成算法优化。传统技术条件下,需将用户反馈情况及同时段的车内外环境数据上报到服务端才能实现优化,但相关数据可能涉及敏感个人信息、车内隐私空间情况,且国家互联网信息办公室等五部委联合发布的《汽车数据安全管理若干规定(试行)》明确倡导“车内处理原则,除非确有必要不向车外提供”,用户数据与隐私安全、企业的合规性都面临挑战。横向联邦学习等隐私计算技术的出现,能够很好地兼顾用户数据、隐私安全和算法优化的合规性。
如上图所示,算法模型将被下发到车机端,并在车机端基于用户的反馈情况进行算法优化,然后仅将“模型的参数”(梯度数据)上传至服务端,在服务端汇总模型参数并实现模型优化。整个过程,服务端不获取用户的身份ID、车机ID,不获取车内用户的实际反馈情况以及汽车内外的环境数据情况,在保护驾乘人员隐私的同时实现了算法的优化。
报告目录
《隐私计算法律适用规则报告》解读PPT
隐私计算头条周刊(7.10-7.16)
招标 | 近期隐私计算项目招标14(数据资产、运营商、航运)