隐私计算两个场景下的个人信息保护探讨——兼论匿名化问题
The following article is from 天达共和法律观察 Author 申晓雨 张亚楠
引言
近年来,随着网络信息技术的迅猛发展及我国数据立法体系的不断完善,数据流通与数据保护间的张力日益突显。2019年,党的十九届四中全会首次将数据列为新的生产要素;2021年,国家发改委、中央网信办、工信部、国家能源局联合印发的《全国一体化大数据中心协同创新体系算力枢纽实施方案》提出,“试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通效率”;工信部在《网络安全产业高质量发展三年行动计划(2021-2023年)(征求意见稿)》中提出,“推动联邦学习、多方安全技术、隐私计算、密态计算、安全检索、多阈协同追踪等数据安全技术研究应用”;国务院办公厅在《要素市场化配置综合改革试点总体方案》中明确规定,“探索‘原始数据不出域、数据可用不可见’的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用”。另一方面,自2021年《数据安全法》《个人信息保护法》相继落地实施并与《网络安全法》共同构成我国顶层数据立法的“三驾马车”以来,各类配套法律文件也如雨后春笋般涌现,各部门、各地区的执法力度不断加大,监管强度不断收紧,企业合规压力日益突显。在此背景下,隐私计算为数据流通与数据保护间的价值平衡提供了一种可行的技术解决方案。
天达共和数据合规团队在为客户解决实际问题的过程中,发现隐私计算在法律层面上存在一些有待解决的问题。我们在此选取数据求交和客户端本地模型计算两个场景中涉及的个人信息保护问题进行探讨,以期为企业了解和解决相关问题提供一些思路和启发。
一
隐私计算概述
1. 隐私计算技术主要类型
2. 隐私计算应用
二
场景分析之数据求交
例如,利用纵向联邦学习技术进行联合营销,电信运营商A持有100位用户的特征数据,银行B持有100位用户的行为数据,其中二者通过标识符(例如经过一定处理的身份证号)进行ID对齐后筛选出50位重合用户。银行B使用其持有的50位交集用户数据,与电信运营商A持有的50位交集用户数据联合建模、共同计算,从而更精准地对用户进行画像、风险评估以及优化金融营销效果。
正如上文所述,PSI的目的是识别多个数据提供方的共同用户集。尽管在这一过程中,通常会使用加密技术对原始数据进行处理,避免用户数据的明文交互,但数据求交的过程即是对各参与方共同用户的识别,必然指向了个人信息的“可识别性”特征(即使仅从机器语言角度可识别)。对于交集用户的数据而言,尽管隐私计算可以对用户ID或特征数据进行“脱敏”技术处理,降低数据泄露、滥用、重识别的风险,但仍可能无法达到我国法律下的“匿名化”要求。
(1)我国关于“匿名化”的现行规定
但是,我国法律并未对“不能复原”作出程度上的具体规定,目前也没有关于匿名化的法律标准或指南。我们尝试从有关去标识化的国家标准入手,理解“不能复原”需要达到的标准。根据《信息安全技术 个人信息去标识化指南(征求意见稿)》第4.1条[9]、第5.5.1条[10],去标识化是要在数据重标识风险和数据有用性之间找到平衡。去标识化技术并不能完全消除数据重标识风险,而且在风险值大小和可接受度方面,会因企业自身需求不同而存在差异。如果对匿名化数据的“不能复原”要求是完全的、绝对的,则对于大多数场景而言,不仅在技术上难以证明,而且相当于承认匿名化数据不具备可用性和商业价值;反言之,能进行商业利用的数据则通常难以成为匿名化数据。关于匿名化数据、去标识化数据在有用性、重标识性方面的对比关系如下图所示:
* 注:本示意图仅为说明匿名化数据、去标识化数据在有用性、重标识性方面的大致对比关系,不作为相关趋势数值的准确性依据。此外,考虑到对“匿名化”存在“相对匿名化”的解释(详见下文),本示意图对匿名化数据的重标识性风险显示为无限趋于零。
美国法律并未设置匿名化概念,仅有去标识化和假名化,体现了对数据流通价值的优先性考量。在此前提下,美国要求个人信息处理者采取相关措施降低泄露与滥用风险。美国联邦贸易委员会(FTC)曾在2012年发布一份报告[12], 讨论了隐私框架的适用范围,即公司处理数据满足以下条件时可认为其数据无法“合理链接”(reasonably linkable)至自然人:①采取合理措施以确保数据被去标识化;②公开承诺不得重识别相关数据(否则可能面临诉讼);③通过合同等方式禁止服务提供商或第三方重识别相关数据。在保障数据商业性开发的基础上加强对数据处理者的监管,这一思路影响了后续州隐私立法,例如《加州消费者隐私法案》(CCPA)、《加州隐私权法》(CPRA)等。
2. 合规建议
从技术角度而言,理想状况下的隐私计算技术使用了高强度的加密算法,能够在很大程度上保障数据处理活动的安全性,甚至“复原”可能需要花费相当的成本和时间,从而在技术上接近于“不可复原”;但另一方面,隐私计算无法实现“完全的、彻底的不可复原”,加密后的数据依然存在重识别可能性,重识别可能性决定了隐私计算主要是一种处理数据的安全技术措施,而无法充分满足我国当前法律所要求的“不能复原”的匿名化标准。同时,实践中企业往往会基于自身资源水平采取相应保护措施,所采取的具体技术未必能达到最佳保护或加密程度。如果面临重识别攻击,攻击者仍可能通过模型的中间参数推测出原始数据,从而发生数据泄露风险。
从法律角度而言,首先需要认识到,技术上的“匿名化”(或“脱敏”“加密”等)术语并不能等同于我国法律上的匿名化概念,实践中企业(尤其是技术人员)易将二者相混淆,认为去除个人信息中的标识符或借助一些加密手段就可以实现匿名化;其次,尽管域外存在“相对匿名化”的立法和实践,但我国法律对匿名化要求的“不可复原”暂未作出进一步细化规定,并未明确转向“相对匿名化”的界定路径。
从商业目的而言,数据求交的目的是为了识别出同属于各数据提供方或具备特定特征的用户群体,以期获取可以指向或关联到特定自然人(或自然人群体)的数据分析结果。按照数据求交最终要实现的商业目的,PSI技术处理后的个人信息并未超出我国现行法律对个人信息定义的“与已识别或者可识别的自然人有关的各种信息”[13]范畴,因此监管部门仍有可能认定数据求交的相关技术处理未达到法律要求的匿名化程度。
综合考虑技术的局限性、法律的不确定性、商业目的的可识别要求以及近年来监管加强的趋势,求交过程中数据的流通与交互可能构成对外提供个人信息的数据处理关系,因此我们建议,采取PSI技术处理个人信息的企业仍然需要(通过隐私政策等方式)向用户进行告知,并取得相关合法性基础(多数场景下为同意),以保证个人信息来源和利用的合法性。同时,出于降低合规风险的考虑,上述义务还应当在合同等法律文件中予以明确约定,由其他参与方作出承诺。在取得了合法性基础的前提下,使用PSI技术可作为企业采取技术措施等必要手段履行数据安全和个人信息保护义务的证明。
此外,基于数据求交的商业目的,隐私计算结果往往用于对个体进行分析、评估、预测等活动,构成对个人信息的使用和加工,且通常会脱离收集个人信息时的原始处理目的或基本业务场景,因此需要就计算结果的利用取得相关合法性基础,并且注意满足自动化决策、算法推荐的相关合规要求。
三
场景分析之客户端本地模型计算
例如,用户在使用输入法软件或App时,其在使用过程中的语言和行为习惯等操作数据仅在手机或电脑终端进行计算分析,从客户端向输入法服务器回传的仅是中间参数,服务器进一步利用中间参数优化算法、改善模型预测的准确度。
四
结 语
从国家层面而言,“绝对匿名化”恐难以满足数字化时代的需要,“相对匿名化”是更加现实可行的路径。在认可“相对匿名化”的前提下,通过完善去标识化技术、采取数据安全管理措施以及加强事中和事后监管等方式相结合的模式,实现对个人隐私、个人信息和数据的安全保护和风险防控,不失为促进数据合规、有序流动的一种有益思路和探索。
对于特定企业而言,应当具体情况具体分析,结合自身的商业模式、技术应用情况以及立法和监管环境等因素,综合评估并判断隐私计算场景下的合规要求,积极履行相关法律义务、采取技术保障,降低个人信息安全风险。
注释:
[1] 隐私计算联盟、中国信息通信研究院云计算与大数据研究所:《隐私计算白皮书(2021年)》。
[2] 中国移动通信集团有限公司:《隐私计算应用白皮书》。
[3] 抖音集团:《隐私计算法律规则适用报告》。
[4] 《网络安全法》第42条第1款:网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。
[5] 《民法典》第1038条第1款:信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,但是经过加工无法识别特定个人且不能复原的除外。
[6] 《个人信息保护法》第73条第1款第4项:匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。
[7] 《个人信息保护法》第4条第1款:个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。
[8] 《个人信息保护法》第73条第1款第3项。
[9] 《信息安全技术 个人信息去标识化指南(征求意见稿)》第4.1条 去标识化目标:
a) 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其它信息识别出原始个人信息主体;
b) 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;
c) 在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。
[10] 《信息安全技术 个人信息去标识化指南(征求意见稿)》第5.5.1条 验证结果含义:
对数据集去标识化后进行验证,以确保生成的数据集在重标识风险和数据有用性方面都符合预设的目标。在验证满足目标过程中,需对去标识化后重标识风险进行评估,计算出实际风险,与预期可接受风险阈值进行比较,若风险超出阈值,需继续进行调整直到满足要求。由于重标识技术和重标识攻击的能力在迅速演变,需要由内部专业人员或权威的外部组织定期展开验证评估。
[11] 欧盟《通用数据保护条例》序言第26条:数据保护原则适用于与已识别或可识别自然人有关的任何信息。经过假名化处理的个人数据,能够与附加信息结合从而链接到特定自然人,应当被视为可识别自然人的信息。为了确定自然人是否可识别,应当考虑由数据控制者或其他人为了直接或间接识别特定自然人而所有合理可能使用的手段。为了确定是否有合理可能使用的手段来识别自然人,应考虑所有客观因素,例如识别的成本和所需时间,同时考虑数据处理时可用的技术及技术的开发。因此,数据保护原则不适用于匿名化信息,即与已识别或可识别自然人无关的信息,或者以某种导致数据主体不可识别或不再可识别的方式匿名提供的个人数据。因此,本条例不涉及此类匿名化信息的处理,包括为统计或研究目的的处理。
[12] Federal Trade Commission, Protecting Consumer Privacy in an Era of Rapid Change: Recommendations for Businnesses and Policymakers, March 2012, https://www.ftc.gov/reports/protecting-consumer-privacy-era-rapid-change-recommendations-businesses-policymakers,p18-22.
[13] 《个人信息保护法》第4条第1款。
[14] 《信息安全技术 个人信息安全规范》第3.5条。
[15] 中国信息通信研究院:《隐私保护计算与合规应用研究报告(2021年)》。
隐私计算头条周刊(8.14-8.20)
Gartner公布2022年的25项新兴技术,隐私计算占6项!
基于TensorFlow Encrypted (TFE)的隐私计算benchmark
SCI一区期刊专辑征稿 | 社会大数据隐私、安全与前沿计算主题
姚期智院士:数据、算法、算力为何是数字经济核心技术?
附下载 | 2022年隐私计算技术与行业应用报告合集(33份)
招标 | 近期隐私计算项目招标18(联通、不动产、股权市场、银联等)