查看原文
其他

隐私计算两个场景下的个人信息保护探讨——兼论匿名化问题

The following article is from 天达共和法律观察 Author 申晓雨 张亚楠



引言


近年来,随着网络信息技术的迅猛发展及我国数据立法体系的不断完善,数据流通与数据保护间的张力日益突显。2019年,党的十九届四中全会首次将数据列为新的生产要素;2021年,国家发改委、中央网信办、工信部、国家能源局联合印发的《全国一体化大数据中心协同创新体系算力枢纽实施方案》提出,“试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通效率”;工信部在《网络安全产业高质量发展三年行动计划(2021-2023年)(征求意见稿)》中提出,“推动联邦学习、多方安全技术、隐私计算、密态计算、安全检索、多阈协同追踪等数据安全技术研究应用”;国务院办公厅在《要素市场化配置综合改革试点总体方案》中明确规定,“探索‘原始数据不出域、数据可用不可见’的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用”。另一方面,自2021年《数据安全法》《个人信息保护法》相继落地实施并与《网络安全法》共同构成我国顶层数据立法的“三驾马车”以来,各类配套法律文件也如雨后春笋般涌现,各部门、各地区的执法力度不断加大,监管强度不断收紧,企业合规压力日益突显。在此背景下,隐私计算为数据流通与数据保护间的价值平衡提供了一种可行的技术解决方案。


天达共和数据合规团队在为客户解决实际问题的过程中,发现隐私计算在法律层面上存在一些有待解决的问题。我们在此选取数据求交客户端本地模型计算两个场景中涉及的个人信息保护问题进行探讨,以期为企业了解和解决相关问题提供一些思路和启发。


 隐私计算概述


隐私计算又称隐私保护计算(Privacy-Preserving Computation)或隐私增强技术(Privacy Enhancing Technology),是指在保证数据提供方不泄露原始数据的前提下,在保障数据安全及个人隐私的基础上,通过一系列包含人工智能、密码学、数据科学等领域的技术手段,对数据进行分析和计算、充分释放数据价值,实现数据流通过程中“可用不可见”的技术解决方案。
1. 隐私计算技术主要类型


隐私计算技术目前主要分为三种类型:第一类是以多方安全计算为代表的密码学技术,还包括同态加密、差分隐私、零知识证明等;第二类是以联邦学习为代表的人工智能技术;第三类是以可信执行环境为代表的硬件设施技术。其中,多方安全计算和联邦学习一般从软件层面设计安全技术框架,可信执行环境主要从底层硬件层面提供安全环境。[1] 不同技术往往组合使用,以提供更加全面的隐私保护。
2. 隐私计算应用


由于不同的隐私计算技术具备不同的特点与优劣,隐私计算在不同技术的组合下演化出丰富的应用场景。隐私计算目前应用较多的领域包括:①金融领域中,在联合风控、联合营销、反洗钱、保险精算等方面,金融机构利用隐私计算促进数据技术与金融业务深度融合;②政务领域中,隐私计算助力智慧城市建设、数据基础设施建设、企业投融资、普惠金融等活动,推进公共数据与社会数据深度融合;③ 医疗领域中,隐私计算在增强数据安全的前提下,为疫情防控、临床辅助决策、医学研究、医保理赔等提供了技术支持;④ 此外,隐私计算还被应用于精准营销、算法推荐、能源数据分析、智能汽车数据分析等方面。[2]


 场景分析之数据求交


数据求交主要发生在联邦学习技术应用中。数据进行联合计算时,多个数据提供方各自持有存在交集但并不完全重合的用户数据,每一数据提供方都不希望暴露自身非交集部分用户的数据给其他数据提供方。此时可利用隐私集合求交技术(Private Set Intersection, PSI)先对各数据提供方的用户求交集,然后通过内部数据匹配来对交集用户展开联合计算、进行模型训练[3],从而有效打破数据壁垒,实现数据跨机构有效融合。PSI技术通常适用于用户ID对齐环节,该技术保障了各参与方仅能对交集用户数据进行计算,而无法留存或反推自身原本所未持有的用户数据,大大降低了在传统数据求交过程中非交集用户数据被其他参与方获知后的滥用隐患。



例如,利用纵向联邦学习技术进行联合营销,电信运营商A持有100位用户的特征数据,银行B持有100位用户的行为数据,其中二者通过标识符(例如经过一定处理的身份证号)进行ID对齐后筛选出50位重合用户。银行B使用其持有的50位交集用户数据,与电信运营商A持有的50位交集用户数据联合建模、共同计算,从而更精准地对用户进行画像、风险评估以及优化金融营销效果。


1. PSI合规与匿名化
正如上文所述,PSI的目的是识别多个数据提供方的共同用户集。尽管在这一过程中,通常会使用加密技术对原始数据进行处理,避免用户数据的明文交互,但数据求交的过程即是对各参与方共同用户的识别,必然指向了个人信息的“可识别性”特征(即使仅从机器语言角度可识别)。对于交集用户的数据而言,尽管隐私计算可以对用户ID或特征数据进行“脱敏”技术处理,降低数据泄露、滥用、重识别的风险,但仍可能无法达到我国法律下的“匿名化”要求。
(1)我国关于“匿名化”的现行规定


我国《网络安全法》第42条第1款[4]、《民法典》第1038条第1款[5]、《个人信息保护法》第73条第1款第4项[6]均将“匿名化”定义为“无法识别+不能复原”(即经加工后的个人信息无法识别特定个人且不能复原);且根据《个人信息保护法》第4条第1款[7],匿名化数据不属于个人信息。与“匿名化”并列的概念是“在不借助额外信息的情况下无法识别特定自然人”[8]的“去标识化”,而去标识化处理后的个人信息仍属于个人信息。我国法律设置匿名化要求,突显了立法的个人信息保护立场,同时与兼顾数据保护和数据价值的去标识化概念并行,对不同情景提出不同程度的处理要求。
但是,我国法律并未对“不能复原”作出程度上的具体规定,目前也没有关于匿名化的法律标准或指南。我们尝试从有关去标识化的国家标准入手,理解“不能复原”需要达到的标准。根据《信息安全技术 个人信息去标识化指南(征求意见稿)》第4.1条[9]、第5.5.1条[10],去标识化是要在数据重标识风险和数据有用性之间找到平衡。去标识化技术并不能完全消除数据重标识风险,而且在风险值大小和可接受度方面,会因企业自身需求不同而存在差异。如果对匿名化数据的“不能复原”要求是完全的、绝对的,则对于大多数场景而言,不仅在技术上难以证明,而且相当于承认匿名化数据不具备可用性和商业价值;反言之,能进行商业利用的数据则通常难以成为匿名化数据关于匿名化数据、去标识化数据在有用性、重标识性方面的对比关系如下图所示:

* 注:本示意图仅为说明匿名化数据、去标识化数据在有用性、重标识性方面的大致对比关系,不作为相关趋势数值的准确性依据。此外,考虑到对“匿名化”存在“相对匿名化”的解释(详见下文),本示意图对匿名化数据的重标识性风险显示为无限趋于零。


(2)域外关于匿名化的规定


欧盟《通用数据保护条例》(GDPR)序言第26条[11]规定,GDPR框架下的匿名化不属于个人数据范畴。GDPR对于匿名化的要求是,数据控制者或其他人使用了所有合理可能(reasonably likely)的方法均无法直接或间接地识别自然人。关于“合理可能”的判断,GDPR提出在认定匿名化的过程中,应当考虑客观因素,例如重识别所需的成本和时间,以及处理数据时的技术水平等。
美国法律并未设置匿名化概念,仅有去标识化和假名化,体现了对数据流通价值的优先性考量。在此前提下,美国要求个人信息处理者采取相关措施降低泄露与滥用风险。美国联邦贸易委员会(FTC)曾在2012年发布一份报告[12], 讨论了隐私框架的适用范围,即公司处理数据满足以下条件时可认为其数据无法“合理链接”(reasonably linkable)至自然人:①采取合理措施以确保数据被去标识化;②公开承诺不得重识别相关数据(否则可能面临诉讼);③通过合同等方式禁止服务提供商或第三方重识别相关数据。在保障数据商业性开发的基础上加强对数据处理者的监管,这一思路影响了后续州隐私立法,例如《加州消费者隐私法案》(CCPA)、《加州隐私权法》(CPRA)等。
2. 合规建议
从技术角度而言,理想状况下的隐私计算技术使用了高强度的加密算法,能够在很大程度上保障数据处理活动的安全性,甚至“复原”可能需要花费相当的成本和时间,从而在技术上接近于“不可复原”;但另一方面,隐私计算无法实现“完全的、彻底的不可复原”,加密后的数据依然存在重识别可能性,重识别可能性决定了隐私计算主要是一种处理数据的安全技术措施,而无法充分满足我国当前法律所要求的“不能复原”的匿名化标准。同时,实践中企业往往会基于自身资源水平采取相应保护措施,所采取的具体技术未必能达到最佳保护或加密程度。如果面临重识别攻击,攻击者仍可能通过模型的中间参数推测出原始数据,从而发生数据泄露风险。
从法律角度而言,首先需要认识到,技术上的“匿名化”(或“脱敏”“加密”等)术语并不能等同于我国法律上的匿名化概念,实践中企业(尤其是技术人员)易将二者相混淆,认为去除个人信息中的标识符或借助一些加密手段就可以实现匿名化;其次,尽管域外存在“相对匿名化”的立法和实践,但我国法律对匿名化要求的“不可复原”暂未作出进一步细化规定,并未明确转向“相对匿名化”的界定路径。
从商业目的而言,数据求交的目的是为了识别出同属于各数据提供方或具备特定特征的用户群体,以期获取可以指向或关联到特定自然人(或自然人群体)的数据分析结果。按照数据求交最终要实现的商业目的,PSI技术处理后的个人信息并未超出我国现行法律对个人信息定义的“与已识别或者可识别的自然人有关的各种信息”[13]范畴,因此监管部门仍有可能认定数据求交的相关技术处理未达到法律要求的匿名化程度。
综合考虑技术的局限性、法律的不确定性、商业目的的可识别要求以及近年来监管加强的趋势,求交过程中数据的流通与交互可能构成对外提供个人信息的数据处理关系,因此我们建议,采取PSI技术处理个人信息的企业仍然需要(通过隐私政策等方式)向用户进行告知,并取得相关合法性基础(多数场景下为同意),以保证个人信息来源和利用的合法性。同时,出于降低合规风险的考虑,上述义务还应当在合同等法律文件中予以明确约定,由其他参与方作出承诺。在取得了合法性基础的前提下,使用PSI技术可作为企业采取技术措施等必要手段履行数据安全和个人信息保护义务的证明。

此外,基于数据求交的商业目的,隐私计算结果往往用于对个体进行分析、评估、预测等活动,构成对个人信息的使用和加工,且通常会脱离收集个人信息时的原始处理目的或基本业务场景,因此需要就计算结果的利用取得相关合法性基础,并且注意满足自动化决策、算法推荐的相关合规要求。

场景分析之客户端本地模型计算


在直接面向客户端(C端)的联邦学习技术中,用户的原始数据始终存储在本地不出库,数据处理者利用用户本地数据对服务器分发的初始模型进行训练,再将训练模型后得到的加密中间参数(如模型梯度)上传至服务器。服务器利用加密中间参数更新初始模型,然后将更新后的模型分发至用户,在用户端继续完成对模型的训练。



例如,用户在使用输入法软件或App时,其在使用过程中的语言和行为习惯等操作数据仅在手机或电脑终端进行计算分析,从客户端向输入法服务器回传的仅是中间参数,服务器进一步利用中间参数优化算法、改善模型预测的准确度。


在此场景下,由于数据处理者仅提供相关产品或服务供用户使用,不访问用户个人信息,计算在用户设备终端本地进行,不回传至数据处理者,因此不构成个人信息的收集行为[14],也不涉及个人信息的存储,但是利用用户本地数据训练模型的行为仍然构成对个人信息的使用。根据《个人信息保护法》第4条第2款,个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。尽管个人信息强调全生命周期保护,但并非必须在全链条场景下数据处理活动才纳入相关法律规制范围,涉及上述任一环节的行为均构成对个人信息的处理,均应遵守相关个人信息保护规定。同时,中间参数的本质是基于原始数据的函数[15],通过中间参数逆推原始数据在技术上并非无法达成,仍然存在重识别风险甚至泄露风险。因此我们建议,在直接面向C端的本地模型计算场景下,数据处理者需要向用户进行告知并取得相关合法性基础。

 结 语


在当前数字经济蓬勃发展与法律体系不断完善的背景之下,数据保护与数据流通的价值平衡已成为社会共识。一方面,数据价值的挖掘和新兴技术的利用需要以保障数据安全和个人信息为前提;另一方面,不应片面强调数据保护而否定数据融合价值甚至阻碍技术对社会、经济的推动。

从国家层面而言,“绝对匿名化”恐难以满足数字化时代的需要,“相对匿名化”是更加现实可行的路径。在认可“相对匿名化”的前提下,通过完善去标识化技术、采取数据安全管理措施以及加强事中和事后监管等方式相结合的模式,实现对个人隐私、个人信息和数据的安全保护和风险防控,不失为促进数据合规、有序流动的一种有益思路和探索。
对于特定企业而言,应当具体情况具体分析,结合自身的商业模式、技术应用情况以及立法和监管环境等因素,综合评估并判断隐私计算场景下的合规要求,积极履行相关法律义务、采取技术保障,降低个人信息安全风险。


注释:

[1] 隐私计算联盟、中国信息通信研究院云计算与大数据研究所:《隐私计算白皮书(2021年)》。

[2] 中国移动通信集团有限公司:《隐私计算应用白皮书》。

[3] 抖音集团:《隐私计算法律规则适用报告》。

[4] 《网络安全法》第42条第1款:网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。

[5] 《民法典》第1038条第1款:信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,但是经过加工无法识别特定个人且不能复原的除外。

[6] 《个人信息保护法》第73条第1款第4项:匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。

[7] 《个人信息保护法》第4条第1款:个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。

[8] 《个人信息保护法》第73条第1款第3项。

[9] 《信息安全技术 个人信息去标识化指南(征求意见稿)》第4.1条 去标识化目标:

a) 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其它信息识别出原始个人信息主体;

b) 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;

c) 在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。

[10] 《信息安全技术 个人信息去标识化指南(征求意见稿)》第5.5.1条 验证结果含义:

对数据集去标识化后进行验证,以确保生成的数据集在重标识风险和数据有用性方面都符合预设的目标。在验证满足目标过程中,需对去标识化后重标识风险进行评估,计算出实际风险,与预期可接受风险阈值进行比较,若风险超出阈值,需继续进行调整直到满足要求。由于重标识技术和重标识攻击的能力在迅速演变,需要由内部专业人员或权威的外部组织定期展开验证评估。

[11] 欧盟《通用数据保护条例》序言第26条:数据保护原则适用于与已识别或可识别自然人有关的任何信息。经过假名化处理的个人数据,能够与附加信息结合从而链接到特定自然人,应当被视为可识别自然人的信息。为了确定自然人是否可识别,应当考虑由数据控制者或其他人为了直接或间接识别特定自然人而所有合理可能使用的手段。为了确定是否有合理可能使用的手段来识别自然人,应考虑所有客观因素,例如识别的成本和所需时间,同时考虑数据处理时可用的技术及技术的开发。因此,数据保护原则不适用于匿名化信息,即与已识别或可识别自然人无关的信息,或者以某种导致数据主体不可识别或不再可识别的方式匿名提供的个人数据。因此,本条例不涉及此类匿名化信息的处理,包括为统计或研究目的的处理。

[12] Federal Trade Commission, Protecting Consumer Privacy in an Era of Rapid Change: Recommendations for Businnesses and Policymakers, March 2012, https://www.ftc.gov/reports/protecting-consumer-privacy-era-rapid-change-recommendations-businesses-policymakers,p18-22.

[13] 《个人信息保护法》第4条第1款。

[14] 《信息安全技术 个人信息安全规范》第3.5条。

[15] 中国信息通信研究院:《隐私保护计算与合规应用研究报告(2021年)》。





END
往期推荐:




隐私计算头条周刊(8.14-8.20)


Gartner公布2022年的25项新兴技术,隐私计算占6项!


基于TensorFlow Encrypted (TFE)的隐私计算benchmark


SCI一区期刊专辑征稿 | 社会大数据隐私、安全与前沿计算主题


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


附下载 | 2022年隐私计算技术与行业应用报告合集(33份)


联邦学习前沿 | 基于图神经网络的联邦推荐系统研究 


招标 | 近期隐私计算项目招标18(联通、不动产、股权市场、银联等)


未来十年,将会有95%的企业采用隐私计算技术


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存