中心研究 | 十问十答看懂我国个人信息去标识化规则
全文共计约5400字,细读时间约18分钟
2021年4月21日,国家信标委发布了国家标准《信息安全技术 个人信息去标识化效果分级评估规范(征求意见稿)》(以下简称《分级评估规范》)。该标准提出了个人信息标识度分级和评定方法。在内容沿革上,该标准是对GB/T 35273-2020 《信息安全技术 个人信息安全规范》(以下简称《个人信息安全规范》)和GB/T 37964-2019 《信息安全技术 个人信息去标识化指南》(以下简称《去标识化指南》)的细化,前者对个人信息的安全使用提出了规范,提出了去标识化的要求;后者就如何开展去标识化活动给出了指导。而该标准依据个人信息能多大程度上标识个人身份进行个人信息去标识化效果分级,可用于评价个人信息去标识化活动的效果,从而在保护个人信息安全的前提下促进个人信息的使用。
本文对该标准进行简要分析,在分析其内涵、意义与评估方法的基础上,提出我国个人信息去标识化规则的完善路径。
个人信息去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。去标识化采用假名、加密、哈希函数等技术手段替代对个人信息的标识,但在一定程度上保留了个人信息的颗粒度。个人信息去标识化的目的在于降低信息对个人的识别程度,使得单个信息不能识别到特定个人。
“去标识化”(de-identification)、“匿名化”(anonymization)与“假名化”(pseudonymization)都是数据脱敏处理中的重要手段,三者都能够满足处理后单独信息无法识别个人,但区别在于,不同国家的规定中三者的内涵不同:
我国《个人信息保护法(二审稿)》《个人信息安全规范》中使用的是“去标识化”和“匿名化”,而“假名化”属于去标识化所使用的一种技术手段。去标识化是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程;匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。
欧盟《通用数据保护条例》(GDPR)中使用的是“假名化”和“匿名化”,其假名化与我国去标识化内涵类似,是指通过对个人信息的技术处理,使其在不结合额外信息的情况下,无法识别特定数据主体,且额外信息被分开存储并受技术、管理措施的保护;匿名化的内涵较我国相比更加宽松,是基于“合理可能”(reasonably likely)标准,综合考虑技术、成本、时间等因素,如果数据控制者或其他人采用了所有合理可能的方法,仍无法直接或间接识别数据主体,但欧盟第29号工作组《关于匿名化技术的意见》则要求,匿名化应当实现不可复原的去标识化(irreversible de-identification),与删除一样具有永久性。
美国《加利福尼亚州消费者隐私法》(The California Consumer Privacy Act,CCPA)使用的是“假名化”和“去标识化”,其假名化与我国去标识化内涵类似,指不使用额外信息无法识别个人,且额外信息被分开存储并受技术、管理措施的保护;但去标识化与我国匿名化内涵不同,指信息无法合理地、直接或间接地识别、关联到特定的个人,而且要求信息处理者主观承诺确保其不会进行重标识(re-identification)。
按照脱敏处理后的信息能否识别特定个人,能够将识别程度分为三个层次“结合其他信息可识别”、“合理可能的不可识别”和“不可复原的不可识别”。以下用两张表格来说明:
(参考来源:杨建媛,邬丹:《“数据脱敏”不同法域下匿名化、去标识化、假名化的含义一致吗?》,载微信公众号《合规科技研究》2021年3月18日。略有改动)
假名化、去标识化以及匿名化在各国立法中的内涵,如图所示:
在我国的语境下,假名化只是个人信息去标识化的技术手段,因此只需分析去标识化和匿名化。二者的区别在于,匿名化的技术手段更彻底,对个人信息保护的程度更高,经过匿名化的个人信息无法再识别到个人,但是去标识化后的个人信息在借助额外信息的情况下仍可再次识别到个人。从法律性质上来看,个人信息匿名化处理后不再属于个人信息,而去标识化处理后仍属于个人信息。从应用场景上来看,匿名化可以视同删除,个人信息匿名化后也可以直接对外提供,而去标识化是个人信息处理者内部的一种个人信息安全保护手段。个人信息去标识化后仍属于个人信息,需要满足知情同意规则或其他个人信息处理合法性基础。
在技术不断发展的背景下,难以实现个人信息的绝对匿名化,而且过高的匿名化标准要求还会损害流通中数据的质量。因此个人信息去标识化,可以作为保障个人信息安全和促进信息利用的重要举措。一方面,对个人信息进行去标识化处理,可以避免他人根据数据直接识别出个人,增强了个人信息的安全性。另一方面,结合业务目标和个人信息特性,选择合适的去标识化技术,能够确保去标识化的个人信息尽量满足预期目的,实现了个人信息的有用性。
而对个人信息标识度分级,是进行数据分级分类的重要环节。个人信息作为数据集中最敏感也最能够挖掘价值的数据,进行分级分类是非常有必要的,既有利于个人信息的区别保护和精细化把控,也有利于促进数据价值的释放,推动企业合规利用个人信息。
7种常用去标识化技术
(1)统计技术,是一种对数据集进行去标识化或提升去标识化技术有效性的常用方法,主要包含数据抽样和数据聚合两种技术。
(2)密码技术,包括确定性加密、保序加密、保留格式加密、同态加密、同态秘密共享。
(3)抑制技术,即对不满足隐私保护的数据项删除,不进行发布,包括屏蔽、局部抑制和记录抑制。
(4)假名化技术,是一种使用假名替换直接标识(或其他准标识符)的去标识化技术,包括独立于标识符的假名创建和基于密码技术的标识符派生假名创建。
(5)泛化技术,是指一种降低数据集中所选属性颗粒度的去标识化技术,对数据进行更概括、抽象的描述,包括取整、顶层与底层编码。
(6)随机化技术,指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值,包括噪声添加、置换、微聚集和数据合成技术。
(7)数据合成技术,是一种以人工方式产生微数据的方法,用以标识预定义的统计数据模型。
2种常用去标识化模型(1)K-匿名模型,是在发布数据时保护个人信息安全的一种模型,要求发布的数据中,指定标识符属性值相同的每一等价类至少包含K个记录,使攻击者不能判别出个人信息所属的具体个体,从而保护个人信息安全。
(2)差分隐私模型,是针对数据隐私泄露问题提出的一种隐私定义,可以用来在数据采集、数据处理和数据发布中对数据集的隐私损失进行度量。差分隐私确保数据集中任何特定个人的存在与否无法从去标识化数据集或系统响应中推导出。
标识符,是个人信息中的一个或多个属性,可以实现对个人的识别,包括直接标识符和准标识符,二者的区别在于,能否在特定环境下直接识别个人。
直接标识符,是任何在特定环境下直接识别个人的识别号码、特征或代码。常见的直接标识符包括但不限于:公民身份号码、护照号、驾照号、银行账户、车辆标识符和序列号、社会保障号码、健康卡号码、病历号码、设备标识符和序列号、生物识别码(包括指纹和声纹等识别码)、全脸图片图像和其它任何可比对的图像、账号、证书号或许可证号、互联网协议(IP)地址号、网络通用资源定位符(URL)等。
准标识符,是任何在相应环境下无法直接识别个人,但结合其它信息可识别个人的属性。常见的准标识符包括但不限于:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问相关日期)、地理范围(例如邮政编码、建筑名称、地区)、族裔血统、国籍、籍贯、语言、原住民身份、可见的少数民族地位、职务、工作单位、部门等职业信息。
标识度,是从数据中能识别出个人的程度。基于重标识风险从高到低,个人信息标识度划分为4级:
1级是能直接识别个人的数据,是包含直接标识符的数据,在特定环境下能直接识别个人。
2级是消除直接标识符的数据,是指删除了直接标识符,但包含准标识符的数据,或者对直接标识符进行了处理(例如:泛化、抑制等),使其不再能直接标识个人身份,并且重标识风险高于设定阈值的数据。例如:常见的身份证号码或者手机号码将部分位段标“*”处理,已转化为准标识符。
3级是重标识风险可接受数据,是指消除了直接标识符,且重标识风险低于设定阈值的数据。
4级是聚合数据,是对数据进行汇总分析得出的聚合数据,不再包含个例数据。
举一个《去标识化指南》里的例子,在某个具体应用中,需要对某组织不同工作年限的薪资水平进行分析,原始数据集包括:姓名、性别、薪水、工作年限、职务。
首先进行去标识化:
(1)姓名需要应用抑制技术删除:通过【职务,工作年限】或【职务,性别】也可以推导出该组织中的一部分员工,因此应用抑制技术删除职务属性;
(2)剩下的【性别,薪水,工作年限】,有被重标识的风险,需要结合泛化技术,对“薪水”“工作年限”属性值进行泛化处理,如薪水泛化为5000-10000、10000-15000、15000-20000等,工作年限泛化为0-3年、4-6年等;
(3)如果数据记录中只有1人工作年限为0-3年,薪水为15000-20000,则能够定位到某个员工,应用抑制技术删除该条记录。
然后按照《分级评估规范》中的计算方式进行重标识风险计算。去标识化的个人信息,一般已经不再包含有1级数据了,《分级评估规范》中对直接标识符进行了不完全列举,涉及 “任何在特定环境下可唯一识别个人的识别号码、特征或代码”,如设备标识符、序列号等都算在内。
刚才的例子里没有涉及4级聚合数据,也就是各种统计量,这一般是多个个体的某些个人信息进行统计之后得出的一个量。至于2、3级数据,是包含“准标识符”的,需要通过重标识风险计算来进行评定,这也是判断在去识别化过程中用的抑制和泛化等去识别化手段是否充足的检查方法。
《分级评估规范》中,用流程图画出了个人信息去标识化效果的评定流程。主要分为三个阶段。
第一阶段是接收需要评估的内容。包括个人信息及后续计算中需要的系数。
第二阶段是进行定性评估。判断是否属于聚合数据(4级),如果不是的话再判断是否包含能直接识别个人的数据(1级)。
第三阶段是进行定量评估。如果不包含1级数据,需要进行定量计算重标识风险,根据计算结果与“重标识风险阈值”的比较结果,来划分数据是2级还是3级。
根据评定流程,先评定第4级和第1级,再评定第3级和第2级。是因为4级和1级对应的是重标识风险的两个极端,1级代表风险极高或者可以直接识别,4级代表风险极低或者不存在风险。
从识别难度看,这两个级别的评定是简单和快捷的,且识别性明显,易于区分。从数据类型看,不属于1、4级的数据才可能属于2、3级,必须优先评定1、4级。在评定1、4级时,如果一个数据集中同时存在1、4级数据,应当按照最高风险来评定,即属于1级数据。
个人信息去标识化效果分级,能够将风险量化呈现,具有非常明确的指导和实践意义,值得我们关注和思考,但对应的去标识化规则也有一定的完善空间。
一是需要进一步修正《分级评估规范》中的相关概念内涵,首先,4级聚合数据不再包含个例数据,因此部分的聚合数据(例如平均数)符合匿名化的内涵,应当将此类数据从4级中予以排除。其次,对于直接标识符的列举应该更加准确,例如,一般情形下,仅仅依靠姓名无法直接识别个人,不应将姓名列入直接标识符中。最后,对参数和算式进行更多的说明和注解,例如将“重标识风险阈值设定为0.05”的依据,以降低理解与实操参照门槛,起到普及和指导作用。
二是完善分级结果对应的后续处理行为,规定个人信息处理者针对不同级别的个人信息能够进行哪些处理活动,以及不同类型的个人信息是否应该在去标识化分级处理上存在差异,如金融类个人信息、医疗类个人信息等。
三是完善分级评估机构的规定,由国家层面成立或指定特定机构进行评估还是由不同企业内部成立评估机构进行,直接关系到该分级评估规范的落实主体,目前来看,相关规定是不明确的。
敬请期待
6月03日:规范生物识别技术使用强化生物特征数据保护
6月08日:美俄克拉荷马州即将通过计算机数据隐私法案
6月15日:英国威尔士政府发布数字战略,明确六大任务
6月18日:半导体作为自然资源——探索中美技术竞赛的国家安全层面
6月29日:欧盟高风险人工智能监管的五大亮点
往期精彩回顾中心会议|《个人信息保护法(草案二次审议稿)》研讨会顺利召开中心研究| 商务部《阻断办法》解读与“国际阻断立法”比较研究
中心研究| 数据治理 |数据价值演变下的个人信息保护:反思与重构
域外观察| 数字市场秩序 | 欧盟公布《数字服务法案》和《数字市场法案》,单一数字市场促进举措大力推进
中心研究| 数据跨境流动 |RCEP迈出全球数据跨境流动规则体系构建重要一步
中心研究|未成年网络保护 | 《未成年人保护法》修订:十大制度亮点推动未成年人网络保护进入新阶段
域外观察|欧洲议会发表了《欧洲数字主权》报告
中心研究|关于美国实体清单制裁事件有关情况的梳理
全文翻译| 新加坡发布《个人数据保护法(修订)》草案
全球跨境数据流动国际规则及立法趋势观察和思考
域外观察│美国制裁华为相关法律问题梳理中心研究│个人信息保护中的“用户同意”规则:问题与解决中心研究│人工智能发展与个人隐私保护问题全