数据脱敏技术概念及应用
目前不同国家对数据处理都有一定的法律法规约束,如果处理不当可能存在法律风险,但基本认知共同点,可以参考《网络安全法》第四十二条第一款:
“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”
隐私保护的目的是数据使用隐私保护技术后,可以安全发布,同时又最大限度的保留原始数据的整体信息,保持其研究价值。当前的研究热点主要在两个方面:
(1)隐私保护技术能提供何种强度的保护,能够抵御何种强度的攻击;
(2)如何在保护隐私的同时,最大限度地保留原数据中的有用信息。
为了降低个人信息处理导致法律风险,继而衍生了一系列数据处理相关技术名词,比如数据脱敏(DataMasking)、匿名化(Anonymization)、假名化(Pseudonymization)、去标识化(De-Identification)。但这些专业术语根据国家法律法规的解读不同,定义也存在一定的出入。
数据脱敏,本身属于一个宽泛的概念,并不特指某个技术。从技术上解读,去标识化、匿名化等都是数据脱敏的实现方式。又称数据漂白、数据去隐私化或数据变形。数据脱敏技术的核心是通过对敏感数据进行变形处理以降低其敏感程度。
根据脱敏处理后的数据是否可以被重标识,可将脱敏技术进一步细化。脱敏后的数据可被重标识(相当于去标识化,下面进行解释),就是数据经过脱敏规则的转化后,可以经过某些处理还原出原来的数据。相反,脱敏后的数据不可被重标识(相当于匿名化),即脱敏后的数据将无法还原到原来的样子。
需要注意的是,数据脱敏是一个技术术语,在法律语境下很少使用。法律语境下常见的术语主要有以下两种:去标识化(De-Identification)和匿名化(Anonymization)。
去标识化和假名化多出现于各国的法律法规中,但解释存在差异。本规范将假名化等同于去标识化,参考《信息安全技术个人信息安全规范》(GB/T35273-2017)给出的定义:通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。
从法律上解读,去标识化后的信息本质上还是个人信息,数据采集、共享给第三方等相关数据处理需满足合规要求。去标识化建立在个体基础之上,保留了个体颗粒度,采用假名、加密、哈希函数等技术手段替代对个人信息的标识。在使用去标识化技术的过程中,通常会使用一些辅助信息。这些辅助信息包括从原始数据集中删除的标识符、假名分配表或密钥等,采取必要的措施来保护这些辅助信息有利于降低重标识风险。
从技术上解读,去标识化技术有助于落实安全设计中“权限最小化”原则,可提供对用户数据保护功能,避免攻击者直接识别或者结合其它信息识别出原始个人信息主体。可通过对信息管理,增加个人标识符的访问控制,进一步提升数据安全性。
从很多文献解读,匿名化比较通用的解释是指通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。
从法律上解读,个人信息经匿名化处理后所得的信息不属于个人信息。在使用满足匿名化要的技术手段的前提,匿名化后的数据不再属于个人信息。
从技术上解读,当前业界并没有国际通用性匿名化技术标准,本规范从数据保护层面对现有匿名化技术加以说明,采用匿名化技术能够进一步加强个人信息处理贴合法律层面匿名化要求。
匿名化有重要的合规遵循的应用价值,尤其是在数据统计、研究以及数据开放与共享场景中。
由于目前不同国家的法律法规没有从技术手段给出明确要求,所以技术方法的演进一直没有停止。而且从技术本身去标识化和匿名化也没有明显界限。本文参考《信息安全技术—个人信息去标识化指南》进行简单汇总,仅供参考:
PS:由于技术方法很多,本文只做罗列,感兴趣的朋友可以自行检索。
技术类型 | 名称 | 描述 | 示例 |
匿名化 | 掩码 | 利用“*”等符号遮掩部分信息,并且保证数据长度不变,容易识别出原来的信息格式,常应用于身份证号、手机号等 | 13812345678→138*****678 |
取整 | 针对数字类信息上下取整,降低精确度,常应用于年龄、收入、出生日期等 | 1988/12/12→80后 29岁→(20,30) 月工资12345→5000+ | |
删除 | 针对包含敏感信息的一组数据,降低整体数据敏感性,将敏感信息删除后使用 | 张三、13812345678、男、心脏病→男、心脏病 | |
平均值 | 针对数值型数据,计算它们的平均值后,将脱敏值在均值附近随机分布,在改变数值的情况下不改变数据总值和均值。 | {11, 22,33}→{22,22,22} | |
随机化 | 使用随机数据代替真实值,如随机生成客户姓名代替真实值 | 姓名:无绿从 手机号:78458963544 | |
泛化 | 其思想是通过降低准标识属性值的精度,使得数据表中在准标识属性上值相同的元组个数增加,从而降低攻击人员通过准标识属性标识个体的身份或个体的敏感值的概率。 | ZIP={311570, 311572,311575, 311578, 311579}→3115** {结婚,离婚,丧偶}→已婚 | |
去标识化 | 替换 | 通过替换形式降低敏感信息敏感度。替换一般会留存对照关系表,方便查表替换数据。 | 张三→Z 李四→L 王五→W |
加密 | 通过加密算法对数据进行加密处理,包括但不限于对称加密算法、非对称加密算、哈希算法(存在被彩虹表查询风险)等 | 13812345678 ↓ rlOd6hZL8xCY6 | |
排序 | 通过将数据记录划分为若干个组,并在各组中打乱敏感属性值的顺序,降低准标识符与数值型敏感属性的关联度,该方法主要针对敏感属性为数值型的数据。(建议部分标识符需要先进行匿名化处理) | {(张三,34,心脏病), (李四,21,健康), (王五,45,癌症)} ↓ {(王五,21,健康), (张三,45,癌症), (李四,34,心脏病)} |
03个人信息保护法Q&A-企业篇