AEPD和EDPS | “哈希函数简介——用于个人数据假名化技术”中译文(DPO社群出品)
编者按:
译者序言:关于哈希作为假名化手段的适用
2019年11月欧洲数据保护专员公署(EDPS)联合西班牙数据保护局(AEPD)发布了一份名为《哈希函数简介——用于个人数据假名化技术》(Introduction to The Hash Function as A Personal Data Pseudonymisation Technique)的文件,对哈希技术在个人数据假名化中的运用进行了介绍。这一文件重点说明了哈希技术的基本原理和属性,同时分析和阐释了这一技术在个人数据假名化中的应用可能带来的风险,从而帮助判断该等技术是否合适可用。
理解这一文件需要先澄清两个基本的概念:“假名化”(Pseudonymisation)和“哈希”(Hash)。
“假名化”
欧盟在《通用数据保护条例》(“GDPR”)第4条中对“假名化”给出了官方释义:
假名化是一种使得个人数据在不参照其他数据的情况下无法指向特定数据主体的个人数据处理方式。该处理方式将个人数据与其他数据分别存储,并且会采取相应的技术和组织措施而使得个人数据无法指向一个已识别到的或可被识别的自然人。
因此“假名化”是一种数据处理的方式,目的在于确保经过该等方式处理的个人数据无法“单独”被用于识别出一个自然人。但经过“假名化”处理的个人数据在与其他个人数据结合的情况下仍可能识别出特定数据主体,因此仍属于个人信息的范畴,这点构成了与“匿名化”个人数据之间的定性区别。
“哈希”
哈希技术是一种在个人数据处理活动中经常用到的技术手段,通过散列算法将任意长度的数据转换成某一固定长度的数据,转换后输出的数据就是哈希值。本文件在第二部分中对于哈希技术也做出了具体的界定:
摘要(digest)或哈希函数是一个转换固定长度字符序列中的任意随机数据集的过程,无论输入数据的大小如何。所输出的称为哈希值或码、摘要、图像或哈希。通常,“哈希”术语既用于指代哈希功能也指代哈希值,其中哈希值是指针对特定消息运行哈希功能所输出的值。
而考察这一文件发布的必要性和制度背景,则需要将GDPR的立法初衷、“假名化”对于实现该等立法初衷的作用、“哈希”技术对于实现“假名化”的实践价值这三者纵向联系起来考虑。GDPR在序言和正文中多处提及“假名化”,并明确了这一措施能够降低数据主体的风险、帮助数据控制者和处理者满足其数据保护义务。虽然假名化体现了隐私保护设计的技术侧保护措施要求,但GDPR条文本身是技术中立的,没有对采用何种技术视为“假名化”处理手段进行倾向性评述、建议亦或是做出适用层面的强制性要求,更没有对“哈希”技术作为“假名化”具体手段之一如何运用进行解释和限定。而哈希则是目前普遍采用的、可实现“假名化”效果的技术手段,因此,如何全面理解、恰当使用哈希这一手段对于实现GDPR设立的若干原则、实现个人信息保护的实际效果,就变得很有现实意义了,相应的,这一文件的出台也就有了具体实用的落地指引功能。
当然,相比之下,我国的《个人信息安全规范》则把“哈希函数”、“假名化”明确列为“去标识化”的技术手段,则是更为直接地展示了哈希技术之于个人信息保护的作用。
此次EDPS和AEPD这一关于哈希的介绍文件内容很丰富,简单梳理要点如下:
哈希值的理想属性
文本、图像、视频等所有可数字化的内容均可转换输出为哈希值;
任何给定数值输入都可产生对应的固定大小的数值输出;
相同数据输出相同哈希值,反之,一旦输入数据出现任何细微变化,则输出的哈希值也将完全不同;
通过哈希值难以重新识别原始输入的数据或信息。
哈希值作为唯一标识符的有效性
同一哈希值输出的数据或信息是多元的,并非唯一。这种情况下将哈希值作为输入数据或信息的唯一标识符,其有效性是存疑的。
哈希值的重新识别问题
哈希值对于数据处理而言,目的在于使得经过该等处理后的数据不可被重新识别。在将哈希值应用于产生直接标识符时,则必须防止该直接标识符被重新识别进而得出原始数据或信息。
将信息与哈希值关联
数据文件本身的某些信息具有“标识符”功能,这些信息与数据持有者(data holder)具有唯一对应的关联关系。这种情况下,当这些信息与哈希值相关联时,则哈希值内容就可能被识别出。此等能与哈希值关联的信息越多,哈希值内容被识别出的风险就越高。
数据文件还可能包含其他信息,通常与其他数据捆绑、交叉解读进而用于识别某数据个体。这类数据本身可能仅发挥“非数据处理目的”的次要功能,亦或是为“数据处理目的”而互相联接,进而与哈希值相关联。这类信息称为“伪识别符”、“准标识符”或“间接标识符”,与哈希值联接后可能会导致识别出数据持有者。
干扰哈希值重新识别的策略
一种策略是针对数据使用加密算法,密钥由数据控制者或与其他参与处理操作者秘密存储,从而在完成哈希值转换之前对该等数据进行适当加密;或者,在得出哈希值之后即对其进行加密,此过程中会在原始信息(数据)之上产生一条新信息(数据),可通过对该新信息使用密钥进而获取原信息。
另一种策略是在评估哈希值之前针对全部信息增加一个固定值或“盐”。这里的“盐”是指任何增加在原始信息之上的随机值,其随机性必须独立于该信息或其他任何信息。
第三种策略是“一次性盐模式”。假设相关“盐”被删除,尽在遵守某些保证的前提下,原始信息以及使用“一次性盐”的标识符可被认为达到“匿名化”效果了。“一次性盐”为每一条消息生成一个单独的随机元素,该随机元素必须完全独立于任何信息及为任何其他信息生成的其他“盐”值。
第四种策略是“差分隐私模型”。在信息中心加入一个“噪音值”,不同于在信息中加入一个作为首位的“盐”,“噪音值”被加入到信息本身当中。该噪音值可通过集中不同方式来应用,如图形、声音或其他可扩展的信息。噪音值应遵循某些条件:首先,需要分析它的随机性以及它与信息内容发生关联的可能性;其次,不同信息之间引入的“噪音值”应避免关联;再次,它必须被技术现状验证无法被适用于反向识别模式。
作为个人数据假名化或匿名化系统的哈希分析
为评估哈希技术在个人数据保护方面的适当性,除考虑一部分已描述到的因素外,还应当考虑另一部分取决于实施情况的因素,包括:哈希的计算过程、处理的信息空间、哈希值与处理环境中的其他信息关联、密钥及其他随机元素,以及对上述因素的持续管理与审核。
意见的总结
在使用哈希技术进行个人数据假名化或匿名化时,文件特别提示了一些需要注意的事项:
风险评估。在使用哈希技术进行个人数据假名化或匿名化时,必须评估数据处理中具体使用的哈希技术是否具有再识别的风险。
同时还需考虑一些基本要素:建立哈希值时,由高水平的信息熵;使用“一次性盐”或随机值;使用适当的随机信息生成器实施加密技术;安全访问哈希过程;零关联“标识符”、“伪标识符”和其他信息;对哈希系统管理程序定期考核;
风险评估需要评定以下事项:具备确保可删除所有允许再识别信息的组织措施;合理保证系统具备超出个人数据预期使用寿命期限的稳健性。
为确保履行GDPR所确立各项原则,需要进行严格的事先定性分析,以客观地确定哈希的适用性。
以上归纳与摘要仅供参考。文件还同时提供了多个图解说明,更为形象地说明了哈希的技术原理;附录中则列出了GDPR等规范文件中的相关条款,供读者便利参考。
无疑,作为最为常见的数据假名化和去标识化手段之一,哈希的使用不仅是个人信息保护的有效技术措施,也是数据控制者和处理者履行法定义务的自我证明,值得信息安全和法律专业人士从不同的视角来共同关注和学习。
下载《哈希函数简介——用于个人数据假名化技术》中译文,请点击文末左下角的“阅读原文”。【提取码:esra】
数据保护官(DPO)社群主要成员是个人信息保护和数据安全一线工作者。他们主要来自于国内头部的互联网公司、安全公司、律所、会计师事务所、高校、研究机构等。在从事本职工作的同时,DPO社群成员还放眼全球思考数据安全和隐私保护的最新动态、进展、趋势。2018年5月,DPO社群举行了第一次线下沙龙。沙龙每月一期,集中讨论不同的议题。目前DPO社群已近300人。关于DPO社群和沙龙更多的情况如下:
DPO社群成果
线下沙龙实录见:
评估GDPR效果和影响:
线上沙龙见:
DPO社群成员观点