查看原文
其他

隐私计算的“圣杯”:同态加密技术(HE)中的六个数据合规疑问

The following article is from 网络法实务圈 Author 麻策律师

系列:隐私计算:多方安全计算(MPC)中的7大数据合规挑战
文 | 麻策律师 垦丁网络法创始合伙人
本篇为隐私计算数据合规系列的第二篇,正如笔者在上一篇《隐私计算:多方安全计算(MPC)的7大数据合规挑战》中阐述的,隐私计算作为跨学科技术体系,融合了多方安全计算、同态加密、联邦学习、零知识证明等多维技术体系,而本篇主要关注被喻为隐私计算加密技术中的“圣杯”神器——同态加密技术。
《网络安全法》《数据安全法》《个人信息保护法》《网络数据安全管理条例(征求意见稿)》及《数据出境安全评估办法(征求意见稿)》等诸多数据领域的立法落地,对个人信息和数据的保护力度和要求陡然增强,“隐私增强合规”也需要提上日程。
“隐私增强合规”大背景下,各类数字经济似乎面临进退维谷的境地,更令人沮丧的是,与此对应的“隐私增强技术 (PET) ”似乎很难跟上“隐私增强合规”下的法律法规要求,难以适配新型立法形势。人们往往喜欢想从数据法律漏洞中找到业务瓶颈的突破口,但兴许我们只是在等待戈多。
核心的原因,是国家层面的立法难以给“隐私增强技术 (PET) ”直接“正名”,例如明确特定的隐私增强技术的去标识化或者是匿名化定论。国家层面的立法更像是“文科生式”立法,大部分的立法只会略显尴尬地提出“技术措施”、“加密”、“采取相应的加密、去标识化等安全技术措施”、“访问控制”等标准化用词,对于何类“技术措施”属于法律法规所认可的方式,只能智慧地“甩锅”给各类较低法律效力位阶的国家标准。
虽然很多技术措施在技术领域已成为公认可靠安全方案,但仍未获得数据法律法规的有效认同,原因也在于“道高一尺 魔高一丈”,技术的发展将为技术安全增加被破解的可能性,因此法律法规难以直接定性。
2021年2月,美国一参议员创新性地提出了《促进数字隐私技术法案》(Promoting Digital Privacy Technologies Act),希望对隐私增强技术进行了定义和“正名”。包括:(1)任何软件解决方案、技术流程或其他技术手段,以增强数据或数据集中的个人数据的隐私和机密性;(2)匿名化和假名化技术、过滤工具、反跟踪技术、差分隐私工具、合成数据和安全多方计算。这应该是全球范围内首次对数据“技术措施”实施的立法准备。
言归正传。同态加密(Homomorphic encryption,HE)是一种加密技术形式,它允许人们基于加密数据在不解密的情况下实施运算,以实现和基于明文数据进行运算一样的效果。
在以往,数据被采取加密措施保存在服务器后,将难以被检索和处理。即,当数据处理者对数据进行处理或分析时,需要首先进行数据解密,而后实施数据运算利用,因此,此类行为中可能存在数据泄露的风险。例如,当数据处理者将用户提交的“姓名”或“身份证号”明文存储在数据库中后,数据处理者在查找数据时,可以直接通过键入用户的“姓名”或“身份证号”字段,从而检索到该类信息及其它关联数据。而当数据处理者将“姓名”或“身份证号”采取加密措施(不可见明文)方式存储于数据库后,该类数据即难以被检索发现。同态加密技术可以实现在数据加密后仍然保持和明文数据一样的运算并得出有用的运算成果。
同态加密能够有效解决个人信息保护忧患和数据共享利用之间的矛盾关系。在此,我们以疾病分析预测应用场景为例,小黑希望将自己的病历、检查记录汇总发送给垦丁大健康机构进行数据分析,垦丁大健康机构有能力对所接收的数据进行专业分析,将形成健康评估报告交付给小黑。
(1)在数据立法缺失时代,小黑并不注重病历等医疗健康个人信息,于是直接邮件打包发送给垦丁大健康机构,垦丁大健康机构对明文数据进行分析后,形成专业的健康报告,通过邮件交付客户,显而易见的是,在此模式下,多处环节均面临数据风险。(2)在《个人信息保护法》出台后,小黑的隐私保护意识增加,其和垦丁大健康机构约定通过非对称加密方式共享小黑的医疗健康个人信息,即小黑将信息放进垦丁大健康机构提供的公开保险箱加密,以此免去提供或传输过程中数据被截取,并符合敏感个人信息加密传输的法律规范,垦丁大健康机构收到保险箱后使用私钥开启,取得明文数据后进行分析,并返还小黑评估报告结果。但在此过程中,一旦保险箱被打开解密,数据同样面临多重危险。(3)而现在,小黑找到了更安全的方式,即应用同态加密方式,此时,即使加密数据到达垦丁大健康机构,该机构也无法解密该数据,但同态加密却允许该机构像明文一样分析数据,同样生成一份数据处理结果报告,只不过这份报告只能定向返还给小黑。
同态加密不是一成不变的,从上个世纪七十年代的纯理论到如今也有近五十多年的发展历史,可以简单区别为部分同态加密和完全同态加密 (FHE) 等类型,主要区别为同态加法或同态乘法计算的连续性能力。完全同态加密技术也历经多代升级,不同的同态加密技术在对算力的要求及计算效率上也可能存在极大的不同,本文主要以完全同态加密为主论述标的。
Rivest、Adleman 和Dertouzos 在1978年首次提出了完全同态加密方案的想法。而直到2009年,IBM科学家Craig Gentry在斯坦福大学的博士论文中提出了第一个全同态加密方案,他将完全同态加密比作“一个带有手套的盒子,用于处理有毒化学物质……所有的操作都发生在盒子里,化学物质永远不会暴露在外面的世界。”
“同态”意味着不论是加密数据还是非加密明文数据,均有着相同的运算状态,得出同样的计算结果。和已形成行业高度共识的高级加密标准 (AES)及哈希散列算法不同,令人遗憾的是,同态加密似乎还没有形成统一的标准。
完全同态加密在解决数据孤岛中的正向效应是显而易见的,是实现“数据可用不可见”的重要利器。除了上述所举医疗领域,在金融防欺诈领域、保险应用领域及快消品等应用领域,完全同态加密能够让各方有意愿共享彼此的数据,并对数据不泄露产生信任。
目前,这项技术在云计算中有着最佳的应用。云计算作为新兴产业,客户数据的绝对化不可触碰是该行业的信心基石,未经授权的第三方(包括云计算公司及其员工)可能会发布、查看、窃取和使用敏感信息。
云计算公司经常声称其有技术能力对其出租的云服务器进行整体关停或空间释放(即强行删除服务器内全部数据),却没有技术能力对存储在其出租的云服务器中的具体内容进行直接控制。但是,此类说辞让大部分人看起来似乎仅仅也只是一项“君子协议”式单方承诺,难以完全降解客户对其数据被“偷窥”的疑虑。例如,媒体曾报道,2010年,美国一著名云服务公司员工称其前工程师滥用他的权限查看私人信息,其利用这些信息跟踪十几岁的女孩并监视她们的聊天会话,许多云服务商的员工拥有查看用户数据所需的权限。
在阿里云云计算侵权第一案中(北京知识产权法院民事判决书(2017)京73民终1194号),法院认为:“云服务商未经客户授权,不得访间、修改、披露、利用、转让、销段客户数据,并应采取有效管理和技术措施确保客户数据和业务系统的保密性、完整性和可用性。行业规范和行业伦理均对云服务器租赁服务提供者接触和控制容户存储的信息提出了极为严格的要求,故对其苛以直接控制服务器中存储信息的责任会带来严重的行业伦理冲突,这与法律规定信息存储空间服务提供者在接到权利人通知后立刻定位、核实、删除被诉信息形成了鲜明的对比,足见二者本质差异。”
但实践中,各大云计算公司客户对于云计算公司是“在技术能力上无法接触客户数据”抑仅仅只是“基于行业伦理不会接触客户数据”之间仍然充满怀疑。而此时,完全同态加密就能够给云计算的存储加密实施有效背书,即云计算公司将允许其客户以同态加密技术在云服务器中存储数据,并确保客户数据仍然和明文数据一样可有效利用。
在《个人信息保护法》背景下,完全同态加密面临何种数据合规挑战呢?
1、在完全同态加密场景下,个人信息处理的合法性基础是什么?
完全同态加密本质上也是一种加密技术,更是《个人信息保护法》规定中的数据处理行为。另外,基于完全同态加密后的数据的利用和使用,虽然明文不可见,但仍然是数据处理的一部分。因此,上述数据全部数据处理行为仍然需要定位明确的合法性基础,以机器学习为例,数据处理者不能仅基于其产品研发等自身利益出发,就径直利用用户终端中的照片实施深度学习。从常规来说,此合法性基础在绝大部分情况下仍然是基于用户的同意,只不过,在不对用户权益造成损害且平衡产业发展的情况下,宜明确为“概括同意”而非“单独同意”。
2、完全同态加密是否适配敏感个人信息处理的保护标准?
《个人信息保护法》第二十八条规定:“只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息。”一般的加密技术等措施可以视同是符合了个人信息保护的要求,而面临敏感类个人信息时,我们认为也应当适配目前所能达到的与其合规要求同类级别的技术保护措施——例如完全同态加密技术。以智能手机等IoT物联网厂商为例,当在其软硬件系统中布置人脸识别产品功能时,宜将人脸特征值保存在用户本地,但IoT物联网厂商不应当仅仅只采取一般加密保护措施,也应当杜绝对该类敏感数据进行解密后实施处理(宜在任何环境下均不接触明文数据),此时,利用一般的加密保护措施仅仅只能表示IoT物联网厂商尽到了《个人信息保护法》规定的“采取加密安全技术措施”,但未能达到“采取严格保护措施”的要求,同态加密技术能够杜绝任何情况下的明文接触,属于和合规风险适配的技术保障措施。目前,大部分的完全同态加密应用均和敏感个人信息相关联,这是值得重视的。
3、完全同态加密数据可以被认定为匿名化数据吗?
数据匿名化已成为遵守个人信息保护法律法规的例外,而加密技术在特定情况下仅可以被理解为一种去标识化方式或是一种技术保护措施,但不论如何,加密技术中存在的仍然是个人信息。基于加密技术本身的可破解性程度,或者加密技术结合源数据被识别的可能性大小,在特定情况下,加密数据仍然可能可逆转并重识别特定个人。
我国至今没有形成统一共识的个人信息匿名化技术及相应的标准,个人信息是否匿名化完全依赖于数据处理者的掩耳盗铃式“自我吹嘘”。欧盟《通用数据保护条例》认为:“为了匿名化任何数据,必须从数据中去除足够的元素,使得数据主体不再能够被识别。更准确地说,必须对数据进行处理,使其不能再被控制者或第三方通过使用‘所有可能合理使用的手段’来识别自然人。”
从总体上来看,个人信息匿名化存在绝对匿名化和相对匿名化的两类标准,前者指无论采取何种方式均不可能重识别个人,而相对匿名化则需要数据处理者考虑“所有可能合理使用的手段”,尽到高度善良管理人注意义务即可。欧盟第29条数据保护工作组在《关于匿名技术的第05/2014号意见》中进行了举例说明:加密技术条件下,密钥持有者可以解密数据;散列哈希算法条件下,虽然数据确实不可逆,但只要输入值够明确,则仍然可以在对碰一致性情况下重识别个人信息。该意见也没有将完全同态加密等作为一种匿名化技术进行论证。
在完全同态加密场景中,除了数据输入方持有密钥外,各方实际上均无法破解加密的个人信息。但实际上,数据输入方本身一般也不属于自然人本身,其只是有效的杜绝了数据合作方接触明文数据,但却无法杜绝数据处理者自己接触最终的明文数据。因此,从相对匿名化角度来看,完全同态加密并不属于匿名化技术。
4、完全同态加密数据丢失的的情况下,是否被视为个人信息的泄露?
《个人信息保护法》第五十一条规定个人信息处理者须“防止未经授权的访问以及个人信息泄露、篡改、丢失”,若完全同态加密数据发生“出库”事件,是否就可以视为个人信息的泄露或者丢失呢?
之所以要考虑这个问题,在于《个人信息保护法》第五十七条规定:“个人信息处理者采取措施能够有效避免信息泄露、篡改、丢失造成危害的,个人信息处理者可以不通知个人;履行个人信息保护职责的部门认为可能造成危害的,有权要求个人信息处理者通知个人。”
笔者认为,完全同态加密技术在不丢失密钥情况下,其加密数据无法被任何人读取,因此即使发生出库事件,亦能够有效避免信息明文的泄露和丢失,更不用说造成危害,因此无须通知个人或上报主管机关。当然,上述内容仍应当根据《个人信息保护法》第五十六条的规定,实施必要的个人信息安全影响评估。
5、完全同态加密环境下,数据共享存在合规路径吗?
《个人信息保护法》第二十三条对数据“共享”进行了史无前例严厉的规制:“个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。接收方应当在上述处理目的、处理方式和个人信息的种类等范围内处理个人信息。接收方变更原先的处理目的、处理方式的,应当依照本法规定重新取得个人同意。”当然,数据共享的实质概念远比本条所规定的“对外提供”更为宽泛,其可能还包括数据的委托处理、共同控制、主体混同中的数据转移等情形。
那么,完全同态加密技术的应用,能够超越数据立法中的严格规范么?在假设两个不同的数据处理者之间是独立的数据处理关系而非委托处理情况下,不同的个人信息处理者将其所收集的数据,用于提供给第三方数据处理者实施不同目的的数据处理时,是否仍然需要用户的单独同意呢?毕竟,各方均无法接触明文数据。
5、完全同态加密状态下,是否给个人信息的跨境传输提供了解决方案?
个人信息的跨境提供是极高敏感度行为,也可能需要实施必要的数据出境安全评估。但在完全同态加密状态下,数据均为加密信息,各方可以直接在密文数据基础上实施数据利用,各方虽然可以访问,但却没有必要传输并保存至跨境国的本地,即数据无须实施跨境传境传输即可实施数据共享。
更难能可贵的是,完全同态加密不仅保护静态的数据,更保护动态处理中的数据。随着COVID-19 的全球大流行,全球各国均有必要加强疫情和疫苗研究数据在必要范围内的共享,访问大量汇聚的电子健康数据和处理这些数据的超级计算能力,能够使世界各地的医生和研究人员能够以人类历史上前所未有的速度开发疫苗。


END


往期回顾

隐私计算头条周刊(4.10-4.23)

一图看懂2022隐私计算行业全景现状

《“十四五”广告产业发展规划》:推动建立广告产业数据共享机制

欢迎投稿邮箱:ppc@openmpc.com更多讨论,请扫描下方二维码,加入交流群一起学习成长。


开放隐私计算


OpenMPC

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存