隐私计算能代表个人信息保护的方向吗?(DPO社群成员观点)
编者按
当下,在许多厂商、专家的眼中和口中,隐私计算俨然成为了解决个人信息安全合规问题的“万能解药”。三位从事隐私工作的“老兵”基于他们自身的工作经历和感悟,撰写了这篇反思性的文章,非常值得一读。
清楚记得在2018年,前团队成员为验证多方计算性能的优化,开发了多方+SGX的技术POC。场景是保护图片隐私,在原图不可见基础上实现图片AI分类。很快,有一天他兴冲冲的告诉我,他的技术原型比仅使用多方计算性能提升了1000+倍。看着他渴望激励的眼神,我问了他一个问题:多方+SGX的计算性能与直接明文计算的性能相差多少?至今,那个成员落寞的背影依然让我记忆深刻:联邦学习、多方计算、全同态等,既能保护个人信息,又能实现业务目标,数据可用不可见,多么完美的一个技术啊,可性能、通讯量等等成为横亘在其应用路上的大山,什么时候才能突破呢?
过去的2020年,如果说隐私增强技术领域至少在国内个人信息保护技术领域只有一抹亮色的话,那么毫无疑问就是隐私计算技术在国内的兴起,众多初创公司的涌现就是明证。(国外的亮点就多了,OneTrust强势依旧、Collibra等公司的强势崛起,Synthetic data的异军突起等等)。据说半年前的测试结果表明,多方安全计算性能只比明文计算平均慢了25倍,而且计算类别也突破了之前简单的加、减和比较三类,而开始支持统计分析、逻辑函数、分类算法甚至神经网络算法等等。随着众多力量的介入,一时间“可用不可见”成为隐私界的最流行语言,而隐私计算似乎代表了隐私/个人信息保护的方向。
如果仅作为一个技术研究人员,对隐私计算的进展,除了高兴还是高兴,感谢有那么多的创新者为此的付出!但在今天,随着对个人信息保护的理解,依然为技术进步欢欣鼓舞的同时,也需要提醒一下,隐私计算,并不是个人信息保护的全部,它只是试图解决当前个人信息保护最紧迫的问题之一而已,也只是个人信息保护发展的一个分支。那么,把隐私计算技术放在《个人信息保护法》所涉及到的场景下,它到底都有哪些问题呢?
一、隐私计算主要解决数据共享与流动的问题
尽管差分隐私等技术,其实也可应用到数据的匿名化收集;联邦学习算法,亦可实现用户的个人信息不上云等;更不用说,有人亦将常见的data masking等也纳入隐私计算的范畴,但当前隐私计算最有价值的应用场景,显然在试图解决“数据的孤岛”问题,解决数据共享处理、实现数据的合规流动的问题,尤其是在信贷的风控、医院间信息共享等场景。
但是,无论是GDPR还是中国的个人信息保护法,涉及到了个人信息的收集、存储、使用、加工、传输、提供、公开等个人信息的全生命周期,企业的个人信息合规所面临着的问题,显然不仅仅是数据共享和流通问题,譬如近段时间,从网安、工信等部门通报APP来看,更多的是聚集在个人信息收集侧。
《个人信息保护法》将于8月进入人大三审,即将快速落地,法律制度建设基本成型,也意味着将进入落实阶段,即合规阶段。近期的几个重大事件表明,过去的无法可依、或法不责众,或只是不痛不痒,那样的互联网发展时期已经过去,强治理、强监管的时代即将到来。在新的阶段,企业需要“补课”,具体在个人信息保护领域,就是要尽快构建涉及个人信息的收集、处理、使用、存储、删除或归档以及共享交换等全生命周期的合规管理系统,而这个系统,将是企业所有个人信息行为包括共享与交换“自证清白”的基础。更主要的是个人信息保护法正在改变个人信息的数据生态,尤其是明确了消费者查/删/改/复制等个人信息的权利,就如向消费者“发枪”。面对人手一枪的消费者,面临着大量汹涌而来的请求,对现在的任何一个收集、使用个人信息的企业而言,都将是不得不面对的“合规噩梦”,不论大小,无一例外。
二、隐私计算未彻底解决合规问题
隐私计算实现“数据可用不可见”,数据合作方无法得到真实的用户数据,似乎完美的解决了个人信息使用的合规问题,但真的如此吗?
消费者的授权同意不可缺。无论是GDPR还是我们自己国内的《个人信息保护法》,都明确表明,匿名化处理后的信息不属于个人信息,自然也就不受个人信息保护的限制。从理论上分析,数据合作方使用隐私计算技术,过程中的数据似乎都进行了匿名化处理(真的吗?),并不实际流转数据,或许不需要获得用户授权同意。但实践中,原始数据采集在前,采用隐私计算在后,数据合作各方仍需获得用户授权同意收集数据。譬如当在终端上使用联邦学习对用户行为建模时,需要收集用户的出行数据、购物消费数据等进行分析。尽管这些原始数据并未离开终端,并不意味着可随意收集,用户依然享有知情同意或者拒绝的权利,而企业需自证清白其在数据实际处理目的保持在合理的范围内。
在数据的使用阶段,多方计算与同态加密等算法以及可信执行环境等,尽管使用了高强度的加密算法,保证了数据不会泄露,但依然改变不了其“假名化”的本质而非匿名化,加密后的数据依然可逆(尽管密钥保护极好),使用加密计算后的结果在某些场景下依然反映出单个个体的某些特征,显然属于个人信息,将直接影响用户的切身利益。在这种场景下,依然要确定数据合作双方是否都获得了用户的授权同意;是否都未超范围使用用户的授权;授权同意的证明又是什么等。总之,即使“绝对的安全”,也并不等于“个人信息保护的合规”。隐私计算既不能豁免数据采集阶段的授权,更不能绝对豁免数据使用过程中的授权,要依据场景和算法等具体判断。
隐私计算实现了数据合作方之间的“可用不可见”,但从相关信息主体(消费者)看来,数据必须是自己“可控且可见”,这是法律赋予的权利。除了“授权同意”,使用隐私计算在某些情况下将面对另一个合规困难:数据主体权利请求的响应。无论是GDPR还是《个人信息保护法》,整体倾向于加强对个人信息主体权益的保护,都明确了消费者(个人信息主体)拥有对个人信息的查询、修改、复制等权利。尽管在计算过程中保证了数据的安全性,但只要采集了用户的个人信息,隐私计算数据合作双方大部分情况下,依然要正确的响应消费者权利请求(尽管如何披露以及披露哪些信息依然需要规范指导),同时也有可能不得不将对方“暴露”给消费者(如上文中提到,隐私计算的结果依然是用户个人信息的情况),而这种“暴露”,将给对方带来合规压力。
总之,多方计算等算法,解决了数据合作方之间互不信任而又可释放数据价值的问题,但并未解决所涉及个人信息主体的权利保护;只解决了个人信息保护中“数据最小化”和“确保安全”(机密性、完整性等)的要求,却无法保证消费者的知情同意,可知可控的等权利。所以,隐私计算技术的使用过程中,不仅隐私计算合作方都需要合规管理系统的支撑,其计算过程中的合规要求,依然需根据具体应用场景酌情判断,隐私计算无法绝对豁免合规要求。
三、隐私计算效率和性能提升问题,是其不得不面对的最大困难
隐私计算中的多方计算、同态等算法,试图用“绝对安全”解决数据的共享“合规”问题。这种安全,显然是通过计算的复杂度、多方交互通讯量等的提高来获得的,必然带来使用的性能下降,也使得大部分的应用场景均聚焦于少量数据的支持,对海量数据场景的支持能力还有待提升,存在着大系统、高算力、小任务的窘境。尽管隐私计算现在的性能提升了1000+倍甚至更高,但是其原理决定了性能优化一定是有天花板的,而且这个天花板还可能不低。(清楚的记得,当几年前我们落地差分隐私算法的时候,基本要求之一就是ε<3,性能下降不能超过3%)。要突破隐私计算等算法的限制,要么是算法革命性突破,要么是DPU等专用芯片的出现。期待隐私计算性能下降或下降的影响度会越来越少,使得其接受度更高,应用场景也更广。
基于隐私计算的性能、算力等要求,隐私计算实现数据流动的方式,其实像现实中的“武装押运”:数据的提供方、计算服务提供方、数据接收方互不信任,互相提防。这种模式,高安全、高成本、低效率,显然只适用于运送金钱、黄金等高价值目标。“武装押运”模式,显然并不适合应用于常规商品的运送,这时候,普适、高效、低成本的“快递公司”才是王道。那么有“快递公司”模式吗?什么是“快递公司”模式呢?后续详谈。
四、总结
隐私计算试图使用互不信任的“绝对安全”在代替合规,在解决数据提供方的自身数据安全不泄露来解决合规问题,本质上还是用安全代替个人信息保护,用安全(狭义)的思维来解决个人保护问题,那么,数据安全等于个人信息保护吗?显然不是。
隐私计算中的多方计算、同态算法等的应用有一个基本的假设:数据提供方对数据的任意使用享有控制权。这在个人信息保护法的背景下,显然是存在问题的,隐私计算合作方并不能简单通过技术豁免责任,依然需要合规管理系统的支撑。
考虑到实用性的问题,隐私计算性能改进,譬如多方计算安全性假设是其一个重要的参数:是基于半诚实假设还是支持恶意的敌手模型等等。这些参数的设置显然需要基于场景等进行具体分析,天然依赖于个人信息合规管理系统的支撑。
事实上,如果将数据的共享交流不是单独的割裂开来,而是将其纳入个人信息全生命周期的合规管理之下,深刻理解个人信息保护的本质,将个人信息共享与流动回归商业行为的本来,那么就会发现:隐私计算不是数据流动和共享的唯一选择。基于信任体系的构建,基于数据使用和流动生态的改变,基于数据的价值分配等等,不同的应用场景,选择最合适的数据共享和流动策略亦会不同。
重技术,轻管理的老毛病,不要再重犯了,在某个领域的教训还不够深刻吗?(完)
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
DPO线下沙龙的实录见:
自动驾驶系列文章:
数据安全法系列文章:
个人数据与域外国家安全审查系列文章
围绕着TIKTOK和WECHAT的总统令,本公号发表了以下文章:
第29条工作组/EDPB关于GDPR的指导意见的翻译:
关于美国出口管制制度,本公号发表过系列文章:
供应链安全文章:
数据跨境流动政策、法律、实践的系列文章:
传染病疫情防控与个人信息保护系列文章
人脸识别系列文章:
关于欧盟技术主权相关举措的翻译和分析:
关于数据与竞争政策的翻译和分析:
数据安全法系列文件:
中国个人信息保护立法系列文章:
健康医疗大数据系列文章:
网联汽车数据的系列文章:
人工智能安全和监管的系列文章:
赴美上市网络、数据安全风险系列文章如下:
中美与国家安全相关的审查机制相关文章: