查看原文
其他

隐私计算:多方安全计算(MPC)中的7大数据合规挑战

麻策律师 网络法实务圈 2022-11-05
文 | 麻策律师 垦丁律师事务所创始合伙人
隐私计算是解决数据孤岛效应的有效方式,多方安全计算(MPC / SMPC)是隐私计算的典型代表技术解决方案。
多方安全计算最早由图灵奖获得者姚期智院士在1982年的短篇论文《安全计算协议》中提出,而姚院士就是清华大学“姚班”的命名来源。在其《安全计算协议》中,姚期智院士开篇即提出了著名的“百万富翁斗富”命题,即“在不想让对方知道自己财产具体金额条件下,两个百万富翁如何才能知道谁更富有?”
多方安全计算就是这样一种加密计算技术,它使不同主体能够使用他们的私有明文数据执行计算,在输出各方均希望的结果后,却不会相互泄露他们的私有数据明文值,解决了在一组互不信任的参与方之间联合计算一个函数的问题。
我们也可以用“谁是买单者?”的游戏示例说明多方安全计算函数的运行原理。在该游戏中,小白、小黑和小红一起聚餐吃饭,他们决定由工资最高者买单,但他们不希望让其他人知道自己的具体工资,该如何实现?
方案一:三人均将工资金额告诉店员,店员直接指出小红工资是最高的,但小白和小黑可能出于好奇在事后买通店员而导致小红信息泄露,方案否决。
方案二:三人均直接确定一个大致的工资随机数,然后各方将自己的工资和随机数进行比较,高于随机数的将买单(在第一轮无法得出结果情况下,可再进行第二轮比较),这样也会不泄露具体工资金额,但随机数可能因为设置不合理等原因,导致在多次设置随机数的流程中被人猜出特定人的具体工资(或接近推断出金额),方案否决。
方案三:通过多方安全计算实现。即,小白将自己的真实工资加上一个随机的巨大值(完全偏离正常工资的数值),得出数值A并只告诉小黑,小黑将自己的真实工资加上数据值A得出数值B并只告诉小红,小红将自己的真实工资加上数值B得出数值C并只告诉小白,小白再最后将数值C减去原来自己设置的随机巨大值,得出的最后数值即为三人的工资总和,并依此得出三个人的平均工资并输出公布给小黑和小红。最后各方通过将自己的工资和平均工资相比,得出小红的工资最高,因此小红买单。当然,若此时公司有100人想加入,并计算出最高工资者,则只要将每轮在平均工资以上的人再依此方式重复重新计算,最终仍然可以计算出最高工资者。
在上述“谁是买单者?”游戏中,任何人都不可能知道其它参加方的具体工资金额,每人均完全掌握自己数值“保险箱”的公私钥,确保数据不出库不泄露。因此,多方安全计算确能够在不接触第三方真实数据的情况下,有效利用多方数据。
多方安全计算有几个显著的特性:一是确保输入原始值的保密性,任何一方均不能从他人输入中计算出第三方的原始值,加密的数据不需要和第三方共享,通过这种方式,消除了不必要的数据泄露和滥用风险,并生成各方均期待的最终结果。二是计算正确性,即每一方都将被保证它接收到的输出信息是可信赖的,例如“谁是买单者?”游戏中,各方均信赖于输出的平均工资数据。三是公平性,即只要是参与方,均能够确定地得到输出值,对手不能够通过执行“拒绝服务”攻击来中断计算,不诚信方也无法阻止输出值被参与的所有方知悉和了解。
当然,“谁是买单者?”游戏只是理想化状态下的释义,实践中,多方安全计算能够解决更为复杂的数据计算问题。
从全球范围来看,多方安全计算已在多种场景中得到有效应用,特别是金融欺诈风控、联合建模、医疗数据应用等。在金融欺诈风控中,参与多方计算的跨国金融服务公司,均能通过可以处理更多数据来改进其欺诈检测和风险模型;在联合建模中,任何一方能够将各方数据(银行金融机构、保险、电信运营商、网络平台的用户数据)进行安全计算,使用组合特征训练更准确的用户模型,如信用评分、风险、营销分等。
在《安全多方计算(MPC)》一文(Secure Multiparty Computation (MPC) ,Yehuda Lindell,Unbound Tech and Bar-Ilan University)中,其提到了癌症患者识别的多方安全计算应用示例,即“将一个人的DNA与癌症患者的DNA数据库进行比较的问题,目的是发现这个人是否属于某种癌症的高风险群体。这样的任务显然具有重要的健康和社会效益。然而,DNA信息是高度敏感的,不应该透露给私人机构,但这个难题可以通过运行一个安全的多方计算来解决”。
另外,多方安全计算还可以在广告投放转化计算中应用。为了计算从广告投放到实际购买的准确转换率,谷歌和为广告付费广告主公司共享他们各自的数据列表,利用了一个保护隐私的集合交集协议以实施广告转换率的计算。
事实上,类似于开会中的投票表决,例如人民大会堂开会表决也可以应用多方安全计算。在确保人大代表的投票输入源保持保密的情况下,仍然可以输出投票总结果,以确保实现《全国人民代表大会议事规则》“采用无记名投票方式”的保密投票要求,充分让人大代表自由地表达自己的意愿或者避免众目睽睽下的被迫从众选举,最终仍然能够得出有效选票数量并显示于大屏幕中。
在政务数据应用中,为避免数据过度集中于政务机构以提升安全责任,政务机构可以联合兄弟单位或者企业等数据源,通过多方安全计算仍然可以获得有效的数据输出,从而避免公众形成“公共机构掠夺企业数据”的不安中。例如,2000年,加拿大就取消了一个汇集公民信息的项目,而后利用MPC收集了加密的所得税记录和高等教育记录,以分析在学位期间工作的学生是否比那些只关注学业的学生更容易失败。
但是,不得不承认,多方安全计算仍然面临数据合规,特别是个人信息保护合规的强大挑战。
第一个挑战是“意愿激励”。即各方数据处理者或数据主体需要愿意分享他们拥有的数据,若无公共数据一般的强制公开属性,或者有经济利益激励驱动,出于审慎的数据合规考虑,相信并没有数据处理者愿意将自己纳入多方之中提供源数据。另外,多方安全计算需要根据数据情况生成相应的随机数,这会减慢运行时间,对算力成本提出挑战,参与方也需要有一定的通信连接成本。例如,在“谁是买单者?”游戏中,为了区别简单的工资数值,需要输入一个很不一样的随机巨大值,这无疑延长了“人脑计算”结果的效率,对于计算机算力也是同样的道理。
第二个挑战是“用户同意”。在同意的合法性基础条件下,虽然源数据并不出库,但数据处理者仍然是基于对数据主体的数据实施特定的“处理”而产出了计算结果(例如通过分析不同网络平台的用户数据得出平台用户的收入水平)。根据《个人信息保护法》规定,在满足告知的情况下,仍然要就该个人信息的处理获得用户的同意,若个人信息均为敏感信息,或者是由跨国集团对不同国家的个人信息实施“类似跨境的处理(数据实际上仍在本地)”等场景下,似乎应该取得高昂的单独同意的代价才能确保合规——虽然处理结果上并不会给特定用户带来负面伤害。
第三个挑战是“数据合谋攻击”。在多方安全计算中,若有若干参与方破环计算规则参与合谋,将可能导致其它参与方的数据泄露事件发生。仍然以“谁是买单者?”游戏为例,若小红和小白发生合谋,只要小白将其计算结果A的数值告诉小红,则小红可以通过小黑告诉自己的数值B,以“B-A”的方式得出小黑的准确工资金额为7808元。因此,MPC协议仍然需要明确参与各方的权责关系,以应对未来可能存在的责任争议。
第四个挑战是“数据恶意污染”。多方安全计算是在假设各方均能够提供真实有效数据的情况下实施,但事实上这过于理想化,数据参与方可能基于本身数据问题或者基于故意(如竞争对手伪装参与)或过失而实施数据污染,输入错误的源数据,这将导致多方计算结果的不准确,从而影响数据质量。但是,我国《个人信息保护法》第八条明确了“数据质量原则”,要求保证上个人信息的质量,避免质量不准确、不完整而对个人权益造成不利影响。
第五个挑战是“数据验证溯源”。多方安全计算的本质是“数据信任去中心化”,杜绝中心化数据的存在,以算法技术为数据安全实施背书。但是,基于数据合谋或者数据污染等概率问题存在,多方参与主体仍然有意愿希望在未来的特定时间,对多方安全计算结果进行可溯源的随机验证,并以结果反推各参与方的责任,但显然,完全基于信任条件下的多方安全计算在此时发生了尴尬,验证溯源可能困难重重。
第六个挑战是“数据权益(属)”确认。多方安全计算系由多方共同提供数据源而生成计算结果,各方均由此得益,但仍然面临各方数据输入数据的量级或者质量程度不一的情况,多方的贡献比例可能难以衡平,而各方均又希望获得计算结果,该计算结果的数据权益(属)归于共同,还是通过合同方式确认归属,抑或是二次利用,可能仍然会在一定程度上引发争议,仍然有赖于参与各方通过协议方式予以明确。
第七个挑战是“数据主体权益响应”。对于用户而言,其有权利了解数据处理的具体内容,以满足《个人信息保护法》规定的透明度规定,在此情况下,用户所在的平台是否有必要披露多方参与主体的具体信息,仍然可能存在不确定性。同时,当多方参与主体数量较少,且各方投入数据不丰富的情况下,计算生成的结果仍然可能属于“个人信息”,从而引发数据处理者更多更高的义务。例如,多方参与平台通过计算,得出纳入计算的用户数据均存在“18周岁以上”的画像标签值,则该标签值适配于所有用户,属于关联于个人的个人信息。

更多关于网络法前沿及数据合规的探讨,欢迎同道加入作者麻策律师

微信社群【网络法风向标】共同碰撞交流。
加群请注明“进群-实名(花名)-单位名称(或行业)-城市”。
扫微信二维码加麻策律师,或者加他的微信macyberlaw

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存