查看原文
其他

专题丨基于中间件与区块链的异构隐私计算平台互通系统研究

徐潜,章庆 等 信息通信技术与政策 2022-12-10
※  信息社会政策探究的思想库  ※※  信息通信技术前沿的风向标  ※


作者简介




 徐 潜

天翼电子商务有限公司(翼支付)区块链与隐私计算资深专家,同济大学博士,隐私算法协议与系统核心研发人员,研究领域包括信息安全、数据安全、访问控制、身份鉴权、应用密码学等。



 章 庆

天翼电子商务有限公司(翼支付)隐私计算技术研发负责人,具有多年密码工程与应用研发经验,负责中国电信翼支付隐私计算架构设计与核心技术研发,研究领域包括金融支付系统、加密机、IC卡、区块链、隐私计算等领域兼安全模块的应用研发。



 喻 博 

天翼电子商务有限公司(翼支付)区块链与隐私计算高级专家,负责翼支付隐私计算平台核心算法与系统研发工作,研究领域包括机器学习、联邦学习、统计理论方法、分布式计算等。



 于文青 

中国电信集团有限公司云网运营部(大数据和AI中心)高级算法工程师,负责联邦学习、机器学习领域的算法研究及运营商应用实践,研究领域包括机器学习、联邦学习、分布式系统、海量数据处理等。



 贺 伟 

天翼电子商务有限公司(翼支付)区块链研究院院长,马德里理工大学博士,新加坡南洋理工大学博士后,负责翼支付区块链技术研发与应用拓展,承担中国电信集团区块链、隐私计算等多项重点研究项目课题,研究领域包括区块链、密码学、大数据、系统安全等。


论文引用格式:

徐潜, 章庆, 喻博, 等. 基于中间件与区块链的异构隐私计算平台互通系统[J]. 信息通信技术与政策, 2021,47(6):38-49.


基于中间件与区块链的异构隐私计算平台互通系统研究


徐潜1  章庆1  喻博1  于文青2  贺伟1


(1. 天翼电子商务有限公司,北京 102209;2. 中国电信集团有限公司云网运营部(大数据和AI中心),北京 100035)


摘要:随着数字经济的高速发展,数据安全问题日益凸显,如何实现安全合规的数据跨域融合并挖掘数据的最大价值,已成为数字时代的核心痛点之一。围绕多方安全计算与联邦学习的隐私计算技术正受到各技术提供方与数据方广泛的关注。利用诸如秘密分享、不经意传输、混淆电路等前沿密码学算子,隐私计算可以实现数据的可用不可见,进而解决数据跨域分享、融通等问题。目前,隐私计算技术已在金融、通信、医疗、政务等领域开始推广应用。从隐私计算的基本概念出发,浅析隐私计算的核心技术:安全多方计算与联邦学习;随后围绕自研隐私计算平台底座PrivTorrent密流安全计算平台,介绍隐私计算在数据安全行业的应用落地及典型案例;最后针对异构隐私计算平台间互联互通关键问题,给出基于中间件和区块链的跨平台实践解决方案。

关键词:隐私计算;多方安全计算;联邦学习;数据生产要素

中图分类号:TP309.7     文献标识码:A

引用格式:徐潜, 章庆, 喻博, 等. 基于中间件与区块链的异构隐私计算平台互通系统[J]. 信息通信技术与政策, 2021,47(6):38-49.

doi:10.12267/j.issn.2096-5931.2021.06.005


0  引言


随着信息化技术的发展,数字经济已成为推进后疫情时代内需的关键因素。据中国信息通信研究院发布的《中国数字经济发展白皮书(2021年)》显示[1],2020年我国数字经济规模已达39.2 万亿元,占国家GDP比重上升至38.6%,且数字经济增速已明显高于GDP增速。作为数字经济核心元素的数据,其价值已上升到前所未有的高度。从国家层面上来看,数据主权正成为继边防、海防和空防后又一个大国竞争和博弈的空间,2020年4月,国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,更是明确将数据与劳动力、知识、资本、土地等并列为七大“重要生产要素”;从企业层面上来看,获取大量的用户数据可以帮助企业制定符合用户需求的产品,并进而提升自身经营水平和运营效率。可以说,数据已成为社会数字化、信息化发展的基础养料。最大化数据价值,将有效促进数据“生产要素化”,并助力国家经济数字化转型。


本文从隐私计算的基本概念和技术出发,浅析隐私计算的核心技术,并基于隐私计算实践——PrivTorrent密流安全计算平台,以匿名查询和联合营销为例介绍隐私计算技术的行业典型应用,最后分析和研究隐私计算面临的挑战及跨异构平台互联互通问题,为业界正在推进的异构隐私计算平台互通标准制定提供参考。


1  数据的跨域融合


数据价值的发挥在于数据融合。现有的多方数据协作方式存在低效、融合成本高、风险高、数据留存等诸多问题。同时,《网络安全法》《个人信息保护法》《数据安全法》等法律法规的出台或加速立法,也使得传统的数据融合模式无法持续。如何在保障各方数据隐私安全的前提下,以“可用而不可见”的方式实现有效的数据价值融合,已成为数据行业迫切需要解决的关键问题。


以多方安全计算(Secure Multi-Party Computation,MPC)和联邦学习(Federated Learning,FL)为核心的隐私计算(Privacy Preserving Computing)技术可以在保护数据本身不对外泄露的基础上实现多方参与的计算任务,解决数据流通中兼顾“可用性”与“隐私性”的难题,进而为数据孤岛间价值流通搭建合规桥梁。概括来说,多方安全计算是在分布式环境下由多个参与方通过合作或者借助一个不完全可信的第三方(如云服务器),利用各自拥有的私有数据,完成某个功能函数的合作计算的过程。该计算过程要求不泄露任何参与方的私有信息,以解决在分布式环境中多方参与者之间的安全计算为目的[2-5]。从广义的角度,凡是涉及到保护隐私的合作计算都可以归集到多方安全计算的范畴。例如,联邦学习技术也可以看作多方安全计算的一类,可定义为诸如秘密分享、同态加密、不经意传输等MPC密码学技术在分布式机器学习领域的应用。此外,如保密数据挖掘、安全云存储、安全集合运算、保密计算几何等,也都是多方安全计算典型应用实现。因此,作为隐私计算技术的基石,多方安全计算的研究与发展对于隐私计算的行业应用以及数据价值的释放具有重要的现实意义。


当前,多方安全计算无论是在理论和实际落地中都取得了长足的进步,特别是随着数据安全问题的凸显,将基于多方安全计算及其典型应用的联邦学习技术提出的隐私计算的概念应用到数据跨域分享中,已成为解决数据在动态使用和融合中的安全隐私问题的唯一可行技术手段。利用隐私计算技术替代传统数据融合方式,正在诸如联合风控、联合营销、智能医疗、智慧政务等各个场景中助力数据价值提升。


鉴于隐私计算技术在数据安全领域的巨大潜力,工业界和学术界的众多研究机构已跻身这一赛道,共同推进隐私计算技术的更新与行业的发展。作为一门新兴技术,隐私计算在落地中依然面临诸多挑战,例如如何平衡安全性与效率,如何制定相关的行业技术规范等。特别是由于缺乏统一标准以及技术实现差异,不同的隐私计算平台之间难以互联互通,这些都是行业内亟待解决的问题。


2  隐私计算技术


基于多方安全计算的隐私计算模式以多个参与方在不释放任何隐私信息的情况下共同完成计算任务为目的,利用前沿密码学技术实现不依赖于可信中心的密文状态数据的直接计算。在计算过程中,数据无需转移、无需解密、无需集中,也无泄露风险,并具有数学可证明“密文态计算”的安全性与准确性。


2.1  多方安全计算

针对多方安全计算的工作很多,包括安全模型的建立、协议设计、算法实现、应用落地等。研究维度涵盖了安全两方计算与安全多方计算、半诚实模型和恶意模型等。从目前产业界方案落地的角度,关于秘密分享、不经意传输、隐私求交集、多方排序以及点积协议的研究应用尤为广泛。


秘密分享(Secret Sharing,SS)作为一种基础的安全多方计算协议,是构建很多隐私计算协议的底层模块之一。最简单的算术秘密分享的基本思想就是数据切片,此外包括Shamir秘密分享和门限秘密分享等也有许多实现与应用。


不经意传输(Obivious Transfer,OT)协议或健忘(茫然)传输协议是一种部分秘密泄露协议。传统的二选一(One-out-of-Two)OT协议的基本流程是:发送者拥有两个消息,协议结束后,接收者获得其中一个消息,且不能得到关于另一个消息的任何信息,同时发送者也不清楚接收者收到的是哪个消息。利用二选一OT协议还可以实现OT扩展协议,如IKNP协议[7];也可以基于基本的OT协议构造n选一OT协议,如KKRT协议[8],或n选k协议,比如Naor和Pinkas等的实现方案[9]和RR16[10]


隐私求交集(Private Set Intersection,PSI)是多方安全计算研究的重要领域,不仅可以应用在诸如隐私保护相似文档检测、隐私保护的近邻检测、社交网络关系发现等场景,也可以用于进行联邦建模前的ID对齐等任务。PSI协议要求参与各方在不暴露自身数据集合的前提下计算数据交集。PSI协议可以分为基于公钥加密的PSI、基于混淆电路GC的PSI和基于OT协议的PSI[11-16]


秘密比较协议要求双方各输入一个数值,在不泄露各自数据的前提下比较两个数的大小[17]。如将两方的秘密比较协议推广到多方场景,则秘密比较协议转化成为安全多方排序问题:给定参与方集合{P_1,P_2,…,P_n}及其各自的私密数据X= { x_1,x_2,…,x_n},要求通过协议的执行,各方可以得到其私有数据在X的排序X^'中的位置p(x_i),同时不对任意一方泄露自己的私有数据x_i。如果基于两方比较的思想进行安全多方排序构建,则至少需要Ω( nlogn)次两方比较[18-19]。为了提高效率,很多研究者进行了创造性的尝试,例如文献[20]与文献[21]分别基于离散对数困难性假设与同态加密构造了高效的线性复杂度的安全多方排序协议。


点积问题可以描述为:如何在Alice不暴露向量X= {x_1,x_2,…,x_n}、Bob不暴露Y = { y_1,y_2,…,y_n}的前提下协同计算u = XY+v,并仅令Alice获得结果u。显然,当v = 0时,最终结果就是一般的XY内积值。引入随机值v的目的在于防止Alice得到XY的确切值,这样在某些上层协议的构建中,Bob可以选择随时去除v来恢复正确的协议结果。


2.2  联邦学习

传统的多方机器学习需要各参与方将数据上传到高算力的服务器上集中训练,这种方式会产生诸如数据流向不可控以及数据泄露等问题。McMahan于2016年首次提出了联邦学习的概念[22],其本质上是分布式机器学习技术,通过诸如同态加密等密码学算法实现可计算的数据隐私保护。


一般来说,联邦学习技术具有以下几个特征:各方数据保留在本地不出库;各方获得共享的机器学习模型;联邦学习所得模型的精度与集中式机器学习相似;联邦学习模型训练精度与各方提供的数据质量成正比。


根据联邦学习中参与训练的数据特征信息的不同,可以将联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习[23]。横向联邦学习的特点是各方数据特征与标签相同,但样本不同;在纵向联邦学习中,某一方掌握标签信息,其他方输入特征信息,计算得到全局的训练模型;而在联邦迁移学习中,特征的空间分布与样本ID均不相同。目前,针对联邦学习的研究是隐私计算领域的热门课题,除了对传统的机器学习算法如逻辑回归、 LightGBM、 XGBoost、无监督Kmeans等,以及深度学习如神经网络等算法实现有/无协调方的联邦学习构造外,研究的重点还包括通信效率优化、隐私安全增强以及信任与激励等方面。


通信效率的改进包括3个层面:算法优化,如针对非平衡数据集的训练优化、加快模型收敛速度、海量数据的适配问题等;数据传输空间占用,降低通信负载,常用的方法是数据压缩,策略有两种,即梯度压缩和全局模型压缩[23];负载均衡,降低中心服务器的运算负担,采用分散通信拓扑代替星形拓扑等。


隐私计算最核心的目的就是保证参与方的数据隐私性。在联邦学习领域,实现隐私安全的主要方法有差分隐私、多方安全计算和同态加密。相比于加密技术,差分隐私主要引入了随机化与噪声扰动,其优势是计算效率较高,与传统的明文运算执行时长接近。然而,差分隐私在一定程度上会影响模型的可用性,降低模型的预测准确性。


激励机制是联邦学习中的一个重要挑战:首先,如果引入中心服务器,则相应地存在单点故障、密钥托管、中心信任等问题;如果联合各方共同参与计算,那么需要完善的激励回报策略使得各方自愿参与任务执行并消耗算力。区块链技术具有不可篡改、可验证的特点,可以为联邦学习提供所需的信任与激励机制。将联邦学习与区块链技术结合构建闭环学习系统,利用联邦学习为建模参与方提供数据安全跨域共享能力;基于区块链为计算任务提供安全存储、信任管理、激励机制等功能,可以进一步促进可信合规的数据共享。


3  隐私计算的应用


近年来,各种个人、企业隐私数据泄露,或数据持有方对数据的不当使用事件层出不穷。数据隐私违规问题已成为数据行业的高频爆雷点,各个国家和地区已加紧立法,对数据的采集、授权、转移、保存、使用等进行全面的规范化,相关监管措施日益严苛。拥有大量数据的企业面临着很大的矛盾,一方面,利用多方数据融合可以有效提升数据价值,给企业带来更大效益;另一方面,传统的数据归集模式由于其成本高、风险高、数据留存等将面临迫切的合规风险。同时,保护数据本身的安全、数据背后所代表的用户个人隐私等对于维护企业利益也至关重要。


目前,主流的数据安全技术仍然是围绕数据访问控制的“静态”隐私保护方法。无论是数据防泄露技术,还是近来所热议的“零信任”安全架构等解决方案,都是通过对数据按照隐私和敏感性进行分级分类,采用对明文数据的使用进行全流程细粒度的审计、追溯、权限管理等策略。虽然这些技术可以使得单个数据源的管理进一步可控,但是无法解决数据在动态使用和分享中的安全问题。


基于多方安全计算的隐私计算技术则是以“动态”隐私保护的方法,融合在数据的使用、处理过程之中,并保障数据源、计算过程和计算结果不会泄露原始明文数据本身信息。利用多方安全计算(协议),隐私计算有效地解决了多方数据(可计算的)安全融合。这里的多方,既可以是多个拥有数据的企业,也可以是算法中特征方和标签方,且各方不一定完全互信。因此,隐私计算真正实现了数据的“可用不可见”,在金融、电信、医疗、政务等数据融通场景具有广阔的应用前景。本文以PrivTorrent密流安全计算平台为例(见图1),论述隐私计算在金融、智能营销中的典型应用。

图1  PrivTorrent密流安全计算平台框架


3.1  隐私查询在金融场景中的应用

随着市场应用需求增加,身份核验成为金融机构的强需求。运营商身份核验数据已成为银行业务数字化和信息化的基础设施,但随着国家层面《网络安全法》的出台以及《个人信息保护法》《数据安全法》的推进立法,包括银行在内的各企业对用户或自有数据的保护意识日益增强。在传统的数据流转过程中,虽然银行侧采用了MD5/SHA256等进行了哈希处理,但仍存在数据泄露的风险。如何在不暴露银行客户信息的基础上完成数据核验是当前银行所关注的重要问题。


作为隐私计算的一种关键技术,隐私查询可以在保证不泄露查询方查询关键词隐私信息的情况下,为查询方提供相应的检索结果;此外,查询方也无法获知数据方除结果外的其他敏感数据信息,从而为业务双方提供双向的隐私保护。


基于隐私查询的身份核验整体流程为:首先查询方基于隐私加密组件将客户敏感的三要素信息进行加密干扰,同时对数据方(如运营商侧)的原始数据进行预处理以构建加密索引;之后基于三要素密文混淆后向数据方发起查询请求,并基于密码协议执行交互运算,运营商等数据方仅能定位为候选子集,并返回子集的查询结果,而无法准确获知查询方具体的查询对象;最后,查询方通过隐私加密组件恢复目标数据并完成三要素匹配返回客户。在这一过程中,查询方除获知待查询的三要素匹配情况外无法获得数据方其他敏感信息。


通过密流安全计算平台提供的隐私查询技术实现身份核验方案,可以保证查询方(如银行)在完成客户身份核验的前提下,无需暴露客户信息,增强了业务合规性;而在数据方侧,用户的三要素信息被缓存的可能性降低,增强了业务安全性。基于隐私查询的身份核验解决方案可以在保证用户信息安全的前提下,赋能银行业务的数字和信息化,促进数据价值的流通和放大。


3.2  联邦学习在联合智能营销中的应用

联邦学习是多方安全计算技术与机器学习的结合,也是隐私计算重要的组成部分,其核心是实现在机器学习的过程中各参与方可借助其他方数据进行联合建模,而无需共享数据资源即可进行数据联合训练,输出共享的机器学习模型。


电信5G PLUS用户权益推广系统是联邦学习在智能营销中的典型应用案例。本应用案例从大数据精准营销的角度进行电信5G PLUS权益用户推广,以实现目标客户群筛选和意向客户高效触达,系统架构如图2所示。运营商作为标签拥有方,在推广过程中,由其提供一定时间范围内购买5G PLUS用户的标签信息,以及提供用户行为、兴趣等特征进行模型训练。底层通过对交互的标签、特征、梯度等数据进行诸如同态加密、秘密分享等密码学处理,可以在保证密文接收方或外部第三方多项式时间内无法恢复明文的基础上直接基于密文进行计算并获得正确的计算结果。训练完成后,将新的时间范围内的用户购买行为输入给模型,查看评分在指定阈值的覆盖度,以此检验另一方数据与购买行为的关联度。此外,基于联邦学习的建模方式也可以以先用后买的模式解决假数据的问题,不仅为后续各参与方达成商务合作意向奠定基础,也在保障合规性的基础上提升5G权益用户推广效果。

图2  5G PLUS权益用户推广系统


4  异构隐私计算平台的互联互通


多方安全计算技术在学术界已研究多年,但隐私计算在行业内还是随着近年来数据安全问题的凸显而真正兴起。作为一门新兴技术,在应用落地过程中必然面临各种挑战,包括从观念上如何普及隐私计算的协作模式,以及从行规上如何完善相关标准,而从技术的角度,如何平衡安全性和性能使之满足业务需求,如何在多方使用不同的隐私计算平台时实现互联互通,都是亟待解决的问题。


4.1  缺乏行业标准,隐私计算平台“孤岛化”

随着隐私计算技术逐渐被行业认可,越来越多的厂商投身于隐私计算平台的研发中。由于整体技术系统处于发展初期,仍缺乏相关的行业技术标准,异构的隐私计算平台间难以互联互通,极大阻碍了隐私计算技术的能力释放,制约了数据价值的进一步提升。


异构隐私计算平台对接的难点除了各公司技术实现方式不同外,核心问题在于缺乏统一的标准,主要包括底层不同的通信协议、身份认证机制、密码算法及其安全强度;算法层中安全多方计算与联邦学习方案设计与实现方式的差异;以及应用层接口调用、任务调度方式等。因此,技术人员需从架构、算法、资源与任务管理调度等各方面进行统筹考虑,实现从节点发现、身份认证、资源输入、资源授权、任务发起、任务执行、结果输出的跨平台全流程协同,最终达到在异构平台之上的联合任务执行。


目前,隐私计算的行业各方都在积极地探索高效的解决方案,以打破异构平台对接壁垒、促进各企业机构间合作、助力隐私计算技术的行业应用落地并提升数据价值。中国信息通信研究院围绕隐私计算跨平台互联互通标准的制定,已组织隐私计算联盟、大数据技术标准推进委员会TC601各成员单位进行了相关工作的研究探讨。


4.2  基于“中间件”与区块链,达到任务的跨平台执行

PrivTorrent密流安全计算平台已实现包括隐私查询、可信数据分析、联邦学习、可信执行环境等多类型隐私计算模式。此次与FATE隐私计算平台的异构对接,主要围绕MPC算法中的安全求交集和联邦学习算法中的逻辑回归进行构建,分别基于轻量化中间件和区块链构建了可行解决方案,以期以对各平台最小改动的代价满足“低耦合、可复制、易扩展” 的异构互通基本需求(见图3)。

图3  跨异构平台互通示例


4.2.1  基于中间件的解决方案

如果将隐私计算平台从下到上划分为基础层、数据层、算法层和应用层,那么对于异构平台的互联互通,需要针对各个层面分别进行对齐考虑(见图4)。

图4  跨平台互通框架


(1)对于基础层,应主要考虑通信协议的统一;此外,任务调度/任务状态也应同步。

(2)对于数据层,应保证各方数据加密机制、安全参数等一致,统一加解密和交换顺序标准。

(3)对于算法层,重点应保证算法协议的统一。

(4)对于应用层,需使各方算法应用参数设置相同。


在PrivTorrent密流安全计算平台与FATE系统对接过程中,完成了上述4个层面的全面协同。PrivTorrent密流安全计算平台支持包括RSA、SM2在内的多种安全求交算法,以及“有”或“无”协调方的逻辑回归算法,进一步促进了与FATE算法层的打通。利用轻量化中间件以及消息队列实现的任务事件转发与任务状态的同步,贯穿于隐私计算任务的各个交互阶段。在部署模式上,中间件可以部署在异构互通平台的任何一侧,也可以部署在其他可信节点上,且对原生异构平台不存在改动。概括来说,PrivTorrent密流安全计算平台实现的中间件的主要功能包括三个方面。


• 算法数据报文重构:尽管算法的协议流程一致,不同的隐私计算平台对算法报文的设计也不同,因此中间件必须能够对报文进行重构转换,适配不同的隐私计算平台。


• 任务事件转发:任务事件转发功能需要支持成功识别其他平台的节点的功能,即实现数据的跨平台路由。


• 任务状态同步:跨平台任务协同的一个关键点在于同步任务状态,由于不同平台对计算任务的处理方式不同,状态划分也有区别,中间件在重构任务事件的同时,需要有效地支持跨平台的任务状态转化。


中间件的使用可在异构隐私计算平台间建立互通桥梁,且基于中间件的互通方式,可将对各平台原生框架的改动量降到最小,便于扩展为多种隐私计算平台的对接,具有较好的通用性。


基于中间件的隐私求交PSI互通支持从FATE侧或密流侧分别发起任务,只需修改中间件的配置文件即可。可以看出,从开始的Host与Guest的公钥同步,到中间过程的数据段的同步,均可以利用中间件将数据转化为对方平台所需要的格式。也即在统一算法协议流程的前提下,除了成功地识别并将相应的任务事件路由至异构平台节点外,中间件还负责报文数据内容与格式的转化。


与PSI任务相同,基于中间件的异构对接并不限定任务的发起方,即任何一方均可以按照自己平台原生的方式发起任务。因此,从节点自身的角度来看,中间件完全透明,节点如同与部署同样隐私计算平台的节点进行任务交互状态一致。


4.2.2  基于区块链的解决方案

不同产品的异构平台互通,涉及到诸多标准的统一。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,具有防篡改、追踪溯源、公开透明的特性。而智能合约则是基于链上可信的不可篡改的数据执行模式,可自动化执行预先定义好的规则和逻辑。在实践中间件的异构对接方案外,还基于区块链技术,融合智能合约机制构建更加灵活的异构平台互通策略。基于区块链的解决方案具有以下优势。


(1)通过区块链技术的智能合约机制,有效实现链上交互标准的统一。

(2)通过对区块链的访问,达到底层通信的统一。

(3)通过对智能合约的访问,将不同的报文内容按照过程数据、任务状态和执行结果进行分类,基于智能合约轻量级的数据结构,可较快地完成数据层、算法层和应用层的对接。

(4)结合区块链的特性,可对链上完成的计算任务进行审计溯源。


计算节点在逻辑上可以按照角色分为发起方、数据方、算法方和结果方。多个隐私计算参与方的计算节点则组成了隐私计算网络。多方在约定计算场景、数据集后可由发起方作为任务的需求方发起任务,数据方收到任务后按约定的计算协议协同计算。与此同时,提供分布式账本功能的区块链节点构成了区块链网络,作为提供区块链服务能力的参与方,提供链上合约执行、数据存储、验证及多方共识服务,基础框架如图5、图6所示。

图5  区块链+隐私计算框架


图6  基于区块链的跨平台网络


隐私计算节点通过调用区块链节点智能合约的SDK,完成对智能合约接口的调用和事件的监听。数据方将自有数据资源接入隐私计算节点,隐私计算节点将数据格式、创建时间、数据描述等非隐私属性信息进行上链,并通过智能合约对数据属性信息进行更新和授权,使参与方可以查看和使用数据资源,方案整体流程如下。


(1)发起方作为任务的需求方启动计算任务,通过智能合约下发任务。

(2)参与方监听到任务事件后进行协同计算,按照算法的计算逻辑执行,并将执行过程的数据通过智能合约下发,各参与方通过监听合约事件和调用合约接口进行协同计算。

(3)结果方(不同角色可以是相同节点)通过智能合约汇总计算的执行状态和中间结果,完成本次计算任务。


在基于区块链的方案中,智能合约扮演核心角色(见图7),其主要功能如下。

图7  智能合约搭建隐私计算节点和区块链节点的桥梁


(1)支持任务的创建和停止。在任务创建过程中支持对参与方数据集的选择、算法选择及其参数设置;在计算的过程中对过程事件按照算法数据、状态数据和结果数据等进行区分。


(2)支持隐私计算多任务并行执行,通过设定优先级对任务进行统一管理和调度。


(3)支持隐私任务状态监控,在任务异常时进行中断或者通过指示位设置主动中断。


(4)支持对数据选择和协同计算的全流程权限控制,各参与方在智能合约中以公钥地址作为身份标识,通过白名单限制进行数据的使用授权,对没有授权的用户无法选择对应的数据源创建任务;发起任务后,通过授权的参与方可以上传计算过程中需要交互的数据;任务结束后,任务的结果仅允许结果方汇总,非结果方无法直接查看和反推计算结果。


基于区块链技术的联邦学习异构平台互通方案,在降低工作量的同时又具有可扩展性:对新的隐私计算平台的加入可以利用现有的智能合约SDK完成上链操作,仅需要更新智能合约的计算协议部分。此外,基于智能合约机制,链上交互标准统一、基础设施完善,能够较快完成跨平台互通。结合区块链的特性,可以有效实现隐私计算任务的链上审计和溯源。


4.3  跨平台互通的应用

在目前的征信系统中,信用评价多采用“孤岛”模式,数据分散在不同的征信机构或数据商中,各方往往仅基于自有数据进行信用建模,互相缺少互联互通,数据利用率低,模型精准度不足。若要发挥数据的最大价值,基于丰富的各方数据以实现精准的信用评价,必须进行有效的数据融合。


为了提升数据利用率并保证隐私安全,利用联邦学习等隐私计算技术,在多方数据明文不出本地的情况下,使参与方借助其他方数据联合建模并输出共享的信用评价模型,对于最大化数据价值,实现精准的信用评估具有重要意义。同时,融合区块链技术,利用区块链的不可篡改、可验证、可追溯等特性,将区块链作为价值传递媒介,可为隐私计算提供授权、监管、溯源能力。因此,围绕“隐私计算”+“区块链”打造安全可信的闭环征信链系统,可以有效地促进区域信用一体化建设。由于隐私计算平台众多且具有异构性,当征信链系统中各个金融机构、征信机构部署不同的隐私计算平台时,如何互联互通就成为制约征信链生态构建的瓶颈。


利用本文提出的基于中间件或区块链的跨平台互通方案,可以有效地解决隐私计算在征信链场景应用时的异构互通问题。由于征信链本身基于区块链技术实现,因此通过区块链进行跨平台任务执行更具优势。


如图8所示,征信机构与金融机构部署的区块链节点构成区块链网络,隐私计算节点构成隐私计算网络。区块链网络不仅承担征信链所需要的评估报告存证等作用,还可以辅助隐私计算进行相应的身份信任管理、数据利用率存证、计算过程上链、准入机制、监管接口等功能的实现。更进一步,利用基于区块链的异构平台互通方案,当不同的金融机构部署不同的隐私计算平台时,亦可通过区块链网络实现跨平台的隐私计算任务执行,提高隐私计算技术的应用落地能力。

图8  跨平台互通在征信链中的应用


5  结束语


数据价值的发挥在于数据融合,如何在数据融合中保障数据安全隐私成为数据流通系统建设中的首要问题。随着数据隐私保障监管政策与法律法规的逐步收紧,传统数据融合与使用方式已渐入死胡同,多方安全计算已成为数据行业合规的唯一发展方向,因而有着广阔的应用前景。以多方安全计算为核心的隐私计算模式作为数学可证明安全与准确性的关键技术,有希望解决数据隐私监管日益严苛的今天所广泛存在的数据隐私合规问题,为数据孤岛间价值流通搭建合规桥梁,为包括区块链、大数据、人工智能、5G、量子计算等产业提供数据融通的基础能力。


一门新技术的发展必然伴随诸多挑战。总体上讲,包括多方安全计算在内的隐私计算仍处于行业早期,技术体系与产品标准仍待进一步完善,业界对该项技术的认知也正逐步提升,监管部门也持开放且谨慎的态度看待该项新技术的不断发展。而随着多方安全计算理论研究与应用的不断深入,所涉及的技术研究领域也逐步呈现融合态势,无论是在算法安全性、计算性能、软硬件协同、区块链融合方面都有广阔的发展潜力。特别是随着更多的研发机构跻身这一赛道,制定统一的技术、平台标准,打通不同的异构隐私计算平台“孤岛”以增大“数据池”,进一步促进价值释放,已成为行业热点。PrivTorrent密流安全计算平台和FATE隐私计算平台完成的跨平台对接,率先实现了节点发现、数据输入、任务发起、任务执行、结果输出等全流程的协同计算,从技术角度证明了异构隐私计算平台互联互通的可行性。相关技术积累也可为正在推进的隐私计算跨平台互联互通标准的制定提供重要参考,并进一步促进隐私计算在数据融通领域的规模化应用落地。


参考文献


[1] 隐私计算联盟. 隐私计算产品测试及行业发展观察[EB/OL]. (2021-01-06)[2021-03-31]. https://mp.weixin.qq.com/s/472o6CBMYbh2TPvX3rWv9g.

[2] Goldreich O. Foundations of cryptography: basic applications[M]. London: Cambridge University Press, 2004:599-729.

[3] Li Y, Chen M, Li Q, et al. Enabling multilevel trust in privacy preserving data mining[J]. IEEE Transactions on Knowledge and Data Engineering, 2012,24(9):1598-1612.

[4] Goldreich O. Secure multi-party computation[EB/OL]. [2021-04-10]. http://theory.lcs.mit.edu/oded.

[5] Yao A. C, How to generate and exchange secrets[C]. In 27th IEEE FOCS, 1986,162-167.

[6] Goldreich O, Micali S, Wigderson A, How to play any mental game: a completeness theorem for protocols with honest majority[C]. In 19th ACM STOC, 1987,218-229.

[7] Ishai Y, Kilian J, Nissim K, et al. Extending oblivious transfer efficiently[C]. International Conference on Cryptology and Information Security in Latin America, 2014:368-386.

[8] Kolesnikov V, Kumaresan R, Rosulek M, et al. Efficient batched oblivious PRF with applications to private set intersection[C]. CCS, 2016.

[9] Naor M, Pinkas B, Oblivious transfer and polynomial evaluation[C]. In 31th ACM STOC, 1999:245-254.

[10] Rindal P, Rosulek M. Improved private set intersection against malicious adversaries[C]. Advances in Cryptology-EUROCRYPT 2017:235-259.

[11] Adam Kirsch, Michael Mitzenmacher. Less hashing, same performance: building a better bloom filter[J]. Random Struct, Algorithms, 2008,33(2):187-218.

[12] Vladimir Kolesnikov, Jesper Buus Nielsen, Mike Rosulek, et al. Duplo: unifying cut-and-choose for garbled circuits[Z]. Cryptology ePrint Archive, Report, 2017. http://eprint.iacr.org/2017/344.

[13] Niu B, Zhu X, Liu J, et al. Weight-aware private matching scheme for proximity-based mobile social networks[C]. In 2013 IEEE Global Communications Conference (GLOBECOM), 2013:3170-3175.

[14] Pinkas B, Schneider T, Weinert C, et al. Efficient circuit-based PSI via cuckoo hashing[Z]. In Nielsen and Rijmen, 125-157.

[15] Rindal P, Rosulek M. Malicious-secure private set intersection via dual execution[C]. In Thuraisingham et al.1229-1242.

[16] Benny Pinkas, Thomas Schneider, Michael Zohner. Scalable private set intersection based on ot extension[Z]. Cryptology ePrint Archive, Report 2016/930,2016. http://eprint.iacr.org/2016/930.

[17] Salomaa A. Public-key cryptography[C]. Berlin: Springer-verlag, 1990.

[18] Jonsson K V, Kreitz G, Uddin M. Secure multi-party sorting and applications[C]//Proceedings of the 9th International Conference on Applied Cryptography and Network Security (ACNS), 2011.

[19] Goodrich M T. Randomized shellsort: a simple dataoblivious sorting algorithm[J]. Journal of the Acm, 2011,58(6):1-26.

[20] 李顺东, 张选平. 排序问题的多方保密计算协议[J]. 西安交通大学学报, 2008,42(2):231-233+235.

[21] 肖倩, 罗守山, 陈萍, 等. 半诚实模型下安全多方排序问题的研究[J]. 电子学报, 2008,36(4):709-714.

[22 ] Mcmahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[J]. Artificial Intelligence and Statistics, 2017:1273-1282.

[23] 周传鑫, 孙奕, 汪德刚, 等. 联邦学习研究综述[J]. 网络与信息安全学报, 2021,7(2):1-16.


Middleware and blockchain based interconnecting system of heterogeneous privacy preserving computing platforms


XU Qian1, ZHANG Qing1, YU Bo1, YU Wenqing2, HE Wei1


(1. BestPay Co., Ltd, China Telecom, Beijing 102209, China; 2. Center of Big Data and AI, China Telecom, Beijing 100035, China)


Abstract: With the rapid development of digital economy, data security has become an important challenge. How to release data value while ensuring the data privacy is a key issue in the this digital age. As a logical combination of secure multi-party computation and federated learning, privacy preserving computing has widely attracted the attentions from many tech providers and data holders. Basing on the modern cryptography techniques such as secret sharing, oblivious transfer, and garbled circuit, privacy preserving computing can enable efficient cross-domain data sharing and data fusion in a secure manner. To date, the adoption of privacy-preserving computing has taken place in many realworld scenarios, for example, finance, telecommunication, health care, and government affairs. In this paper, basing on the basic conceptions of privacy preserving computing, a brief analysis of key technologies of secure multi-parity computation and federated learning will be presented. Several typical applications in the data security scenarios will be provided. Furthermore, for addressing the interconnection problem between heterogeneous platforms, two practical approaches relying on middleware and blockchain will be discussed in the latter part of this paper.

Keywords: privacy preserving computing; secure multi-party computation; federated learning; data production factor


本文刊于《信息通信技术与政策》2021年 第6期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。



《信息通信技术与政策》官网开通啦!


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!



《信息通信技术与政策》投稿指南



   推荐阅读  



专题丨隐私计算关键技术与创新

专题丨基于秘密共享与同态加密的纵向联邦学习方案研究

专题丨隐私集合求交技术的理论与金融实践综述

专题丨隐私计算在金融领域的合规性分析

专题丨隐私计算产品评估体系

专题丨隐私计算发展综述

专题导读:隐私计算


♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩


“在看”我吗?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存