查看原文
其他

观点分享|隐私计算产品测试及行业发展观察

中国信通院 隐私计算联盟 2022-07-02

2020年12月18日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会联合举办的“2020数据资产管理大会”在京召开。在数据安全治理与隐私计算分论坛上,中国信通院云大所大数据与区块链部副主任闫树做了题为“隐私计算产品测试及行业发展观察”的演讲。



以下为部分演讲内容



中国信通院云大所长期聚焦于隐私计算领域,依托大数据技术标准推进委员会于2018年至2020年分别制定《基于多方安全计算的数据流通产品》《基于联邦学习的数据流通产品》《基于可信执行环境的数据计算平台》三项标准并开展产品评测。测试项目中,多方安全计算32项(13个必测项,19个可选项),联邦学习34项(14个必测项,20个可选项),可信执行环境40项(21个必测项,19个可选项)。



在2020年下半年的第十一批大数据产品评测中,开展第三批多方安全计算产品测试及首批联邦学习产品测试、首批可信执行环境产品测试。本批共完成对26款隐私计算产品的31次评测,其中通过多方安全计算评测产品6款,联邦学习评测产品18款,可信执行环境评测产品7款(上表中的排序依据本批测试时间顺序,与以下测试结果分析中的产品顺序不对应)。



多方安全计算评测共5个维度。计算基础能力、编译及计算功能、流通管理功能测试通过情况较高,性能评测和产品安全性健壮性稳定性评测通过较少。



具体的测试项中,容错性、系统稳定性(节点故障)两个测试项本批暂无企业测试通过。网络故障稳定性、算法/节点升级、SQL支持、监控告警、编译等测试项通过率相对较低。



18款联邦学习产品的测试表明,行业内联邦学习产品各维度测试通过率较为平均,且有产品功能、框架趋同的现象。部分产品调度管理能力、数据处理能力通过率低,说明产品化程度低,且缺乏多样化数据处理能力。



从测试项看,部分产品对可选项的支持度很低。



在所有测试项中,“贡献评估”、“消耗测试”、“系统稳定性”、“身份认证”等测试项通过率较低。“样本对齐”测试项的通过率远超“特征对齐”测试项,说明保护特有样本(ID名)的需求高于保护特有特征。



可信执行环境产品评测共9个维度。环境验证、通信安全、算法拓展性、数据存储通过情况较高,数据审计相关测试通过率较低。



具体测试项中,任务、机器学习相关测试通过较高,说明TEE普遍产品化程度高,且与机器学习、联邦学习深度结合。“侧信道安全”、“任务数据一致性”、 “数据封存”、审计相关测试项通过率较低。



结合产品测试情况,提出了隐私计算产品及行业发展的十大观察。


观察1:隐私计算产品增长迅速,产业爆发正在成为现实


2020年隐私计算技术产品迎来爆发,根据统计,本批参与测试的企业公开发布的产品数量从2018年的1款、2019年的5款翻倍式地增长到了19款 (个别产品还未正式上线);从互联网大厂、知名大数据公司、电信运营商到技术研发初创公司,越来越多类型的企业加入隐私计算技术提供者的行列,产业爆发正在成为现实。


观察2:联邦学习成为最受关注产品,架构及功能逐渐成熟


在所有参与本批测试的隐私计算产品里,38%的产品只对外提供服务,19%的产品纯自用,而44%的产品兼而有之,这也能看出,对外服务正在成为主流。而通用型的技术平台是目前的主打方向,占到本批所有通过测试产品的58%,定制型的产品比例15%,而二者兼而有之的是27%。综合三批测试,联邦学习的产品与MPC的产品数量相当,可见联邦学习产品以其轻量化的部署和应用范围广的场景成为当下产品的主流技术选择。在支持算法方面,联邦学习产品支持最多的算法是逻辑回归、线性回归、XGBoost和K-Means,四成产品已经支持深度学习。


观察3:联邦学习与多方安全计算深入融合,安全与效率逐渐平衡


对于MPC产品与联邦学习产品,技术融合的趋势也非常明显。随着实际需求拉动,越来越多的产品开始从专一的技术类型转向覆盖多种方案的技术提供者,即提供多种技术路线给用户选择。本批经过测试的产品中,联邦学习方案超过80%都加入了密码学、多方安全计算技术的辅助。梯度值等中间数据通过密文传输,极大提升了安全性能。


观察4:自主可信硬件受到关注,国产化方案逐渐显现


针对可信执行环境,目前市场上的主流实现方式包括两种:一是Intel发布的SGX,它是新一代针对应用程序的enclave方案;二是ARM公司提出的TrustZone及其相关硬件实现方案。


无论是Intel或ARM都建立了一套从芯片、服务器到操作系统的完整实现,目前市场上的大部分TEE应用也都是基于这两家的服务,这就对企业的使用成本及上层应用的安全带来了不可控影响。本批产品测试显示,近年来,随着我国国产化能力的增强,兆芯、鲲鹏等国产处理器及服务器为TEE的实现提供了基础架构,国产TPM2.0也开始进入大众视野,再加上自研TEE操作系统的实现,可信执行环境的国产化方案逐渐显现,实现了信任关系从CPU到操作系统的全面自主可控。


观察5:自研产品仍为主流开发模式,开源生态逐渐显现


在产品开发模式方面,本批测试大约70%的企业表示相关产品是自主研发的。然而,测试过程显示,大部分产品都受到了开源的影响。开源架构目前被使用较多的是微众银行的FATE和谷歌的TensorFlow Federated。这一两年来,也有很多大厂不断提供开源资源,未来开源可能会成为隐私计算的重要模式,在安全性方面对产品会有很大提升。


观察6:隐私计算技术工具化进展明显,部署模式逐渐简化


本批测试显示,很多隐私计算产品显示出功能趋同的现象。在提供功能完整的通用平台的基础之上,如何满足用户的个性化与定制化需求、提升用户使用效率将成为产品形态趋同的形势之下,技术提供者提升竞争力的关键。以金融机构为代表(特别是银行)的业务需求方,对于计算任务中的具体算法往往有定制化需求。这种需求的实现通过前端自定义算法和后端定制算法来实现。针对用户建模过程中的个性化功能配置需求,产品功能开始升级,以支持用户应用流程的自定义配置,例如模块的自定义,组建的托拉拽等。此外,针对用户建模过程中的个性化功能配置需求,产品功能开始升级,以支持用户应用流程的自定义配置。轻量化部署形式较为普遍,部署时间可以在几个小时内完成。


观察7:隐私计算产品市场接受度提升,逐渐从概念验证走向实施部署


随着不同行业企业对合规外部数据的需求日益强烈,越来越多行业客户开始愿意进行尝试,整体行业从概念验证到全面实施趋势明显。截至2020年上半年,前两批MPC测试的15款产品里,概念验证阶段的产品比例33%,试点部署阶段的40%,全面实施阶段只有27%。而到了今年年底,综合三批的测试结果,大多数产品都已经进入了试点部署或全面实施阶段,这一比例分别是35%和38%,概念验证阶段的产品比例降低为27%。


观察8:隐私计算与其他技术不断协同,整体推动数据可信流通


. 隐私计算为数据可用不可见提供了的解决方案,但这只能解决了数据流通中的一个环节。真正发挥隐私计算的技术价值,推动数据可信流通,还需要与其他技术不断结合。本批测试显示,越来越多的产品正在与其它技术不断协同,例如与云计算协同,支持云端数据存储、处理的同时加强安全与隐私控制;与大数据平台协同,通过接口共享的方式或者嵌入大数据平台中成为一个组件;与人工智能协同,通过隐私学习支撑多方数据安全融合,优化训练效果、提升模型精度。特别是对于区块链,隐私计算与区块链的功能之间相对独立,却能巧妙互补。这种结合在支撑区块链数据隐私保护的同时增强隐私计算的可信审计。参与测试的企业中,半数以上已经有或准备启动区块链辅助的隐私计算技术工具的产品上线。


观察9:隐私计算行业备受资本青睐,初创企业逐渐获得认可


2020年,投资机构对隐私计算赛道的认可度大幅提升。许多企业在创业初期就能得到投资机构的青睐。投融资金额从数百万美元到上亿元不等。在投资机构的助力下,隐私计算赛道竞争愈发激烈,整个行业热度不断攀升。


观察10:隐私计算合规成为重要议题,法律界定逐渐清晰


随着隐私计算应用的逐渐开展,其法律合规性成为备受关注的议题。目前,法律界对于隐私计算技术正在形成日渐清晰的共识,就是隐私计算技术本身,不能简单认为是合法合规的,还要结合场景和后果去分析。一方面,其有利于实现数据的“最小化原则”因而受到法律鼓励;另一方面,各方仍是数据的共同控制者,并不能简单通过技术避免责任。


2021年上半年,第十二批大数据产品能力评测即将开展。第四批多方安全计算产品测试、第二批联邦学习产品测试、第二批可信执行环境产品测试、首批区块链辅助的隐私计算产品测试即将启动。欢迎更多企业加入中国信通院云大所开展的隐私计算产品测试,共同推动隐私计算行业发展。


测试咨询及报名:中国信通院云大所 袁博 

yuanbo@caict.ac.cn



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存