微众银行、蚂蚁、百度抢滩隐私计算开源
来源 | 零壹财经 作者 | 赵越 排版 | 王纪珑琰
2022年7月4日,蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架 “隐语”。7月25日,翼方健数推出了隐私安全计算开源技术——翼数开源。开源,已经成为了隐私计算产业发展热点和未来趋势。
自2017年著名开源社区OpenMined推出方安全计算及联邦学习开源框架PySyft以来,谷歌、微软等国际巨头,腾讯系的微众银行、阿里、蚂蚁集团、百度等综合科技类大厂以及矩阵元、原语科技、天冕科技、翼方健数等国内隐私计算创业企业也纷纷推出隐私计算开源项目。
其中,凭借前瞻性布局以及技术创新和实践能力,综合科技类大厂成为了隐私计算开源生态建设的绝对主力。这其中,以微众银行、蚂蚁集团和百度为典型代表。
一、隐私计算,为什么需要开源?
从技术本身的角度来看,开源,被视为隐私计算技术生态构建的关键。
开源能够推进隐私计算技术的迭代升级,同时还能够接受多维度的检验,进一步验证隐私计算技术的迭代效率和安全性。而且,相较于各个隐私计算厂商在技术研发上“百花齐放”“各自为战”,开源不仅能够进一步降低技术研发成本,还能够促进各技术方之间的互联互通,从而有助于隐私计算技术生态的构建。
同时,还能够实现“开源带货”。通过开源的方式,隐私计算产品及企业能够触达更多用户,有助于实现商业化版本或专业版本服务的推广。
在应用核心上,隐私计算技术的应用初衷是实现数据要素的安全、可信流通,然而如果各个闭源平台之间不互通,不仅不能打破“数据孤岛”,还将进一步形成“计算孤岛”。
在实际应用过程中,不同机构通常采用不同的隐私计算平台,而各个隐私计算平台均是基于各自的技术规范和系统架构实现的。这样,在相互合作过程中,相关机构就需要部署不同的隐私计算平台,否则便难以完成信息的交互,这不仅存在重复建设,部署成本增加的问题,还可能带来安全问题。
通过开源的方式,可以构建统一、透明的技术规范、架构标准,能够为隐私计算平台的互联互通奠定基础,有助于实现真正的数据融合与流通。
此外,从政策层面来看, 2021年3月,开源被首次列入了国家“十四五”规划;10月,人民银行办公厅等五部委联合发布《关于规范金融业开源技术应用与发展的意见》,鼓励金融机构开源技术应用纳入自身信息化发展规划;11月,《“十四五”软件和信息技术服务业发展规划》发布,提出重点做好开源生态建设。政策的引导与支持进一步推动了隐私计算开源生态的发展。
二、微众、蚂蚁、百度抢滩隐私计算开源
中国信通院等机构于2021年发布的《隐私计算白皮书》显示,55%的国内隐私计算产品是基于或参考开源项目开发的,这其中开源项目以FATE为主。
FATE(Federated Learning Enabler)是由微众银行研发的全球首个联邦学习工业级开源框架。FATE于2019年2月首次对外开源,于2019年6月捐献给Linux基金会,并成立FATE 技术指导委员会TSC对FATE社区进行开源治理,截至2021年,已有1000余家企业和300余家科研机构参与开源生态共建。
在微众银行之后,2019年,蚂蚁集团、百度的隐私计算项目也先后开源。
3月,蚂蚁集团的Occlum正式开源,这是国内第一个面向可信执行环境(TEE)的隐私计算操作系统。
随后,百度先后推出了通用安全计算框架MesaTEE和开源联邦学习框架PaddleFL。MesaTEE采用了百度安全实验室提出的混合内存安全技术、机密计算技术以及可信计算技术,构建了FaaS(Function as a Service)通用计算框架。PaddleFL 则基于飞桨( PaddlePaddle)开源框架,为联邦学习研究人员提供了基础编程框架,并封装了一些公开的联邦学习数据集。
自此,微众银行、蚂蚁集团和百度均入局了隐私计算开源。
从2020年开始,蚂蚁集团又相继推出了KubeTEE和隐语两项隐私计算开源项目。其中,KubeTEE旨在解决云原生环境中的可信执行环境技术从开发、到部署,再到运维等整个流程中相关问题;隐语是融合主流隐私计算技术的技术框架,用户可以基于不同的业务场景选择合适的技术方案。
表1:微众、蚂蚁和百度的隐私计算开源项目
资料来源:中国信通院、零壹智库
三、代表性隐私计算开源项目对比
为了进一步比较微众银行、蚂蚁集团、百度在隐私计算开源上的发展路径,零壹智库选取了FATE、MesaTEE、隐语三个隐私计算项目,进行了进一步分析。
表2:FATE、MesaTEE、隐语对比
资料来源:零壹智库
在技术路线上,FATE、MesaTEE和隐语各不相同。作为全球首个联邦学习工业级开源框架,FATE的开源使得联邦学习的应用门槛大幅度降低,同时,联邦学习也成为了目前应用最为广泛的技术技术路线;MesaTEE通过提供可信且安全的隔离执行计算环境,在不完全可信的环境中依然能确保隐私数据和计算模型不被泄漏或滥用;隐语则从最早的基于矩阵掩码的数据变换方案,到基于多方安全计算和可信执行环境的两套技术路线,发展到现在的多种技术融合的路线,可支持可信执行环境、多方安全计算、联邦学习等。
在应用场景上,目前三个隐私计算开源项目并无较大差别,主要应用在金融、政务、医疗等领域。这些领域有大量数据源,有数据流通需求,是隐私计算的主要落地场景。
其实,对于技术路线的选择,并无“好赖”之分,重要的是实现技术的突破,寻找合适的应用场景。
为进一步突破隐私计算在安全性、合规性、效率以及互联互通等方面的现有技术困局,目前,微众银行、蚂蚁集团均将可信隐私计算作为了下一个重点目标。
FATE开源社区已经提出了可信联邦学习。根据FATE开源社区技术指导委员会主席杨强的介绍,可信联邦学习是安全可信的联邦学习,是能够满足用户和监管等各方面需求的分布式机器学习范式。其中,数据安全可证明、模型性能可使用、机器学习效率可控、决策可解释、模型可监管和普惠是可信联邦学习的核心特征。
同样,蚂蚁集团也提出了可信密态计算,并正在积极推进这一技术的开源。与其他隐私计算技术相比,可信密态计算融合了多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)以及可信平台模块(TPM)等技术,更加适用数据安全需求高、数据规模大、计算逻辑复杂以及参与方数量不固定的场景,还能够支持跨地域数据中心的密态计算需求。