兼顾安全与效率 开源开放的可信联邦学习引领新思路
数据要素实现安全、高效价值流通,隐私计算作为关键技术解,平衡安全、效率及可用性是当务之急,可信联邦学习应时而来。
5月25日,由中国信息通信研究院云大所、清华大学智能产业研究院、深圳数据交易有限公司共同指导,FATE开源社区、开放群岛(Open Islands)开源社区、智能投研技术联盟(ITL)联合主办的“联邦学习安全效率与开源生态”线上论坛圆满召开。
本次论坛云聚产学研用各界代表,围绕联邦学习的技术与应用创新、可信联邦学习的特征及可用性、开源开放与数据交易、隐私计算标准化与合规性等热门议题展开了深入讨论与分享,探索数据价值安全、高效流转之道。
01
可信联邦学习助力打造数据要素市场安全底座
从2019年的《中国共产党第十九届中央委员会第四次全体会议公报》首次提出将数据明确纳入生产要素,到2020年《关于构建更加完善的要素市场化配置体制机制的意见》首次提出培育数据要素市场,再到2022年《关于加快建设全国统一大市场的意见》再次提出,要培育统一的技术和数据市场。可以见得,宏观层面对于数据要素布局正一步一个脚印地走向细化与深化。
隐私计算联邦学习“数据可用不可见”的技术特性,为培育高质量的数据要素市场提供基础性技术支撑。“在合规、保护隐私安全的前提下,充分发挥数据的价值,促使数据要素高效流通,可信联邦学习基于这样的目标而提出。”加拿大皇家科学院及工程院两院院士、开放群岛(Open Islands)开源社区执行主席、智能投研技术联盟(ITL)主席、FATE开源社区技术指导委员会主席杨强介绍可信联邦学习概念时称,“数据与模型安全可证明,模型性能可使用,效率可控,决策可监督,模型可监管以及普惠,是可信联邦学习的主要特征。”
关于可信联邦学习的安全与效能,杨强院士提到,理论研究结果显示,安全和效能是存在的,但不可能有绝对的安全和绝对的效能。若要同时提高效能与安全,需要在二者间寻求一个平衡点,借助威胁模型进行考量。可以定义一个隐私保护的评级系统,具体包含四个维度:数据、算法模型、威胁、保护机制。在四者同时确定情况下,才能够给出一个比较明确的安全评级。杨强院士表示,“目前,安全评级的确立工作还在进行中,希望通过各方合作,共同建立。”
02
可信联邦学习的安全、效率及可用性
在一众专家、产业方代表带来的圆桌环节,一系列精彩洞见围绕“可信联邦学习的安全、效率及可用性”主题金句频出。
针对场景应用中可信联邦学习的价值及挑战,中国工商银行大数据人工智能实验室资深经理胡国强认为,有效标准及体系的缺失是目前可信联邦学习体系建设的痛点。作为联邦学习落地典型场景的银行业,考虑到数据高度敏感,业务涉及机构众多且不同机构之间对于数据开放度和信任度不一等情况,对联邦学习的需求主要体现在可用性、易用性、灵活性以及产品或方案标准化的加强。
光大科技大数据研究团队负责人王鹏进一步分享到,联邦学习在场景应用实践中的痛点主要包括:面对非技术人员的可解释性挑战;海量数据处理过程中,安全与效率如何平衡;如何设计激励机制,以保证参与各方的公平性;要有统一的标准,来达到不同参与方互联互通的目标。光大科技从2019年开始关注隐私计算,在营销和风控等业务场景都有应用,目前也正在积极参与FATE开源社区建设。
可信联邦学习如何平衡安全与效率?FATE开源社区TSC board成员、星云Clustar CTO张骏雪博士表示,效率问题一直是隐私计算行业的重中之重。要解决隐私计算的效率问题,还是需要结合具体企业、具体业务,进行具体分析,选择最适配的Building Block(基础构建组件)。而不是强行追求统一的方式。“隐私计算可信联邦学习的未来是多技术、多方案融合并举的,要选择最能落地的来提升效率。目前,星云Clustar也通过参与FATE开源社区,推动互联互通及标准化建设,以实现可兼容不同类型的加速器促进隐私计算发展。”张骏雪分享道。
同时,清华大学智能产业研究院副教授刘洋也从学术角度分享了当前隐私计算联邦学习的前沿动向。她表示,知识蒸馏是现阶段备受关注的话题。在激励体制层面,目前已经有携带激励机制的算法落地到医疗领域,并产生了一定价值。关于安全与效率的平衡,学界现有的框架中,会在在半诚实或者恶意的场景中先对安全做一些控制,然后在可控条件下进行效率的提升。目前,研究上会在两个象限上做类似于像AUC的曲线。未来可能会有更好的评估方法,这也是理论的一个前沿。
最后,微众银行人工智能首席科学家范力欣作为圆桌主持人总结到,“可信联邦学习的一个核心问题,是如何让安全与效率达成可以落地的平衡。要进行具体分析,选择最适配的Building Block(基础构建组件),最能落地的技术方案来提升效率。在半诚实或者恶意的场景中先对安全做一些控制,然后在可控条件下进行效率的提升。同时要有统一的标准,来达到不同参与方互联互通的目标。”
03
开源开放与互联互通
成为市场标准化的关键解题思路
数据要素市场的互联互通离不开多方主体共同创新、开放协作。
中国信息通信研究院云计算与大数据研究所大数据与区块链部副主任闫树表示,当前,隐私计算安全要实现从理想研究安全到产品实现安全的跨越,必须要经过3个标准核验:算法安全,密码安全和产品安全。闫树主任也提到:“展望未来,我们认为,对于隐私计算安全性的提升,多技术融合是一个很大的趋势。多方安全计算、联邦学习、TEE三者之间互相融合以取长补短、查漏补缺,从而提升每一个技术的安全性。所有的技术都是各有优劣,它都是无法完全兼顾的,所以这里面就需要结合应用场景,结合各种各样的使用的过程,来综合选择合适的技术不断提高产品的安全性。”
深圳数据交易有限公司董事、副总经理,开放群岛(Open Islands)开源社区委员会生态赋能工作组组长王冠指出,开源已经成为推动数据要素市场快速形成事实标准的“解题思路”。开源可以有效提高在统一规范约束下数据交易平台的互联互通性、数据流通共享效率以及数据增值能力,帮助中国自主可控开源技术得到更好的发展,促进实体经济跟数字经济的融合。同时,隐私计算作为数据要素流通的重要技术支撑,已有大部分厂商使用开源代码。因此,希望通过基于隐私计算技术的开源社区来撬动整个数据要素流通市场的构建。
FATE开源社区是全球⾸个隐私计算、联邦学习开源社区,拥有全球⾸个⼯业级安全联邦学习框架。FATE开源社区开发专委会主席、VMware中国研发中心技术总监张海宁详细介绍了FATE开源框架的技术演进和生态发展,他表示,开源是现代软件社区化的开发和协作模式,通过国际化的开源社区建设和治理,能够促使社区广泛参与和合作,推动技术迭代与产业发展。自2019年开源至今,FATE已经发布30余个版本,联邦算法组件达到30余个,实现了工业界主流场景算法全覆盖和工业界主流多方安全计算协议全覆盖。FATE开发专委会将在可信联邦学习、互联互通、异构计算、云原生等领域继续推进项目的发展。
04
拥抱产业数字化风潮下的数据价值安全流通
前行者的实践案例如同灯塔,为技术的规模化应用照亮了前进方向。本次论坛也邀请到了建信金融科技有限公司极速工场(创新实验室)总经理王雪,西安交通大学教授及博导、清华大学交叉信息核心技术研究院可信人工智能中心主任、深信科创创始人杨子江教授,中兴通讯资深系统架构师、联邦学习和AI安全解决方案负责人唐波作为产业方就隐私计算联邦学习在不同领域的场景落地案例进行分享。
王雪介绍到,建信金科目前正在推动隐私计算技术在数字金融、数字政府、数字乡村等领域的创新案例落地,依据建设银行集团的新金融理念,重点推进面向小微企业的普惠金融产品创新,面向农村新型经济主体的乡村金融产品创新,以及面向政府治理与智慧城市提质增效的政务数据融合应用创新等。
关于联邦学习在自动驾驶领域的应用潜力,杨子江教授表示,联邦学习对自动驾驶真正的产业化大规模落地,会产生非常巨大的影响,具备丰富的应用优势,比如:基于车联网的动态分布式特点,建立高效的局域车联网;异构协作;降低车载数据等隐私泄漏风险;利用本地数据进行全局推理,提升响应速度;以及更好地实现数据价值释放等。
在同样天然具备强数据属性的通信领域,隐私计算联邦学习也被广泛应用。唐波表示,联邦学习在未来网络中的应用,可能是一个分层的架构。对于接入网元(如基站)为联邦客户端,而核心网和网管则可能既是联邦服务器,又是联邦客户端,将和数据中心服务器(联邦服务器)一起构建更高层次的网络智能。
论坛最后,FATE开源社区运营专委会主席、开放群岛(Open Islands)开源社区委员会运营工作组组长潘菲在主持结语时表示,本次论坛的筹备是由开源社区和联盟的志愿者高效协同完成,相信未来会产生越来越多的跨地域、跨机构、跨行业的组织形态和协同方式,能够带来更大的资源联接和生态效应,欢迎更多的机构和志愿者参与到开源社区共建共创中。
隐私计算联邦学习的发展图景,既有数据要素市场需求与隐私保护合规要求的双重机遇,同时也面临着技术、应用标准化及安全、效率平衡的不小挑战,相信,在产学研用各方通力合作、开放共荣的努力下,终将打开一个更具生命力、可持续的科创新境遇。
点击下方获取论坛完整视频
END
1.精华合集 | 联邦学习 FATE 从入门到精通(建议收藏!!!)
2.资料合集 | 隐私计算行业规范、白皮书、研究报告等资料汇总(建议收藏!!)
扫码关注FATE开源社区
点击 阅读原文 查看论坛视频,欢迎点赞分享~