查看原文
其他

探讨:全匿踪联邦学习到底应该怎么做?

庄智廉 开放隐私计算 2022-12-10

     

近日,业内某隐私计算A公司在公开大会上宣布其实现了“全匿踪联邦学习”,引发业界关注并热议。

据介绍,“全匿踪联邦学习”是指在不暴露用户ID、匿名化条件下进行联邦学习的技术,解决了目前隐私计算方案中普遍存在的“缺少个人授权”、“交集ID泄露”的重大法律风险问题,让机构之间的数据要素价值流通真正合规可信。具有真正匿名化、不暴露任何样本交集、去中心化架构、高性能高精度低误差等特点,可以应用在金融风控、智慧民生等真实场景中。

该公司也对该技术的工作机制,如下图所示:

注:图源该公司公众号推文

简单概况为:“经过了匿名化处理后的样本,参与方持有的是全匿样本的碎片,包括碎片化的标签、碎片化的特征。里面的样本有的是相交的,有的是不相交的。不在交集里的样本也参加训练,但它的值是一个共享的密态0,所以虽然参与计算,但不会产生任何结果上的影响。”从一个总体概括性的角度进行了算法说明,并未深入介绍更多的算法细节。

一项前沿技术总免不了有讨论的声音,业内B公司在平台上发表质疑:“小编通读全文后,仍不知晓采用的何种MPC技术”。该公司也介绍了一种 “符合上述针对多方数据集在无交集泄露、匿名化的情况下实现样本对齐操作,采用的MPC技术为——Circuit-PSI”。并给出其功能定义和实现方式。

隐私集合求交(PSI)是实现隐私计算的一项关键技术,也是纵向联邦学习中的一项关键前置技术。目前常用的PSI算法包括ECDH、KKRT、PSTY等。ECDH是基于椭圆曲线算法的方案;KKRT是结合了Cuckoo hash 以及 batched OPRF,构造出的一个比较高效的基于 OT 的 PSI 协议;PSTY是基于混淆电路的高效PSI协议。

纵观目前业界采用的隐私集合求交技术,大多都是可以保证参与方独有的样本不被暴露,而共有的样本ID则会被多方共享。如不共享,则无法进行后续的联邦训练。“全匿踪联邦学习”则希望在此取得突破。在得到不泄露ID的交集后,接下来的联邦学习前向传播、损失计算、反向传播等过程都应基于密态数据,联邦学习交互过程也需重新构建。在这里,我们想与大家探讨“全匿踪联邦学习”应该怎么去做?欢迎大家在评论区提出关于“全匿踪联邦学习”的宝贵看法。


END
往期推荐:




隐私计算头条周刊(8.28-9.3)


冯登国院士团队重磅论文!《具体高效的安全多方计算协议综述》解读


你有“隐私泄露担忧”吗?适合普通用户的6个方法来了


SCI一区期刊专辑征稿 | 社会大数据隐私、安全与前沿计算主题


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


附下载 | 2022年隐私计算技术与行业应用报告合集(33份)


联邦学习前沿 | 基于图神经网络的联邦推荐系统研究 


招标 | 近期隐私计算项目招标18(联通、不动产、股权市场、银联等)


未来十年,将会有95%的企业采用隐私计算技术


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存