一种基于随机掩码的联邦线性回归思路
本期很荣幸为大家带来一篇星云Clustar的精彩投稿。投稿文章将介绍一种基于随机掩码(Mask)的联邦线性回归新思路,该方案和基于同态加密方案相比会有更高效率。
星云Clustar是FATE开源社区TSC Board成员,专注于以软硬件协同创新,提升隐私计算联邦学习算法效率,高效赋能数据有序共享与综合应用。本文介绍的方案已通过peer review。以下是方案详细内容~
✦
✦
一、背景介绍
线性回归作为一种使用难度低、可解释性好的模型,在联邦学习的研究和应用中广受欢迎。FATE平台也支持纵向联邦线性回归建模。在本文中,我们将介绍一种基于随机掩码(Mask)的联邦线性回归新思路,和基于部分同态加密方案相比,该方案效率更高。下面我们将从方案实现、准确性/效率/安全性分析、总结及未来工作等层面进行介绍。
二、技术原理
Ordinary least-squares (OLS, 最小二乘法) 是一种求解线性回归参数的常规方法。假设我们有数据特征
为了保护数据隐私,我们选择使用随机正交矩阵对原数据进行扰动,具体方法为:
下面我们将展示,在加掩码后的数据上,进行最小二乘法,可以得到带掩码的参数,并且,参数中的掩码可以被完整移除。
所以,对加掩码的数据进行最小二乘法得到的参数,也是带掩码的,并且掩码可以被完全移除(左侧乘上 )。基于此计算过程,我们设计基于掩码的联邦线性回归协议:
在改协议中,我们有三种类型的参与方:
Trusted Authority (TA):我们假设TA是可信的(trusted entity),TA负责在计算初始阶段生成随机掩码,初始化完成,TA保持offline。
Users:Users为数据持有方,我们假设Users为半诚实。
Computing Service Provider (CSP):计算服务提供方,我们假设CSP为半诚实。
额外的,我们假设Users和CSP无共谋行为。
我们的计算协议可以分为四个步骤:
步骤一:TA生成随机掩码 ,并将掩码 广播给Users,掩码 按行切分、分发给Users。即,所有Users持有相同的 、不同的 。
步骤二:Users依据分块矩阵运算:
,使用Secure Aggregation,联合加掩码,CSP将获得掩码结果 。
步骤三:CSP在掩码数据上进行OLS(或者使用SVD分解求解亦可,等价于OLS),并将带掩码的结果返回给Users。
步骤四:Users使用本地不同的 ,移出掩码,得到各自的模型参数。(符合纵向联邦的定义,每个数据参与方持有不同的模型)。
根据以上协议,即可完成基于随机掩码的纵向线性回归建模。
三、准确性分析
为了保护数据隐私,我们对原数据加入了随机掩码,但和差分隐私不同的是,我们的随机掩码可以在数据中完全移出,所以保证了对准确性无影响。
表1对比我们的方案(FedSVD)和基于SGD求解线性回归的误差(训练集上的RMSE)。
表1在4个数据集上对比了我们的方案和基于SGD求解线性回归的误差,可以看到,我们的方法只需要一次计算即可达到全局最优解,SGD方法往往需要多轮训练才能收敛。
四、效率分析
图1-3 对比我们的方案(FedSVD)、基于部分同态加密方案、和基于秘密共享方案(SecureML)的效率。
图1-3对比了不同方案在纵向联邦线性回归任务上的耗时,可以看到,与基于部分同态加密的方案对比,我们的方案将效率提升了约10倍,与SecureML这种基于秘密共享的方案对比,我们的方案将效率提升了约100倍。
五、安全性分析
在本方案中,安全性威胁主要来自于CSP是否能够从加掩码的数据反推原始数据,对此,我们提供证明,对于一个给定的带掩码数据 ,存在无数种原始数据可以被掩码转化成 ,证明如下:
同时,我们在选取随机正交矩阵PQ时,采用均匀随机采样。
为了更好的展示随机正交掩码的保护效果,我们使用以下可视化进行展示:
左侧为原始数据,呈现球状、颜色分层,右侧为加随机正交掩码后,无法区分数据信息。
六、总结及未来工作
在本文中,我们介绍了一种基于随机掩码的纵向联邦线性回归思路,依据此掩码思路,我们还可以完成多方奇艺值分解、主成分分析、潜在语义分析等众多任务。该随机掩码作用在原数据上的方式为线性,所以加掩码后的数据支持各种矩阵线性操作,例如:矩阵乘法、矩阵求逆、迹运算、求秩等,均可以支持。但涉及到element-wise的计算,或者非线性计算,无法支持,未来我们将考虑将这种掩码和其他隐私保护技术相结合,提供对element-wise和非线性计算的支持。
【社区征稿】
FATE(Federated AI Technology Enabler)开源社区是全球首个隐私计算联邦学习开源社区,拥有全球首个工业级安全联邦学习框架。同时FATE开源社区以“开源开放,共力创新”为愿景,汇聚更多开发者、行业专家、创新力量,共同推动联邦学习技术发展及应用实践。基于此,目前社区向广大行业从业者征稿,希望给行业从业者打造一个技术交流的平台,欢迎大家踊跃投稿~(公众号后台留言或联系小助手)
END
1.精华合集 | 联邦学习 FATE 从入门到精通(建议收藏!!!)
2.资料合集 | 隐私计算行业规范、白皮书、研究报告等资料汇总(建议收藏!!)
扫码关注FATE开源社区