查看原文
其他

一种基于随机掩码的联邦线性回归思路

星云Clustar FATE开源社区
2024-08-26


本期很荣幸为大家带来一篇星云Clustar的精彩投稿。投稿文章将介绍一种基于随机掩码(Mask)的联邦线性回归新思路,该方案和基于同态加密方案相比会有更高效率。

星云Clustar是FATE开源社区TSC Board成员,专注于以软硬件协同创新,提升隐私计算联邦学习算法效率,高效赋能数据有序共享与综合应用。本文介绍的方案已通过peer review。以下是方案详细内容~


一、背景介绍


线性回归作为一种使用难度低、可解释性好的模型,在联邦学习的研究和应用中广受欢迎。FATE平台也支持纵向联邦线性回归建模。在本文中,我们将介绍一种基于随机掩码(Mask)的联邦线性回归新思路,和基于部分同态加密方案相比,该方案效率更高。下面我们将从方案实现、准确性/效率/安全性分析、总结及未来工作等层面进行介绍。


二、技术原理


Ordinary least-squares (OLS, 最小二乘法) 是一种求解线性回归参数的常规方法。假设我们有数据特征数据标签 其中  为样本数量,  为特征数量。线性回归模型想要估计参数 β使得 β  ,使用OLS求解 β 的计算公式为: 

为了保护数据隐私,我们选择使用随机正交矩阵对原数据进行扰动,具体方法为:

其中, 为随机正交矩阵,   即为加掩码后的数据和标签。


下面我们将展示,在加掩码后的数据上,进行最小二乘法,可以得到带掩码的参数,并且,参数中的掩码可以被完整移除。

所以,对加掩码的数据进行最小二乘法得到的参数,也是带掩码的,并且掩码可以被完全移除(左侧乘上  )。基于此计算过程,我们设计基于掩码的联邦线性回归协议:

在改协议中,我们有三种类型的参与方:


  • Trusted Authority (TA):我们假设TA是可信的(trusted entity),TA负责在计算初始阶段生成随机掩码,初始化完成,TA保持offline。


  • Users:Users为数据持有方,我们假设Users为半诚实。


  • Computing Service Provider (CSP):计算服务提供方,我们假设CSP为半诚实。


额外的,我们假设Users和CSP无共谋行为。


我们的计算协议可以分为四个步骤:


  • 步骤一:TA生成随机掩码   ,并将掩码  广播给Users,掩码  按行切分、分发给Users。即,所有Users持有相同的  、不同的  。


  • 步骤二:Users依据分块矩阵运算:

      ,使用Secure Aggregation,联合加掩码,CSP将获得掩码结果  。


  • 步骤三:CSP在掩码数据上进行OLS(或者使用SVD分解求解亦可,等价于OLS),并将带掩码的结果返回给Users。


  • 步骤四:Users使用本地不同的  ,移出掩码,得到各自的模型参数。(符合纵向联邦的定义,每个数据参与方持有不同的模型)。


根据以上协议,即可完成基于随机掩码的纵向线性回归建模。


进一步的算法优化:通过以上思想,即可完成一个Naïve版本的随机掩码的纵向线性回归建模,但其效率较低,例如生成随机正交矩阵、对数据加掩码的过程,均为  复杂度,随机正交矩阵的传输和存储为  复杂度,效率较低。对此,还可以提出更多的优化方案。

三、准确性分析


为了保护数据隐私,我们对原数据加入了随机掩码,但和差分隐私不同的是,我们的随机掩码可以在数据中完全移出,所以保证了对准确性无影响。

(表1 )

表1对比我们的方案(FedSVD)和基于SGD求解线性回归的误差(训练集上的RMSE)。


表1在4个数据集上对比了我们的方案和基于SGD求解线性回归的误差,可以看到,我们的方法只需要一次计算即可达到全局最优解,SGD方法往往需要多轮训练才能收敛。


四、效率分析

图1-3 对比我们的方案(FedSVD)、基于部分同态加密方案、和基于秘密共享方案(SecureML)的效率


图1-3对比了不同方案在纵向联邦线性回归任务上的耗时,可以看到,与基于部分同态加密的方案对比,我们的方案将效率提升了约10倍,与SecureML这种基于秘密共享的方案对比,我们的方案将效率提升了约100倍。


五、安全性分析


在本方案中,安全性威胁主要来自于CSP是否能够从加掩码的数据反推原始数据,对此,我们提供证明,对于一个给定的带掩码数据   ,存在无数种原始数据可以被掩码转化成   ,证明如下:

同时,我们在选取随机正交矩阵PQ时,采用均匀随机采样。

 

为了更好的展示随机正交掩码的保护效果,我们使用以下可视化进行展示:

左侧为原始数据,呈现球状、颜色分层,右侧为加随机正交掩码后,无法区分数据信息。


六、总结及未来工作


在本文中,我们介绍了一种基于随机掩码的纵向联邦线性回归思路,依据此掩码思路,我们还可以完成多方奇艺值分解、主成分分析、潜在语义分析等众多任务。该随机掩码作用在原数据上的方式为线性,所以加掩码后的数据支持各种矩阵线性操作,例如:矩阵乘法、矩阵求逆、迹运算、求秩等,均可以支持。但涉及到element-wise的计算,或者非线性计算,无法支持,未来我们将考虑将这种掩码和其他隐私保护技术相结合,提供对element-wise和非线性计算的支持。



【社区征稿】

 

FATE(Federated AI Technology Enabler)开源社区是全球首个隐私计算联邦学习开源社区,拥有全球首个工业级安全联邦学习框架。同时FATE开源社区以“开源开放,共力创新”为愿景,汇聚更多开发者、行业专家、创新力量,共同推动联邦学习技术发展及应用实践。基于此,目前社区向广大行业从业者征稿,希望给行业从业者打造一个技术交流的平台,欢迎大家踊跃投稿~(公众号后台留言或联系小助手)



END

1.精华合集 | 联邦学习 FATE 从入门到精通(建议收藏!!!)

2.资料合集 | 隐私计算行业规范、白皮书、研究报告等资料汇总(建议收藏!!)

扫码关注FATE开源社区

继续滑动看下一个
FATE开源社区
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存