一种基于随机掩码的联邦线性回归思路

星云Clustar FATE开源社区

2024-08-26

本期很荣幸为大家带来一篇星云Clustar的精彩投稿。投稿文章将介绍一种基于随机掩码（Mask)的联邦线性回归新思路，该方案和基于同态加密方案相比会有更高效率。

星云Clustar是FATE开源社区TSC Board成员，专注于以软硬件协同创新，提升隐私计算联邦学习算法效率，高效赋能数据有序共享与综合应用。本文介绍的方案已通过peer review。以下是方案详细内容~

✦

一、背景介绍

线性回归作为一种使用难度低、可解释性好的模型，在联邦学习的研究和应用中广受欢迎。FATE平台也支持纵向联邦线性回归建模。在本文中，我们将介绍一种基于随机掩码（Mask）的联邦线性回归新思路，和基于部分同态加密方案相比，该方案效率更高。下面我们将从方案实现、准确性/效率/安全性分析、总结及未来工作等层面进行介绍。

二、技术原理

Ordinary least-squares (OLS, 最小二乘法) 是一种求解线性回归参数的常规方法。假设我们有数据特征，数据标签，其中为样本数量，为特征数量。线性回归模型想要估计参数 β使得 ,使用OLS求解的计算公式为：

为了保护数据隐私，我们选择使用随机正交矩阵对原数据进行扰动，具体方法为：

其中，

为随机正交矩阵，即为加掩码后的数据和标签。

下面我们将展示，在加掩码后的数据上，进行最小二乘法，可以得到带掩码的参数，并且，参数中的掩码可以被完整移除。

所以，对加掩码的数据进行最小二乘法得到的参数，也是带掩码的，并且掩码可以被完全移除（左侧乘上）。基于此计算过程，我们设计基于掩码的联邦线性回归协议：

在改协议中，我们有三种类型的参与方：

Trusted Authority （TA）：我们假设TA是可信的（trusted entity），TA负责在计算初始阶段生成随机掩码，初始化完成，TA保持offline。
Users：Users为数据持有方，我们假设Users为半诚实。
Computing Service Provider （CSP）：计算服务提供方，我们假设CSP为半诚实。

额外的，我们假设Users和CSP无共谋行为。

我们的计算协议可以分为四个步骤：

步骤一：TA生成随机掩码，并将掩码广播给Users，掩码按行切分、分发给Users。即，所有Users持有相同的、不同的。
步骤二：Users依据分块矩阵运算：
，使用Secure Aggregation，联合加掩码，CSP将获得掩码结果。
步骤三：CSP在掩码数据上进行OLS（或者使用SVD分解求解亦可，等价于OLS），并将带掩码的结果返回给Users。
步骤四：Users使用本地不同的，移出掩码，得到各自的模型参数。（符合纵向联邦的定义，每个数据参与方持有不同的模型）。

根据以上协议，即可完成基于随机掩码的纵向线性回归建模。

进一步的算法优化：通过以上思想，即可完成一个Naïve版本的随机掩码的纵向线性回归建模，但其效率较低，例如生成随机正交矩阵、对数据加掩码的过程，均为复杂度，随机正交矩阵的传输和存储为复杂度，效率较低。对此，还可以提出更多的优化方案。

三、准确性分析

为了保护数据隐私，我们对原数据加入了随机掩码，但和差分隐私不同的是，我们的随机掩码可以在数据中完全移出，所以保证了对准确性无影响。

（表1 ）

表1对比我们的方案（FedSVD）和基于SGD求解线性回归的误差（训练集上的RMSE）。

表1在4个数据集上对比了我们的方案和基于SGD求解线性回归的误差，可以看到，我们的方法只需要一次计算即可达到全局最优解，SGD方法往往需要多轮训练才能收敛。

四、效率分析

图1-3 对比我们的方案（FedSVD）、基于部分同态加密方案、和基于秘密共享方案（SecureML）的效率。

图1-3对比了不同方案在纵向联邦线性回归任务上的耗时，可以看到，与基于部分同态加密的方案对比，我们的方案将效率提升了约10倍，与SecureML这种基于秘密共享的方案对比，我们的方案将效率提升了约100倍。

五、安全性分析

在本方案中，安全性威胁主要来自于CSP是否能够从加掩码的数据反推原始数据，对此，我们提供证明，对于一个给定的带掩码数据，存在无数种原始数据可以被掩码转化成，证明如下：

同时，我们在选取随机正交矩阵PQ时，采用均匀随机采样。

为了更好的展示随机正交掩码的保护效果，我们使用以下可视化进行展示：

左侧为原始数据，呈现球状、颜色分层，右侧为加随机正交掩码后，无法区分数据信息。

六、总结及未来工作

在本文中，我们介绍了一种基于随机掩码的纵向联邦线性回归思路，依据此掩码思路，我们还可以完成多方奇艺值分解、主成分分析、潜在语义分析等众多任务。该随机掩码作用在原数据上的方式为线性，所以加掩码后的数据支持各种矩阵线性操作，例如：矩阵乘法、矩阵求逆、迹运算、求秩等，均可以支持。但涉及到element-wise的计算，或者非线性计算，无法支持，未来我们将考虑将这种掩码和其他隐私保护技术相结合，提供对element-wise和非线性计算的支持。

【社区征稿】

FATE（Federated AI Technology Enabler）开源社区是全球首个隐私计算联邦学习开源社区，拥有全球首个工业级安全联邦学习框架。同时FATE开源社区以“开源开放，共力创新”为愿景，汇聚更多开发者、行业专家、创新力量，共同推动联邦学习技术发展及应用实践。基于此，目前社区向广大行业从业者征稿，希望给行业从业者打造一个技术交流的平台，欢迎大家踊跃投稿~（公众号后台留言或联系小助手）

END

1.精华合集 | 联邦学习 FATE 从入门到精通（建议收藏！！！）

2.资料合集 | 隐私计算行业规范、白皮书、研究报告等资料汇总（建议收藏！！）

扫码关注FATE开源社区

继续滑动看下一个

FATE开源社区

向上滑动看下一个

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

离婚当日约会新欢，瘫痪在床却想甩锅前妻，做人不能太嘚瑟！

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

一种基于随机掩码的联邦线性回归思路

您可能也对以下帖子感兴趣

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

离婚当日约会新欢，瘫痪在床却想甩锅前妻，做人不能太嘚瑟！

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

生成图片，分享到微信朋友圈

一种基于随机掩码的联邦线性回归思路

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡