查看原文
其他

蒋昌俊院士 | 基于本地差分隐私的高维数据合成

SCIS 中国科学信息科学 2024-01-09


Xue Chen, Cheng Wang, Qing Yang, Teng Hu, Changjun Jiang. Locally Differentially Private High-Dimensional Data Synthesis. Sci China Inf Sci, DOI:10.1007/s11432-022-3583-x


研究意义


     随着互联网和大数据技术的发展,数据可以用来捕捉用户行为,在社会各个领域发挥着非常重要的作用。以数据为中心的组织收集和分析用户的数据记录以提供更好的决策和定制服务变得越来越普遍。虽然收集和分析这些数据记录可以带来便利,但是数据中包含很多隐私信息,一旦被泄露,将造成严重后果。为了解决这个问题,本地化差分隐私被提出并且引起了广泛关注。现有的基于本地差分隐私的低维数据采集已经取得了很好的性能,能够实现在保护数据隐私的同时保证数据效用,然而,高维数据蕴含着丰富的知识,正在逐渐发挥重要作用。不幸的是,本地差分隐私与高维数据合成的结合在数据效用和通信成本方面都提出了重大挑战。现有的生成低维数据的经典方法,在所有属性之间划分隐私预算不再有效。


Figure1 基于本地差分隐私的数据采集过程

本文工作

 

   为了解决上述问题,本研究提出了一种名为 SamPrivSyn 的方法,用于基于采样技术进行局部差分私有高维数据合成。SamPrivSyn 由两个模块组成:一个是边缘采样模块,用于从用户数据记录中进行采样以获得two-way边缘分布。为了保持属性之间的相关性,采样标准基于属性间的互信息量。属性对的互信息越高,属性对被采样的概率就越高。此外,互信息根据采样数据不断更新,因为在本地差分隐私场景下无法提前获取本地数据。第二个模块是数据生成模块,基于two-way边缘分布来构建合成数据集。在 SamPrivSyn 中,通过使用低维边缘分布来表示高维数据集,这样可以有效地降低每个数据记录添加的噪声和通信成本。换言之,SamPrivSyn 可以处理任何高维数据集,其噪声和通信成本并不会因高维而大幅增加。因此,可以保持高数据效用,同时以低通信成本提供强大的隐私保护。SamPrivSyn 中的数据生成算法还可以基于这些边缘有效地合成数据集,同时保留属性之间的相关性。
    本文的创新点如下:
(1) 一种基于不断更新的互信息的高效采样方法,用于从高维数据集中获取two-way边缘分布来表示原始数据集;
(2) 一种迭代且高效的数据生成方法,用于构建保留属性之间相关性的合成数据集;
(3) 一个广泛的实验机制来验证SamPrivSyn 的有效性。

Figure2 SamPrivSyn的框架图 

实验结果

  

  为了评估 SamPrivSyn 的效率和有效性,本篇论文在真实数据集进行了广泛的比较实验。并且本文提出的SamPrivSyn 方法与代表性和最先进的方法 CALMLoPub kRR 进行了比较,从数据效用和通信成本两个角度评估性能。数据效用通过分布估计准确度和对合成数据集进行逻辑回归的性能来衡量。分布估计准确度表示估计和真实的联合分布之间的相似度,而逻辑回归准确度表示合成数据集上的训练准确度与在原始数据集上的相似度。具体来说,分布估计的准确度是用常用的相对误差(RE)度量来衡量的,逻辑回归的性能是用准确度来衡量的,准确度表示样本在样本总数中被正确分类的比例。通信成本定义为从客户端发送到服务器端的全部比特。本文在Adult Bank Marketing 数据集上进行了实验,实验结果如下:


Figure 4 不同数据集上的实验结果


Figure 5 逻辑回归准确度结果

 

Figure 6 通信成本





蒋昌俊 院士

教授,博士生导师。同济大学党委常委、副校长。主要从事网络并发理论、网络计算技术、网络交易风控等研究。


本文内容可能会与最终出版文章有微小差异,点击下方阅读原文按钮,快速获取文章最新版本。


《中国科学:信息科学》| SCIENCE CHINA Information Sciences

及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、微电子与固体电子学等领域基础与应用研究方面的原创性成果.

英文版投稿:https://mc03.manuscriptcentral.com/scis

中文版投稿:https://www.scicloudcenter.com/SSI/login/index

快速访问:http://scis.scichina.com/



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存