蒋昌俊院士 | 基于本地差分隐私的高维数据合成
Xue Chen, Cheng Wang, Qing Yang, Teng Hu, Changjun Jiang. Locally Differentially Private High-Dimensional Data Synthesis. Sci China Inf Sci, DOI:10.1007/s11432-022-3583-x
随着互联网和大数据技术的发展,数据可以用来捕捉用户行为,在社会各个领域发挥着非常重要的作用。以数据为中心的组织收集和分析用户的数据记录以提供更好的决策和定制服务变得越来越普遍。虽然收集和分析这些数据记录可以带来便利,但是数据中包含很多隐私信息,一旦被泄露,将造成严重后果。为了解决这个问题,本地化差分隐私被提出并且引起了广泛关注。现有的基于本地差分隐私的低维数据采集已经取得了很好的性能,能够实现在保护数据隐私的同时保证数据效用,然而,高维数据蕴含着丰富的知识,正在逐渐发挥重要作用。不幸的是,本地差分隐私与高维数据合成的结合在数据效用和通信成本方面都提出了重大挑战。现有的生成低维数据的经典方法,在所有属性之间划分隐私预算不再有效。
Figure1 基于本地差分隐私的数据采集过程
为了解决上述问题,本研究提出了一种名为 SamPrivSyn 的方法,用于基于采样技术进行局部差分私有高维数据合成。SamPrivSyn 由两个模块组成:一个是边缘采样模块,用于从用户数据记录中进行采样以获得two-way边缘分布。为了保持属性之间的相关性,采样标准基于属性间的互信息量。属性对的互信息越高,属性对被采样的概率就越高。此外,互信息根据采样数据不断更新,因为在本地差分隐私场景下无法提前获取本地数据。第二个模块是数据生成模块,基于two-way边缘分布来构建合成数据集。在 SamPrivSyn 中,通过使用低维边缘分布来表示高维数据集,这样可以有效地降低每个数据记录添加的噪声和通信成本。换言之,SamPrivSyn 可以处理任何高维数据集,其噪声和通信成本并不会因高维而大幅增加。因此,可以保持高数据效用,同时以低通信成本提供强大的隐私保护。SamPrivSyn 中的数据生成算法还可以基于这些边缘有效地合成数据集,同时保留属性之间的相关性。
本文的创新点如下:
(1) 一种基于不断更新的互信息的高效采样方法,用于从高维数据集中获取two-way边缘分布来表示原始数据集;
(2) 一种迭代且高效的数据生成方法,用于构建保留属性之间相关性的合成数据集;
(3) 一个广泛的实验机制来验证SamPrivSyn 的有效性。
为了评估 SamPrivSyn 的效率和有效性,本篇论文在真实数据集进行了广泛的比较实验。并且本文提出的SamPrivSyn 方法与代表性和最先进的方法 CALM、LoPub 和 kRR 进行了比较,从数据效用和通信成本两个角度评估性能。数据效用通过分布估计准确度和对合成数据集进行逻辑回归的性能来衡量。分布估计准确度表示估计和真实的联合分布之间的相似度,而逻辑回归准确度表示合成数据集上的训练准确度与在原始数据集上的相似度。具体来说,分布估计的准确度是用常用的相对误差(RE)度量来衡量的,逻辑回归的性能是用准确度来衡量的,准确度表示样本在样本总数中被正确分类的比例。通信成本定义为从客户端发送到服务器端的全部比特。本文在Adult 和Bank Marketing 数据集上进行了实验,实验结果如下:
Figure 4 不同数据集上的实验结果
Figure 5 逻辑回归准确度结果
Figure 6 通信成本
蒋昌俊 院士
教授,博士生导师。同济大学党委常委、副校长。主要从事网络并发理论、网络计算技术、网络交易风控等研究。