AIJ 2023 | 面向联邦物品推荐的隐私保护图卷积网络
Privacy-preserving Graph Convolution Network for Federated Item Recommendation
Pengqing Hu1, Zhaohao Lin1, Weike Pan1*, Qiang Yang2, Xiaogang Peng1*, Zhong Ming11Shenzhen University
2Hong Kong University of Science and Technology
导读
该工作提出了一种基于图卷积网络的联邦推荐框架,设计了一种基于安全聚合的新颖的隐私保护图卷积方法,采用基于物品的用户表示来补偿由于保护用户隐私而导致的推荐效果损失,改进了分组隐藏策略以保护用户隐私。该方法可以利用现有方法难以利用的图高阶连接信息,在所研究的问题上优于所有现有的联邦方法。
引言
推荐系统需要收集和存储用户的个人信息和历史行为来构建推荐模型,这引起了用户隐私和数据安全问题。随着《通用数据保护条例》(GDPR)等严格的数据保护法规的出台,未来可能会禁止基于用户数据的集中存储构建推荐模型。联邦学习是Google提出的一种新的机器学习框架,为保护用户隐私提供了一种潜在的解决方案。它不收集和存储用户的原始数据,而是通过传输梯度等来构建机器学习模型。
图卷积网络(GCN)是公认的最流行的图神经网络模型之一,它在嵌入向量学习过程中通过在用户-物品图上传播嵌入向量来捕获高阶信息。然而,在联邦场景中,用户-物品图以分布式的方式存储,即每个用户在本地保存一个小的子图,该子图仅以二部图的形式包含用户与相应物品的交互,并且不能泄露给服务器或其他用户。在上述情况下,由于局部数据的碎片化和隐私性的考虑,很难通过传播嵌入向量来挖掘整个全局用户-物品图中的结构信息。为了解决这一挑战,一些基于GNN的联邦推荐框架被提出。但是,它们只考虑二级连接和低阶连接,这意味着它们不能像在集中式用户-物品图的传统场景中那样充分利用图高阶连接信息。
为了解决这一挑战,本文提出了一种新的联邦推荐框架,称为隐私保护的图卷积网络(Privacy-Preserving Graph Convolution Network, P-GCN)。具体来说,本文提出了一种隐私保护的图卷积方法,该方法通过安全聚合实现GCN的前向传播,以生成用户或物品的高层嵌入向量。为了保护隐私,本文在反向传播阶段将高层嵌入向量从GCN中分离出来,然后采用基于物品的用户嵌入向量而不是用户ID嵌入向量来弥补前者对图高阶连接信息建模的损害。本文还采用组隐藏策略保护用户与服务器通信时每个用户交互的物品集。此外,本文通过在训练过程中固定用户组来改进组隐藏策略,以便在不影响P-GCN性能的情况下减少通信量。在三个数据集上的大量实验和对结果的深入分析证明了P-GCN的合理性和有效性。
技术贡献
提出了一种新的用于隐私感知推荐系统的联邦推荐框架P-GCN,可以利用分布式用户-物品图中的图高阶连接信息; P-GCN是第一个可以充分利用高阶连接信息的基于图神经网络的跨用户联邦推荐模型; 采用基于物品的用户表示弥补由于保护隐私而对高阶连通性建模造成的损失; 提出了一种改进的组隐藏策略来保护用户隐私,该策略可以在不影响推荐效果的情况下减少通信次数。
方法介绍
在开始训练之前,中央服务器执行组隐藏策略,该策略保护每个客户端与中央服务器通信时可能泄露的用户-物品交互记录。随后,中央服务器初始化模型参数 和 ,开始训练。
该方法的具体流程如图1所示。图中展示的是一次迭代的流程。第一,中央服务器随机选择 个用户组,取其并集,记为 ,得到本次迭代中参与模型更新的客户端集合。第二,每个用户从中央服务器下载自己所需的 ,并用它们构造第0层的用户嵌入向量。第三,中央服务器与客户端一起执行图卷积操作。具体来说,在每一层的图卷积处,每个客户端从中央服务器下载第 层物品嵌入向量用于构造第 层用户嵌入向量,同时通过安全聚合技术上传第 层用户嵌入向量用于在中央服务器构造第l层物品嵌入向量。第四,当图卷积完成后,中央服务器与选定的客户端 一起进行模型更新。通过图卷积获得不同层的所有相应的嵌入向量后,每个客户端使用本地数据计算可训练嵌入向量的梯度,即 和 ,并使用安全聚合技术上传至中央服务器。中央服务器随后更新 和 。上述模型训练过程将反复执行,直至模型收敛。
图1. 方法流程
接下来具体介绍改进的组隐藏策略。第一,中央服务器按照给定超参数——用户组大小 ,将所有客户端随机划分为若干个数量为 的用户组。最后一组的数量可以不为 。第二,中央服务器通过隐私求并集技术(Private Set Union, PSU)获取每个用户组内所有客户端交互物品的并集,然后发送给该用户组内的各个客户端。当中央服务器在一次迭代中选择一些客户端参与当前迭代时,随机选择 个用户组,然后将它们的并集作为本次迭代中参与模型更新的客户端集合 。改进的组隐藏策略解决了在某些场景下现有策略失效的问题。而且,它不会引入噪声,也不一定会降低推荐模型的效果,并且除了随机性之外,所有算法和方程都不会受到任何影响。
结果展示
如表1所示是在三个数据集Gowalla, Yelp2018和Amazon-Book上,基准方法BPR、WMF、NCF、VAE、LightGCN和本工作的P-GCN的推荐效果对比。更高的Recall和NDCG代表该方法的推荐效果更好。从表1可以得到以下结论:
1. 在所有三个数据集上,P-GCN始终优于现有的基准方法,包括LightGCN。与LightGCN使用的用户ID嵌入向量相比,P-GCN使用基于物品的用户嵌入向量可以更好地代表用户的偏好。
2. LightGCN在大多数情况下也优于其他不是基于GCN的基准方法。
表1. 基准方法和P-GCN在Gowalla, Yelp2018和Amazon-Book数据集上的推荐效果。
总结展望
本工作提出了一种新的基于图神经网络的联邦推荐框架,称为P-GCN。它可以以隐私感知的方式使用分布式的而不是集中式的用户-物品交互图来构建图神经网络模型。截至投稿日期,P-GCN是第一个可以充分利用图高阶连接信息的跨用户联邦推荐模型。本工作提出了一种新的保护隐私的图卷积方法和改进的组隐藏策略,并采用基于物品的用户表示解决隐私和推荐效果问题。在三个数据集上的大量实验表明,P-GCN可以实现与基于非联邦图神经网络的推荐方法LightGCN相似甚至更高的推荐效果,并且在所有情况下都优于现有方法。
在未来的工作中,我们有兴趣加入一些辅助信息,如序列信息、社交网络、用户画像和物品属性。此外,我们计划将我们的工作扩展到来自多个域或组织的数据,以同时实现跨用户和跨组织的联邦学习。
思考讨论
Q: 文章中提到的图高阶连接信息是什么?
A: 如果图中两个不同节点之间存在路径且路径的长度大于1,那么,它们之间蕴含的信息就是图高阶连接信息。
以下是开放型问题,欢迎各位读者交流讨论:
Q: 该方法从LightGCN衍生而来,但是其隐私保护的图卷积方法能否应用到其他基于图神经网络的推荐系统上?
深圳大学计算机与软件学院
软件工程研究中心
Software Engineering Research Center
深圳大学软件工程研究中心重点研究软件中间件、程序可靠性、云计算和软件智能等技术,与华为等企业开展了产学研合作,相关成果已在中兴网信等产业化,荣获广东省科学技术一等奖和中国电子学会科学技术一等奖。
转载申请
联系电话:0755-26534078联系邮箱:wuyazhou@szu.edu.cn