查看原文
其他

要隐私也要便利! 隐私保护推荐系统的研究进展

田长鑫 RUC AI Box 2022-12-14

© 作者|田长鑫

机构|中国人民大学硕士二年级

研究方向|图神经网络和推荐系统


本文介绍的是隐私保护推荐系统的研究进展文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!

1.引言

    互联网时代,推荐系统已成为帮助用户发现有用信息的重要工具。典型的推荐系统往往需要收集用户和物品的属性信息以及二者的交互记录,以建模用户偏好,实现精准推荐。然而,用户属性和交互记录蕴含了丰富的用户个人隐私,传统的推荐系统不可避免地带来用户隐私泄露的风险。在此背景下,隐私保护推荐系统(Privacy-Preserving Recommender Systems)关注如何在保护用户隐私的前提下进行准确推荐。

    本文将介绍隐私保护推荐系统领域所用的经典技术和近期的最新进展,并于最后奉上独家整理的Paper List和相关学习资源。希望本文能帮助研究者快速了解该领域相关研究进展,欢迎大家在评论区讨论及指出文章的疏漏错误等。

    本文配套的隐私保护推荐系统Paper List同步发布于Github,并将持续更新:

(https://github.com/RUCAIBox/Awesome-Privacy-Preserving-RS-Paper)

2.隐私保护推荐系统 概述

    典型的推荐系统中,推荐系统平台方收集用户的个人信息和交互记录,以此训练模型并执行推荐。传统的推荐系统假设平台方和用户彼此之间是完全可信的,然而真实场景中往往存在隐私泄露的风险,这种风险存在于多个方面,包括用户和平台之间,用户和用户之间,平台和平台之间。

  • 用户和平台之间:

    用户和平台之间的隐私保护 是广受关注的问题。经典的推荐场景中,用户充分信任平台方,并将自己的敏感信息完全提供给平台方用于推荐。然而平台方可能对用户信息存在滥用,用户和平台之间隐私保护问题关注如何在用户不牺牲个人隐私信息的前提下,推荐系统依然可以进行训练并对用户执行推荐。

  • 用户和用户之间:

    在一些场景中(如社交推荐),用户和用户之间的关系被捕获用以提升推荐效果。在进行推荐时,用户之间可能需要交换彼此的信息(如交互记录),而潜在的恶意用户可能会窃取其他用户的个人信息。用户和用户之间隐私保护问题关注如何避免用户之间的信息泄露,防止恶意用户窃取其他用户的敏感信息。

  • 平台和平台之间:

    在多个平台协作进行推荐的场景中(如跨领域推荐),往往要求平台之间共享用户数据来训练模型。然而,平台方彼此之间并非完全可信,跨平台的信息共享会带来严重的信息泄露风险。平台和平台之间隐私保护问题关注如何在跨平台共享信息时保护本平台的用户隐私数据。

3.隐私保护的经典技术

    推荐系统的隐私保护问题被研究已久。早期研究主要通过密码学方法或模糊化方法实现对隐私信息的保护,近年随着联邦学习的提出,通过数据分布式存储和分布式计算实现信息保护的联邦学习成为隐私保护推荐系统的主流方法。接下来,我们分别从密码学方法模糊化方法联邦学习介绍隐私保护推荐系统领域所用到的经典技术。

  • 密码学方法(Cryptography):

    密码学方法基于数学理论研究数据加密算法,其中最经典、使用最广泛的即为同态加密(Homomorphic Encryption, HE)。同态加密的思想非常直观,即通过满足密文同态运算性质的加密算法实现数据的“可算不可见”。具体来讲,即数据经过同态加密之后,对密文进行特定计算得到密文计算结果,再对密文计算结果进行对应的同态解密后所得的明文,等同于对明文数据直接进行相同的计算,该过程可被形式化为下图。

    如果一种同态加密算法支持对密文进行任意形式的计算,则称其为全同态加密(Fully Homomorphic Encryption, FHE);如果支持对密文进行部分形式的计算,例如仅支持乘法,则称其为半同态加密或部分同态加密(Partially Homomorphic Encryption,PHE)。在推荐系统隐私保护领域,同态加密可被用于加密用户特征或梯度结果等,从而实现推荐系统平台在不可见用户具体信息的情况下执行推荐运算。同态加密算法加密效果好,但可能需要较大的计算成本。

  • 模糊化处理 (Obfuscation):

    模糊化处理的方法往往对用户的信息(如配置文件和浏览记录)施加扰动,以防止识别单个用户,同时尽可能保持推荐的准确性。最简单的模糊化处理方法是使用随机扰动技术在用户数据中加入随机噪声。更进一步,差分隐私(Differential Privacy, DP)技术对噪声进行设计,典型的差分隐私数学定义如下:

    其中 ε 称为隐私预算(privacy budget),决定了加入噪声的程度;D1,D2为数据集。噪声的加入会使数据不再准确的,从而一定程度上降低模型的效果,因此使用差分隐私时需要对隐私保护和推荐效果加以权衡。此外,还有一些方法使用聚类算法(Clustering)将用户分组到不同集群,然后提取该集群的一个表示用于推荐。这种方法减少了数据的表示,为每个集群内的用户提供不精确的匿名表示,笔者也将此类算法理解为一种模糊化处理方法。

  • 联邦学习(Federated Learning)

    联邦学习概念由谷歌于2016年最早提出。联邦学习的基本思想是,基于分布在多个设备上的数据集,建立分布式的机器学习模型,同时防止数据泄漏。由于联邦学习不要求对训练数据的集中存储,所以它在隐私保护方面优势显著。根据多参与方之间数据分布的不同,联邦学习可分为三类,横向联邦学习、纵向联邦学习和联邦迁移学习。其中横向联邦学习在推荐系统隐私保护领域使用最多,其本质是样本的联合。

    横向联邦学习的基本学习过程如上图。具体包括:step1,参与方各自从服务器下载最新模型;step2,每个参与方利用本地数据训练模型,加密梯度上传给服务器,服务器聚合各用户的梯度更新模型参数;step3,服务器返回更新后的模型给各参与方;step4:各参与方更新各自模型。这推荐场景中,服务器即为推荐系统平台方,用户只向平台方提供加密数据(如梯度),而浏览记录等信息保存在本地,从而实现了隐私保护。

4.隐私保护推荐系统 近期工作

    如前所述,近期隐私保护推荐系统的相关工作多以联邦学习为主,同时在联邦学习的基础上结合加密算法和模糊化算法以更好完善隐私保护。接下来,我们将递进地介绍近期隐私保护推荐系统领域的典型研究工作,并简要介绍一些特定场景下的隐私保护推荐系统。

隐私保护推荐系统的典型框架

Privacy Enhanced Matrix Factorization for Recommendation with Local Differential Privacy. TKDE 2018.

Federated Collaborative Filtering for Privacy-Preserving Personalized Recommendation System. Arxiv 2019.

    通过用户数据分布式存储和模型分布式计算实现隐私保护的工作出现已久,但FCF(Federated Collaborative Filter)较早地在推荐系统中使用联邦学习概念。FCF是典型的基于联邦学习范式的隐式反馈协同过滤框架,其完整框架如图:

    以经典的平方损失为例,隐式反馈协同过滤的损失函数可以被定义为:

    这其中,第一部分为预测结果与置信参数的偏差,第二部分为正则化约束。按照常规的求解过程,我们分别求解损失函数对用户隐向量和物品隐向量的梯度:

    由此可见,在用户本地保存物品隐向量的情况下,用户可以直接本地计算用户隐向量梯度并更新用户隐向量;而推荐系统在更新物品隐向量时只需要得到梯度信息即可。所以,仿效经典的横向联邦学习,FCF框架中用户在本地利用个人数据更新自己的用户隐向量,同时计算本地的物品隐向量梯度并上传到中心服务器,中心服务器收集物品隐向量梯度并进行平均计算,更新物品隐向量并分发给用户的本地模型。

联邦学习推荐系统的加密优化

Secure Federated Matrix Factorization. IEEE Intelligent Systems 2020.

Stronger Privacy for Federated Collaborative Filtering With Implicit Feedback. RecSys 2021. 

FedRec: Federated Recommendation with Explicit Feedback. IEEE Intelligent Systems 2020.

FedRec++: Lossless Federated Recommendation with Explicit Feedback. AAAI 2020.

    联邦学习推荐系统FCF直接传递梯度,然而研究证明通过梯度也可以还原出用户隐私信息。为此,之后的工作进一步优化联邦学习推荐系统的安全性,其中大多数工作提出了联邦学习与密码学方法或模糊化方法结合的方案。

    联邦学习结合密码学方法的工作直接将梯度进行加密后再上传给服务器。例如,FebMF(Secure Federated Matrix Factorization. IEEE IS 2020.)在FCF的基础上,使用同态加密算法对梯度进行加密操作,使得服务器可以执行物品隐向量更新但无法还原用户原始信息。该方法与FCF框架的比较如下:

    同态加密算法拥有严密的理论和理想的准确度,但是计算成本较高。RecSys 2021的方法(Stronger Privacy for Federated Collaborative Filtering With Implicit Feedback. )提出使用本地差分隐私(LDP)模块对物品隐向量梯度矩阵进行加密处理,并通过代理网络(Proxy Network)来抹除用户元数据(如用户ID),得到隐私保护的物品更新梯度矩阵,随后再交由服务器进行平均聚合:

    联邦学习结合模糊化方法也可以更好地保护用户隐私。例如,为了防止服务器通过用户上传的梯度推断出用户交互过的物品,FedRec(FedRec: Federated Recommendation with Explicit Feedback. IEEE IS 2020)计算物品隐向量梯度时,随机采样一些未交互过的扰动物品混入交互物品集合,并赋予扰动物品平均的评分或预测的评分以模拟真实交互,从而达到保护隐私的目的,其过程如下图所示:

    然而,添加随机采样的扰动物品虽然可以防止服务器精确还原用户的交互记录,但是也不可避免地引入了噪声,降低了推荐精度。为此,FedRec团队进一步提出FedRec++(FedRec++: Lossless Federated Recommendation with Explicit Feedback. AAAI 2020)以缓解噪声问题。FedRec++设计了去噪客户端(Denoising Clients)和普通客户端(Ordinary Clients)。普通客户端正常给梯度添加噪声并上传给服务器,同时将添加的噪声传递给去噪客户端;去噪客户端根据其他用户的噪声合成自身梯度噪声,并上传给服务器;服务器收集来自去噪客户端和普通客户端的加密梯度,虽然不知每个客户端的原始梯度但是可以还原出原始梯度的总和,从而实现去噪。笔者认为该过程类似于秘密共享(Secret Share)的思想,FedRec++的示意如下:

联邦学习推荐系统的效率优化

FedFast: Going Beyond Average for Faster Training of Federated Recommender Systems. KDD 2020.

A Payload Optimization Method for Federated Recommender Systems-Recsys. RecSys 2021.

    分布式的存储和计算虽然保护了用户隐私,但是也带来了更大的训练难度和更多的通讯成本。为此,一些工作关注如何优化联邦学习推荐系统的效率,即加快收敛速度、减少通讯次数。

    典型联邦学习方法FedAvg 随机挑选客户端收集梯度,并对梯度进行平均聚合更新,但该方法需要进行多次用户和服务器的沟通,才能收敛到令人满意的准确性。为此,FedFast(FedFast: Going Beyond Average for Faster Training of Federated Recommender Systems. KDD 2020)提出新的客户端采样方法和梯度聚合方法,加速了学习过程,同时保证了训练早期的准确性。具体地,FedFast利用隐私保护的特征对客户端进行聚类,然后设计ActvSAMP算法从不同的聚类中选择待更新的客户端,再设计ActvAGG算法进行参数更新。值得注意的时,FedFast在进行参数更新时,不仅更新被选择客户端,同时也基于聚类结果对同类中未被选择的客户端进行更新。FedFast的结构如图:

    如上所述,当前基于联邦学习的推荐系统大多会将全局模型频繁传输给用户,因此通讯成本会随着物品的增加而加大。为此,RecSys 2021的文章”A Payload Optimization Method for Federated Recommender Systems-Recsys“采用多臂老虎机制定具有最小通讯成本的解决方案, 在每一轮沟通中智能地选择部分全局模型传递给所有用户,提升效率。具体地,模型首先通过贝叶斯汤姆森采样(BTS)得到具有最大的期望收益的物品子集;然后基于该物品子集来获得待更新矩阵的子集;服务器从客户端获取这些物品的梯度,在达到更新阈值后进行物品矩阵更新。该模型的整体架构如下:

复杂场景下的隐私保护推荐系统

Privacy-Preserving News Recommendation Model Learning. EMNLP 2020.

FedGNN: Federated Graph Neural Network for Privacy-Preserving Recommendation. FL-ICML Workshop 2021.

DeepRec: On-device Deep Learning for Privacy-Preserving Sequential Recommendation in Mobile Commerce. WWW 2021.

    除一般推荐场景外,复杂推荐场景下的隐私保护问题也同样受到了研究人员的关注。在新闻推荐、序列推荐等场景中,我们往往需要对隐私保护问题进行特殊考虑。

    新闻推荐致力于根据用户兴趣向用户展示新闻文章,用户浏览过的新闻同样包含用户敏感信息。为此,FedNewsRec(Privacy-Preserving News Recommendation Model Learning. EMNLP 2020)改进经典的联邦学习推荐系统,以实现新闻推荐中的隐私保护。FedNewsRec中的推荐模型由建模用户兴趣的用户模型(User Model)和学习新闻表征的新闻模型(News Model)组成,每个用户本地计算模型梯度,梯度经局部差分隐私(LDP)加密后上传至服务器供模型更新。FedNewsRec的框架如下:

    基于图神经网络(GNN)的推荐系统借助用户-物品交互图上的高阶信息进行推荐,但高阶信息的抽取往往伴随更大的隐私泄露风险。为此,FedGNN(FedGNN: Federated Graph Neural Network for Privacy-Preserving Recommendation. FL-ICML Workshop 2021)将经典的联邦学习框架用于GNN推荐系统。FedGNN中,每个用户本地储存局部用户-物品图;为了抽取高阶交互信息,FedGNN 提出了一种用户-物品图扩展方法找到有共同交互的相邻用户并交换他们的嵌入,在不泄露隐私的前提下扩展本地的用户-物品图。FedNewsRec的框架如下:

    序列推荐的隐私保护问题同样受到了关注。DeepRec(DeepRec: On-device Deep Learning for Privacy-Preserving Sequential Recommendation in Mobile Commerce. WWW 2021)使用隐私保护政策(GDPR)出台之前收集的数据构建一个基于递归神经网络(RNN)的全局模型,在隐私保护政策出台之后,使用新收集的数据在个人移动设备上不断微调模型。在进行推荐时,用户首先从服务器提取粗略的物品候选集,然后在本地结合用户表示和物品表示生成精细的推荐项。此外,DeepRec采用了模型剪枝和嵌入稀疏技术,显著减少了计算和网络开销。DeepRec的框架如下:

5.结语及相关资源

    随着用户对隐私保护的重视和推荐系统相关政策的陆续出台,相信隐私保护推荐系统的研究会逐渐火热。为方便大家跟踪该领域研究动态,我们独家整理隐私保护推荐系统的Paper List附于文末,并收集一些相关资源以供感兴趣的研究者学习:

[1] ChangxinTian/Awesome-Privacy-Preserving-RS-Paper (Paper List)

https://github.com/ChangxinTian/Awesome-Privacy-Preserving-RS-Paper

[2] JimLiu96/FederatedRS (Paper List)

https://github.com/JimLiu96/FederatedRS

[3] AustinNeverPee/FedRecPapers (Paper List)

https://github.com/AustinNeverPee/FedRecPapers

[4] Federated Recommendation Systems (Book)

https://link.springer.com/chapter/10.1007/978-3-030-63076-8_16

[5] 在推荐系统中,我还有隐私吗?联邦学习:你可以有 (科普博文)

https://zhuanlan.zhihu.com/p/301308667

[6] 一文梳理联邦学习推荐系统研究进展 (科普博文)

https://zhuanlan.zhihu.com/p/408689514

[7] 同态加密:实现数据的“可算不可见” (科普博文)

https://www.freebuf.com/articles/database/244536.html

6.Paper List

  1. Personalized Privacy-Preserving Social Recommendation

    Feb. 2018, AAAI'18

  2. Privacy Enhanced Matrix Factorization for Recommendation with Local Differential Privacy

    Feb. 2018, TKDE 2018

  3. Efficient Privacy-Preserving Matrix Factorization for Recommendation via Fully Homomorphic Encryption

    Jun. 2018, Transactions on Privacy and Security 2018

  4. Privacy-preserving Cross-domain Location Recommendation

    Mar. 2019, Proc. ACM IMWUT

  5. A Privacy-Preserving Distributed Contextual Federated Online Learning Framework with Big Data Support in Social Recommender Systems

    Aug. 2019, TKDE

  6. Decentralized Recommendation Based on Matrix Factorization: A Comparison of Gossip and Federated Learning

    Sep. 2019, MLKDD-ECML PKDD'19

  7. Privacy-Aware Recommendation with Private-Attribute Protection using Adversarial Learning.

    Nov. 2019, WSDM 2020

  8. A Simple and Efficient Federated Recommender System

    Dec. 2019, BDCAT'19

  9. Secure Social Recommendation based on Secret Sharing.

    Mar. 2020, ECAI 2020

  10. Federated Recommendation System via Differential Privacy

    May. 2020, ISIT'20

  11. Meta Matrix Factorization for Federated Rating Predictions

    Jun. 2020, SIGIR'20

  12. DPLCF: Differentially Private Local Collaborative Filtering

    Jun. 2020, SIGIR'20

  13. Federated CF: Privacy-Preserving Collaborative Filtering Cross Multiple Datasets

    Jun. 2020, ICC'20

  14. Privacy Threats Against Federated Matrix Factorization

    Jul. 2020, FL-IJCAI'20

  15. Practical Privacy Preserving POI Recommendation

    Jul. 2020, TIST 2020

  16. A Federated Multi-View Deep Learning Framework for Privacy-Preserving Recommendations

    Aug. 2020, FTL-IJCAI'21

  17. FedFast: Going beyond Average for Faster Training of Federated Recommender Systems

    Aug. 2020, KDD'20

  18. Secure Efficient Federated KNN for Recommendation Systems

    Aug. 2020, ICNC-FSKD‘20

  19. FedRec: Federated Recommendation with Explicit Feedback

    Aug. 2020, IEEE Intelligent Systems 2020

  20. Secure Federated Matrix Factorization

    Aug. 2020, IEEE Intelligent Systems 2020

  21. A Federated Recommender System for Online Services

    Sep. 2020, RecSys‘20

  22. Global and Local Differential Privacy for Collaborative Bandits.

    Sep. 2020, RecSys‘20

  23. Privacy-Preserving News Recommendation Model Learning

    Oct. 2020, EMNLP'20

  24. Federated Multi-Armed Bandits

    Dec. 2020, AAAI'21

  25. FedRec++: Lossless Federated Recommendation with Explicit Feedback

    Dec. 2020, AAAI'21

  26. FedeRank: User Controlled Feedback with Federated Recommender Systems

    Jan. 2021, ECIR'21

  27. Differentially private locality sensitive hashing based federated recommender system

    Feb. 2021, Concurrency and Computation: Practice and Experience

  28. Personalized Recommendation Algorithm for Mobile Based on Federated Matrix Factorization

    Mar. 2021, CDMMS'20

  29. A Federated Learning Approach for Privacy Protection in Context-Aware Recommender Systems

    Apr. 2021, The Computer Journal

  30. DeepRec: On-device Deep Learning for Privacy-Preserving Sequential Recommendation in Mobile Commerce

    Apr. 2021, WWW'21

  31. Federated Multi-armed Bandits with Personalization

    Apr. 2021, AISTATS'21

  32. DARES: An Asynchronous Distributed Recommender System Using Deep Reinforcement Learning

    Jun. 2021, IEEE Access

  33. Demystifying Model Averaging for Communication-Efficient Federated Matrix Factorization

    Jun. 2021, ICASSP'21

  34. Federated matrix factorization for privacy-preserving recommender systems

    Jul. 2021, Applied Soft Computing

  35. Demystifying Model Averaging for Communication-Efficient Federated Matrix Factorization

    Jun. 2021, ICASSP'21

  36. Learning Federated Representations and Recommendations with Limited Negatives

    Aug. 2021, NFFL NIPS'21

  37. Fast-adapting and Privacy-preserving Federated Recommender System

    Sep. 2021, VLDB J 2021

  38. A Validated Privacy-Utility Preserving Recommendation System with Local Differential Privacy

    Sep. 2021, BigDataSE 2021

  39. Stronger Privacy for Federated Collaborative Filtering with Implicit Feedback

    Sep. 2021, RecSys‘21

  40. Privacy Preserving Collaborative Filtering by Distributed Mediation

    Sep. 2021, RecSys‘21

  41. Uni-FedRec: A Unified Privacy-Preserving News Recommendation Framework for Model Training and Online Serving

    Oct. 2021, EMNLP 2021

  42. Secure Social Recommendation based on Secret Sharing.

    Mar. 2020, ECAI 2020

  43. Privacy-Aware Recommendation with Private-Attribute Protection using Adversarial Learning.

    Nov. 2019, WSDM 2020

  44. Global and Local Differential Privacy for Collaborative Bandits.

    Sep. 2020, RecSys‘20

ArXiv

  1. Federated Collaborative Filtering for Privacy-Preserving Personalized Recommendation System

    Jan. 2019, arXiv

  2. Federating Recommendations Using Differentially Private Prototypes

    Mar. 2020, arXiv

  3. Privacy-preserving and yet Robust Collaborative Filtering Recommender as a Service

    Oct. 2019, arXiv

  4. FedGNN: Federated Graph Neural Network for Privacy-Preserving Recommendation

    Mar. 2020, arXiv

  5. Federated Multi-view Matrix Factorization for Personalized Recommendations

    Apr. 2020, arXiv

  6. Survey of Privacy-Preserving Collaborative Filtering

    Apr. 2020, arXiv

  7. Robust Federated Recommendation System

    Jun. 2020, arXiv

  8. Shared MF: A privacy-preserving recommendation system

    Aug. 2020, ArXiv

  9. A Novel Privacy-Preserved Recommender System Framework based on Federated Learning

    Nov. 2020, arXiv

  10. Federated Neural Collaborative Filtering

    Jun. 2021, arXiv

  11. Practical and Secure Federated Recommendation with Personalized Masks

    Aug. 2021, arXiv

更多推荐


推荐系统中模型自适应相关技术梳理总结



顶会论文看图对比学习(GNN+CL)研究趋势


EMNLP 2021 | RocketQAv2:稠密段落检索和段落精排的联合训练方法



点击下方“阅读原文”前往知乎专栏
↓↓↓

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存