基于同态加密和秘密分享的纵向联邦 LR 协议研究
The following article is from 信息通信技术与政策 Author 符芳诚,刘舒 等
作者简介
符芳诚
北京大学信息科学技术学院高可信软件技术重点实验室在读博士研究生,腾讯TEG数据平台部数据中心研究员,主要研究领域为机器学习、隐私计算、分布式计算等。
刘舒
腾讯TEG数据平台部数据中心高级研究员,主要研究领域为机器学习、隐私计算、分布式计算等。
程勇
腾讯TEG数据平台部数据中心专家研究员,主要研究领域为隐私计算、联邦学习、安全多方计算、分布式计算等。
陶阳宇
通信作者。腾讯TEG机器学习平台部训练平台中心总监,主要研究领域为机器学习、隐私计算、大数据、分布式系统等。
论文引用格式:
符芳诚, 刘舒, 程勇, 等. 基于同态加密和秘密分享的纵向联邦 LR 协议研究[J]. 信息通信技术与政策, 2022,48(5):34-44.
基于同态加密和秘密分享的纵向联邦 LR 协议研究
符芳诚1,2 刘舒2 程勇2 陶阳宇3
(1. 北京大学信息科学技术学院高可信软件技术重点实验室,北京 100871;2. 腾讯TEG数据平台部,深圳 518054;3. 腾讯TEG机器学习平台部,北京 100083)
摘要:提出了一种新颖的两方纵向联邦逻辑回归协议,并在半诚实安全模型下证明了该协议的安全性,包括模型训练流程和模型推理流程的安全性,且无需对非线性函数使用多项式近似计算,从而保证了联邦逻辑回归协议模型无损。
关键词:纵向联邦学习;逻辑回归;同态加密;秘密分享
中图分类号:TP309.2 文献标志码:A
引用格式:符芳诚, 刘舒, 程勇, 等. 基于同态加密和秘密分享的纵向联邦 LR 协议研究[J]. 信息通信技术与政策, 2022,48(5):34-44.
DOI:10.12267/j.issn.2096-5931.2022.05.005
机器学习和人工智能已经在多个领域取得了巨大的成功,如图像识别、自然语言处理、广告推荐等。在人工智能技术突飞猛进的同时,潜在的用户数据滥用和隐私泄露风险也逐渐成为业界广泛关注的焦点。出于数据安全和隐私保护的考虑,不同机构所拥有的数据无法被整合集中在一起用于机器学习建模,导致了数据孤岛问题的出现,进而阻碍了人工智能应用的发展。近年来,如何在保证每个机构的数据安全和用户隐私的前提下,协同多个机构的数据进行联合机器学习建模,从而提高模型的表达能力、更深入地释放数据价值,成为了学术界与工业界广泛研究的热点课题[1-2]。
联邦学习(Federated Learning,FL)[3]是由谷歌于2016年提出的概念,旨在解决如何在数据不出本地的情况下,联合多个参与方(如智能手机等终端设备)中的数据进行模型训练。依据参与方不同的数据划分形式,联邦学习被进一步细分为横向联邦学习(Horizontal FL)、纵向联邦学习(Vertical FL)和联邦迁移学习三种范式[4]。本文关注的是纵向联邦学习场景。如图1所示,在纵向联邦学习中,不同的参与方拥有不同的特征空间,但在样本空间上存在交集;该交集部分可以被视作一个虚拟的纵向划分的数据集(即虚拟宽表),用于联合的数据建模与分析。此外,在纵向联邦学习中,只有一个参与方拥有标签信息(Label),称该参与方为参与方B,并称没有标签信息的参与方为参与方A。针对最常用的机器学习算法协议之一,本文围绕两方纵向联邦学习场景下的逻辑回归(Logistic Regression,LR)协议[5-7],着重分析如何设计一个安全的纵向联邦LR协议,并结合同态加密和秘密分享两种技术,提出了一种安全的联邦LR协议。在半诚实安全模型下,证明了所设计的纵向联邦LR协议的安全性。该纵向联邦LR协议已部署于通用隐私计算平台Angel PowerFL中,并获得了广泛的应用落地。
1背景知识
表1 同态密文转换为两个秘密分享变量的理想功能
3结束语
本文对纵向联邦LR算法协议的安全性进行了全面的分析,并详细列出了保证特征数据和标签信息安全的具体要求。基于该分析,提出了一种新颖的两方纵向联邦LR协议,该协议通过结合同态加密和秘密分享技术来保证特征数据和标签信息的安全,且无需对非线性函数使用多项式近似计算,从而可以保证联邦LR模型无损。笔者在半诚实安全模型下证明了该协议的安全性,包括模型训练和模型推理流程的安全性。本文所提出的联邦LR协议的交互流程简单,易于工程实现,且计算和通信开销都较小,已经在通用隐私计算平台Angel PowerFL中获得了广泛的应用和经过了充分的检验。
参考文献
[1] 闫树, 袁博, 吕艾临. 隐私计算——推进数据“可用不可见” 的关键技术[M]. 北京:电子工业出版社出版, 2022.[2] 中国信息通信研究院云计算与大数据研究所. 隐私计算白皮书(2021 年)[R], 2021.[3] KONEN J, MCMAHAN B, RAMAGE D. Federated optimization: distributed optimization beyond the datacenter[J]. Mathematics, 2015.[4] YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2019,10(2):1-19.[5] HARDY S, HENECKA W, IVEYLAW H, et al. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption[J], 2017. DOI:10.48550/arXiv.1711.10677.[6] YANG S , REN B, ZHOU X, et al. Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator[J]. arXiv:1911.09824,2019.[7] CHEN C, ZHOU J, WANG L, et al. When homomorphic encryption marries secret sharing:secure Large-Scale sparse logistic regression and applications in risk control[J]. Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 2021(8):2652-2662.[8] RIVEST R L, ADLEMAN L M, DERTOUZOS M L. On data banks and privacy homomorphisms[J]. Foundations of Secure Compuation, 1978:169-180.[9] EVANS D, KOLESNIKOV V, ROSULEK M. A pragmatic introduction to secure multi-party computation[J]. Foundations & Trends' in Privacy & Security,2018,2(2-3):70-246.[10] PAILLIER P. Public-key cryptosystems based on composite degree residuosity classes[J]. Proc. EUROCRYPT’ 99, Czech Republic, May, 1999(4):223-238.[11] CHENG K, FAN T, JIN Y, et al. SecureBoost: a lossless federated learning framework[J]. Intelligent Systems, IEEE, 2021,(99):1-1.[12] FU F, SHAO Y, YU L, et al. VF 2 boost: very fast vertical federated gradient boosting for cross-enterprise learning[J]. Proceedings of the 2021 International Conference on Management of DataJune, 2021:563-576.[13] WU Y, CAI S, XIAO X, et al. Privacy Preserving Vertical Federated Learning for Tree-based Models[J], 2020. DOI:10.14778/3407790.3407811.[14] ZHANG C, LI S, XUA J, et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning[J]. In 2020 USENIX Annual Technical Conference, 2020(7):493-506[15] DEMMLER D, SCHNEIDER T, ZOHNER M. ABY-a framework for efficient mixed-protocol secure two-party computation[C]//Network & Distributed System Security Symposium, 2015.[16] MOHASSEL P, RINDAL, P. ABY 3: a mixed protocol framework for machine learning[J]. Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications SecurityOctober, 2018(10):35-52.[17] SHAMIR A. How to share a secret[J]. Communications of the ACM, 1979. DOI:10.1145/359168.359176.[18] BEAVER D. Efficient multiparty protocols using circuit randomization[C]//Advances in Cryptology-CRYPTO’ 91, 11th Annual International Cryptology Conference, Santa Barbara, California, USA, Proceedings. SpringerVerlag, 1991.[19] PULLONEN P. Actively secure two-party computation: efficient beaver triple generation[Z], 2013.[20] GOLDREICH O. The foundations of cryptography -volume 2, basic applications[M], 2004.[21] LINDELL Y. How to simulate it-a tutorial on the simulation proof technique[J]. Springer International Publishing, 2017:277-346.
Vertical federated logistic regression via homomorphic encryption and secret sharing
FU Fangcheng1,2, LIU Shu2, CHENG Yong2, TAO Yangyu3
(1. Department of Computer Science & Key Lab of High Confidence Software Technologies (MOE), Peking University, Beijing 100871, China; 2. Data Platform, TEG, Tencent Inc., Shenzhen 518054, China; 3. Machine Learning Platform, TEG, Tencent Inc., Beijing 100083, China)
Abstract: This paper presents a novel vertical federated logistic regression algorithm with provable security guarantees of both model training and inference under the semi-honest security model. The proposed algorithm is privacypreserving, lossless, and efficient. Firstly, by combining the homomorphic encryption and secret sharing mechanisms, data protection is provably ensured, including the protection of both features and labels. Secondly, the algorithm is lossless since it does not require any approximations for the non-linear functions.Keywords: vertical federated learning; logistic regression; homomorphic encryption; secret sharing
END
往期推荐:
隐私计算头条周刊(7.24-7.30)
《数字中国发展报告(2021年)》:加快隐私计算技术应用,推动数据要素价值加快释放
附下载 | 2022年隐私计算技术与行业应用报告合集(33份)
热门文章: