港科大杨强团队 | 综述: 联邦学习的隐私保护与模型的知识产权保护 (机器智能研究MIR)
Machine Intelligence Research
过去数十年,人工智能领域取得了前所未有的突破,统计模型功不可没。然而,用来设计和使用统计模型的集中式训练与推理范式却面临越来越多的安全与法律挑战。为了在模型训练时保护数据的隐私安全,一种新的AI训练范式"联邦学习"(federated learning, 简称FL)应运而生。基于安全分布式人工智能,联邦学习在包括数据预处理、训练、评估和部署阶段的整个数据生命周期内都强调了数据的安全问题。为了保障数据信息的隐私安全,在构建分布式学习系统,以及利用多个数据源训练统计模型时,联邦学习采用包括安全多方计算、差分隐私、硬件加密在内的隐私保护技术,来防止数据信息的泄露。
在最新发表的综述文章中,香港科技大学杨强教授团队除了强调数据安全,也强调了模型知识产权保护的重要性。因为在研发和部署联邦模型时,这些模型有可能被剽窃、非法复制和滥用。为了解决这一问题,文章回顾了在联邦学习中,保护模型知识产权用到的关键技术,将其称之为"FedIPR",这个系统通过给FL模型嵌入水印,一方面对FL系统进行了所有权认证,另一方面也保护了模型的知识产权(IPR或IP-right)。尽管数据安全问题是FL的核心,在有些文章中,将没有任何保护机制的分布式机器学习错误混同于"联邦学习"。为了正本清源,文章重新强调了联邦学习的严格定义,提出安全联邦学习(SFL)的设计;并指出安全联邦学习(SFL)设计的最终目标:是构建一个安全可靠的人工智能训练范式,既注重数据隐私又能保护模型知识产权。对于过去对联邦学习生命周期中,每一阶段所面临的威胁、攻击和防御的研究,文章也进行了一个综合的概括梳理。全文发表于MIR 2023年第一期中!
图片来自Springer
全文下载:
Federated Learning with Privacy-preserving and Model IP-right-protection
Qiang Yang, Anbu Huang, Lixin Fan, Chee Seng Chan, Jian Han Lim, Kam Woh Ng, Ding Sheng Ong & Bowen Li
https://link.springer.com/article/10.1007/s11633-022-1343-2
近年,人工智能(AI)的商业应用取得了飞跃发展,包括计算机视觉、自然语言处理、推荐系统等等。然而,在人工智能飞速发展的背后,传统AI算法的短板也逐渐暴露,那就是严重依赖于大规模且高质量的大数据,但对这些数据的使用,没有提供相应的保护方案以保障数据的安全。例如,计算机视觉的发展就有赖于像ImageNet这样的大规模公共数据集。在个性化推荐领域,推荐系统基于大规模的历史数据,可以精准分析出用户的喜好,然后再向用户推荐与其喜好最相关的内容或产品。在生物学领域,通过对蛋白质数据库(PDB)中的17万个蛋白结构进行训练,由DeepMind开源的AlphaFold能够精准预测蛋白质结构。上述都是基于数据驱动的、集中式训练范式。
供AI建模的集中式数据融合面临着日益严峻的法律与道德挑战。在实际操作中,数据会流经不同的终端设备,被不同的个人或组织收集;不同设备中的本地数据,其形态和分布通常是异构的。把数据都融合在一个集中式的数据库不可避免地会增加隐私泄露的风险。随着人们对隐私的重视程度逐渐提高,各国各地区政府也相继颁布相关法律法规来保障数据隐私安全,如欧盟的《通用数据保护条例》(GDPR)、美国的《加州消费者隐私法》(CCPA)、中国的《数据安全法》(DSL)等。另一方面,因为没有任何一个机构愿意无偿分享数据,所以数据具有独特性与稀缺性。但如果数据可以被随时分享和拷贝,那么数据本身的价值也将面临挑战,而这一挑战也不能为我们所忽略。
为了清除因数据融合而产生的这些缺陷,谷歌公司的研究者提出了一个新的训练范式,"联邦学习"(federated learning, FL)。最初的FL需要的只是在各个设备中流动的数据的模型参数,而不是原始训练数据集,从而大大降低了数据泄露的风险。但是,现已有实验表明,没有对交换的模型参数设置保护的早期联邦学习算法并不能有力地保障数据安全。有研究者就展示过原始的训练数据可以从梯度中获取。还有研究者证明了仅仅是一小部分原始梯度就可以暴露有关本地数据的信息。而且,不仅仅是在训练阶段,早期联邦学习算法在整个FL生命周期的各个阶段都容易受到不同的袭击,这些阶段包括数据预处理、数据训练、数据评估和数据部署。比如,在预处理阶段,数据就有可能被污染。在模型部署阶段有可能会出现成员推理攻击。由此可见,强调数据安全保障是FL系统设计的基本是很有必要的。
FL生命周期中受到的不同威胁阶段
再者,因为统计模型是AI的中央实体,所以在实际中研发和部署FL模型时需要牵涉到训练数据、硬件、人类专业知识等多种资产资源。这就使得"模型管理"(model management)成为了一个关键课题。为防止模型未经官方授权就被使用或剽窃,本文认为需要加强模型知识产权保护意识,并为此引进了一种用于保护联邦学习模型的知识产权保护机制。本文提出、并在实践中证明了联邦学习IPR保护可以通过在深度神经网络(DNN)模型参数中嵌入水印来实现。
综上,FL不同于早期联邦学习算法的真正内涵在于能够有效保护数据隐私与维护模型知识产权,因此我们称其为安全联邦学习(SFL)。考虑到当前的许多联邦学习工作和研究文献,仍然将没有保护机制或者只有很弱保护机制的分布式机器学习等价于联邦学习,这违背了联邦学习提出的初衷,为此,本文强调安全性是联邦学习的核心原则,此原则应该受到行业与学术圈中更多的重视。本文作者将对SFL的关键方面进行一个全面的文献综述,包括对于整个数据生命周期的安全保障与模型知识产权保护两方面。在下文中,除专门说明外,FL与SFL将被用作同义词于文中交替使用,两者都指采用了数据安全保护机制的联邦学习系统。
安全联邦学习结构图
相较于已有文献,本文的主要贡献如下:
1) 文章重申了安全联邦学习的核心概念,并且强调了数据安全问题应该贯穿FL整个生命周期,包括:数据预处理阶段、模型训练阶段、评估阶段以及部署阶段。
2) 本文提供了一个整体的SFL结构,既涉及到了HFL,也涉及到了VFL;并且就FL整个生命周期中各个阶段所面临的威胁、袭击和防御进行了文献综述。
在设计安全联邦学习系统时,本文充分强调了模型的知识产权问题,并且提供了详尽的具体措施来保护联邦模型的知识产权。
全文下载:
Federated Learning with Privacy-preserving and Model IP-right-protection
Qiang Yang, Anbu Huang, Lixin Fan, Chee Seng Chan, Jian Han Lim, Kam Woh Ng, Ding Sheng Ong & Bowen Li
https://link.springer.com/article/10.1007/s11633-022-1343-2
【本文作者】
黄安埠
范力欣
Jian Han Lim
Kam Woh Ng
李博闻
纸刊免费寄送Machine Intelligence Research
MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://www.wjx.cn/vm/eIyIAAI.aspx#
∨
关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。
长时视觉跟踪器: 综述与实验评估 | 机器智能研究MIR
专题综述 | 高效的视觉识别: 最新进展及类脑方法综述北大黄铁军团队 | 专题综述:视觉信息的神经解码
专题综述 | 迈向脑启发计算机视觉的新范式
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题
Top综述集锦 | 进化计算、知识挖掘、自然语言处理、人脸素描合成、机器人辅助手术...
戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战综述:从远程操作到自动机器人辅助显微手术华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算
北科大殷绪成团队 | 弱相关知识集成的小样本图像分类
东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法联想CTO芮勇团队 | 知识挖掘:跨领域的综述中科院自动化所何晖光团队 | 一种基于RGEC的新型网络最新好文 | 基于因果推断的可解释对抗防御
复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换
精选综述 | 用于白内障分级/分类的机器学习技术
MIR专题征稿 | Special Issue on Multi-Modal Representation Learning
恭喜!MIR 2022年度优秀编委恭喜!MIR 2022年度优秀审稿人
致谢审稿人 | 机器智能研究MIR
2022研究前沿及热点解读 (附完整PDF) | 机器智能研究MIR双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR报喜!MIR入选2022年国际影响力TOP期刊榜单
喜报 | MIR被 ESCI 收录!喜报 | MIR 被 EI 与 Scopus 数据库收录
点击"阅读原文"下载全文