港科大杨强团队 | 综述: 联邦学习的隐私保护与模型的知识产权保护 (机器智能研究MIR)

Original MIR编辑部机器智能研究MIR 2023-06-07

Machine Intelligence Research

过去数十年，人工智能领域取得了前所未有的突破，统计模型功不可没。然而，用来设计和使用统计模型的集中式训练与推理范式却面临越来越多的安全与法律挑战。为了在模型训练时保护数据的隐私安全，一种新的AI训练范式"联邦学习"(federated learning, 简称FL)应运而生。基于安全分布式人工智能，联邦学习在包括数据预处理、训练、评估和部署阶段的整个数据生命周期内都强调了数据的安全问题。为了保障数据信息的隐私安全，在构建分布式学习系统，以及利用多个数据源训练统计模型时，联邦学习采用包括安全多方计算、差分隐私、硬件加密在内的隐私保护技术，来防止数据信息的泄露。

在最新发表的综述文章中，香港科技大学杨强教授团队除了强调数据安全，也强调了模型知识产权保护的重要性。因为在研发和部署联邦模型时，这些模型有可能被剽窃、非法复制和滥用。为了解决这一问题，文章回顾了在联邦学习中，保护模型知识产权用到的关键技术，将其称之为"FedIPR"，这个系统通过给FL模型嵌入水印，一方面对FL系统进行了所有权认证，另一方面也保护了模型的知识产权(IPR或IP-right)。尽管数据安全问题是FL的核心，在有些文章中，将没有任何保护机制的分布式机器学习错误混同于"联邦学习"。为了正本清源，文章重新强调了联邦学习的严格定义，提出安全联邦学习(SFL)的设计；并指出安全联邦学习(SFL)设计的最终目标：是构建一个安全可靠的人工智能训练范式，既注重数据隐私又能保护模型知识产权。对于过去对联邦学习生命周期中，每一阶段所面临的威胁、攻击和防御的研究，文章也进行了一个综合的概括梳理。全文发表于MIR 2023年第一期中！

图片来自Springer

全文下载：

Federated Learning with Privacy-preserving and Model IP-right-protection

Qiang Yang, Anbu Huang, Lixin Fan, Chee Seng Chan, Jian Han Lim, Kam Woh Ng, Ding Sheng Ong & Bowen Li

https://link.springer.com/article/10.1007/s11633-022-1343-2

全文导读

近年，人工智能(AI)的商业应用取得了飞跃发展，包括计算机视觉、自然语言处理、推荐系统等等。然而，在人工智能飞速发展的背后，传统AI算法的短板也逐渐暴露，那就是严重依赖于大规模且高质量的大数据，但对这些数据的使用，没有提供相应的保护方案以保障数据的安全。例如，计算机视觉的发展就有赖于像ImageNet这样的大规模公共数据集。在个性化推荐领域，推荐系统基于大规模的历史数据，可以精准分析出用户的喜好，然后再向用户推荐与其喜好最相关的内容或产品。在生物学领域，通过对蛋白质数据库(PDB)中的17万个蛋白结构进行训练，由DeepMind开源的AlphaFold能够精准预测蛋白质结构。上述都是基于数据驱动的、集中式训练范式。

供AI建模的集中式数据融合面临着日益严峻的法律与道德挑战。在实际操作中，数据会流经不同的终端设备，被不同的个人或组织收集；不同设备中的本地数据，其形态和分布通常是异构的。把数据都融合在一个集中式的数据库不可避免地会增加隐私泄露的风险。随着人们对隐私的重视程度逐渐提高，各国各地区政府也相继颁布相关法律法规来保障数据隐私安全，如欧盟的《通用数据保护条例》(GDPR)、美国的《加州消费者隐私法》(CCPA)、中国的《数据安全法》(DSL)等。另一方面，因为没有任何一个机构愿意无偿分享数据，所以数据具有独特性与稀缺性。但如果数据可以被随时分享和拷贝，那么数据本身的价值也将面临挑战，而这一挑战也不能为我们所忽略。

为了清除因数据融合而产生的这些缺陷，谷歌公司的研究者提出了一个新的训练范式，"联邦学习"(federated learning, FL)。最初的FL需要的只是在各个设备中流动的数据的模型参数，而不是原始训练数据集，从而大大降低了数据泄露的风险。但是，现已有实验表明，没有对交换的模型参数设置保护的早期联邦学习算法并不能有力地保障数据安全。有研究者就展示过原始的训练数据可以从梯度中获取。还有研究者证明了仅仅是一小部分原始梯度就可以暴露有关本地数据的信息。而且，不仅仅是在训练阶段，早期联邦学习算法在整个FL生命周期的各个阶段都容易受到不同的袭击，这些阶段包括数据预处理、数据训练、数据评估和数据部署。比如，在预处理阶段，数据就有可能被污染。在模型部署阶段有可能会出现成员推理攻击。由此可见，强调数据安全保障是FL系统设计的基本是很有必要的。

FL生命周期中受到的不同威胁阶段

再者，因为统计模型是AI的中央实体，所以在实际中研发和部署FL模型时需要牵涉到训练数据、硬件、人类专业知识等多种资产资源。这就使得"模型管理"(model management)成为了一个关键课题。为防止模型未经官方授权就被使用或剽窃，本文认为需要加强模型知识产权保护意识，并为此引进了一种用于保护联邦学习模型的知识产权保护机制。本文提出、并在实践中证明了联邦学习IPR保护可以通过在深度神经网络(DNN)模型参数中嵌入水印来实现。

综上，FL不同于早期联邦学习算法的真正内涵在于能够有效保护数据隐私与维护模型知识产权，因此我们称其为安全联邦学习(SFL)。考虑到当前的许多联邦学习工作和研究文献，仍然将没有保护机制或者只有很弱保护机制的分布式机器学习等价于联邦学习，这违背了联邦学习提出的初衷，为此，本文强调安全性是联邦学习的核心原则，此原则应该受到行业与学术圈中更多的重视。本文作者将对SFL的关键方面进行一个全面的文献综述，包括对于整个数据生命周期的安全保障与模型知识产权保护两方面。在下文中，除专门说明外，FL与SFL将被用作同义词于文中交替使用，两者都指采用了数据安全保护机制的联邦学习系统。

安全联邦学习结构图

本文贡献

相较于已有文献，本文的主要贡献如下：

1) 文章重申了安全联邦学习的核心概念，并且强调了数据安全问题应该贯穿FL整个生命周期，包括：数据预处理阶段、模型训练阶段、评估阶段以及部署阶段。

2) 本文提供了一个整体的SFL结构，既涉及到了HFL，也涉及到了VFL；并且就FL整个生命周期中各个阶段所面临的威胁、袭击和防御进行了文献综述。

在设计安全联邦学习系统时，本文充分强调了模型的知识产权问题，并且提供了详尽的具体措施来保护联邦模型的知识产权。

全文下载：

Federated Learning with Privacy-preserving and Model IP-right-protection

Qiang Yang, Anbu Huang, Lixin Fan, Chee Seng Chan, Jian Han Lim, Kam Woh Ng, Ding Sheng Ong & Bowen Li

https://link.springer.com/article/10.1007/s11633-022-1343-2

【本文作者】

杨强

黄安埠

范力欣

Chee Seng Chan

Jian Han Lim

Kam Woh Ng

Ding Sheng Ong

李博闻

纸刊免费寄送Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyIAAI.aspx#

∨

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。

点击"阅读原文"下载全文

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

港科大杨强团队 | 综述: 联邦学习的隐私保护与模型的知识产权保护 (机器智能研究MIR)

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

港科大杨强团队 | 综述: 联邦学习的隐私保护与模型的知识产权保护 (机器智能研究MIR)

您可能也对以下帖子感兴趣