论文解读 | FedIPR: 联邦学习模型所属权验证
//
针对近两年来隐私计算和联邦学习发展和应用中面临的安全、效率等挑战,香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会(CAAI)荣誉副理事长杨强教授提出了”可信联邦学习“新范式。在这个方向上相关专家学者对可信联邦学习的理论进行了持续丰富和拓展,并取得初步成果。我们将选择其中有代表性的论文进行分享。
今天给大家带来一篇《FedIPR:联邦学习模型所属权验证》,这篇论文提出了首个联邦学习模型版权验证框架,在不牺牲模型可用性前提下, 准确验证模型的所属权。详细内容如下:机器学习,尤其是深度神经网络(DNN)技术,近年来在诸多领域取得了巨大成功,许多科技公司都将神经网络模型部署在商业产品中,提高效益。训练先进的神经网络模型需要大规模数据集、庞大的计算资源和设计者的智慧。这具体体现在:
(1)深度学习模型应用的训练模型规模巨大,以GPT-3 为例,其预训练所用的数据量达到 45TB,训练费用超过 1200 万美元,有着极高的经济成本;(2)深度学习模型在训练部署到工业应用场景过程中(比如智慧金融,智慧医疗应用),需要引入金融、医疗等领域专有先验知识,因此在模型设计过程就需要引入专家的知识和经验来订制模型,这体现了人脑力的知识产权;(3)深度学习模型的训练过程,需要特定领域的海量数据作为训练资源,存在数据本身价值和知识属性。以上属性决定了经过训练的深度学习模型具有很高的商业价值和知识属性,必须将其纳入合法所有者(即创建它的一方)的知识产权。因此,从技术上迫切需要保护深度神经网络(DNN)模型不被非法复制、重新分发或滥用。
针对昂贵的人工智能模型,攻击者可以采用技术手段或者非技术手段进行窃取;但要确认盗用且声明模型所有权,则是完全从人工智能理论方法角度出发,模型的所有权认证技术需要保证不牺牲模型可用性前提下,提供可靠且鲁棒的知识产权保护方法。
相比于中心化场景的模型训练,联邦学习分布式训练涉及多个参与方,有更大风险泄露人工智能模型,存在参与方被敌手攻击或者模型搭便车的情况。这些情形都构成了对联邦学习模型的所属权侵犯。针对联邦学习全局模型的版权保护问题,微众银行AI团队人工智能首席科学家范力欣博士指导研究团队,联合上海交通大学学者,在人工智能学术顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》 (https://ieeexplore.ieee.org/document/9847383/)上发表了题为“FedIPR: Ownership Verification for Federated Deep Neural Network Models”的论文,就联邦学习模型知识产权保护问题,从算法、协议、安全等多个角度出发,分享了他们对模型知识产权保护的思考和工作,提出了名为“FedIPR”的联邦学习模型版权保护框架。
论文信息
作者:Bowen Li, Lixin Fan, Hanlin Gu, Jie Li, Qiang Yang
标题:FedIPR: Ownership Verification for Federated Deep Neural Network Models
论文全文链接:
https://ieeexplore.ieee.org/abstract/document/9847383/
https://arxiv.org/abs/2109.13236v3
Github 代码链接:
https://github.com/purp1eHaze/FedIPR
传统的深度学习模型知识产权保护方法主要着眼于深度神经网络水印的算法实践和鲁棒性挑战,没有把模型水印实践到可信联邦学习方向的研究。微众银行AI团队提出的FedIPR框架考虑一种不完全信任的联邦学习系统,假定联邦学习各参与方能够按照联邦法则来进行模型更新和协同训练,但彼此不泄露私有本地数据和私密签名。在这种设定下, FedIPR阐述了一种新颖的联合深度神经网络 (FedDNN) 所有权验证方案(图1),该方案允许嵌入和验证所有权签名,以声明 FedDNN 模型的合法知识产权 (IPR),以防模型被非法复制、重新分发或滥用。
图1
(1)黑盒阶段,不需要访问模型参数和内部结构,只需输入特定样本进入模型API, 根据模型输出判定模型所属权,为模型所属权提供初步依据;
(2)白盒验证阶段,执法机关根据上一阶段,打开模型参数和结构,验证模型参数中是否嵌入有实现给定的能证明所属权的“水印”。图2
图3
FedIPR 框架创新性地解决了模型所有权验证在联邦学习中的两大挑战:
(1)多水印冲突问题,特别是对于基于特征的水印,对于不同的客户是否有一个通用的解决方案来嵌入他们的私人指定水印。如下图4所示,当不同客户端希望各自嵌入水印进全局联邦学习模型当中,多个水印可能彼此发生冲突。
图4
表1
文章提供了实验结果,阐述了FedIPR在主任务可用性,水印显著性以及鲁棒性方面的性能,卓越的性能证明了基于后门和特征的水印都能提供良好的联邦学习模型所有权验证。
图6 FedIPR 框架下的FedDNN 模型的水印检测率与理论界限的比较。
论文获取方式
扫描上方二维码或者点击阅读原文获取论文链接
END
点击蓝字,获取论文链接