查看原文
其他

联邦学习 | 国内最新研究成果整理


联邦学习是当前非常活跃的一种新兴的人工智能基础技术,作为一种新兴的分布式计算范式,其使得用户原始数据在不输出本地设备的基础上可以找到一个更优化的模型,做到“数据不动模型动”,在保证用户数据隐私安全的前提下,打破数据孤岛,充分挖掘数据的潜在价值。近年来国内外学者在联邦学习方面开展了不少研究,而且联邦学习已在智能零售、金融、自动驾驶等领域获得广泛关注。联邦学习在一些实际业务场景中也已有相关应用,但性能优化、通信带宽、时延、安全等问题对联邦学习的落地提出了更高的要求。本推文展示国内研究人员在该领域的最新研究成果。欢迎广大专家学者下载阅读。

文 章 阅 读

1

面向分层联邦学习的传输优化研究

邹赛兰1,2 李卓1,2 陈昕2  

1 网络文化与数字传播北京市重点实验室(北京信息科技大学)

2 北京信息科技大学计算机学院

摘要:与传统机器学习相比,联邦学习有效解决了用户数据隐私和安全保护等问题,但是海量节点与云服务器间进行大量模型交换,会产生较高的通信成本,因此基于云-边-端的分层联邦学习受到了越来越多的重视。在分层联邦学习中,移动节点之间可采用D2D、机会通信等方式进行模型协作训练,边缘服务器执行局部模型聚合,云服务器执行全局模型聚合。为了提升模型的收敛速率,研究人员对面向分层联邦学习的网络传输优化技术展开了研究。文中介绍了分层联邦学习的概念及算法原理,总结了引起网络通信开销的关键挑战,归纳分析了选择合适节点、增强本地计算、减少本地模型更新上传数、压缩模型更新、分散训练和面向参数聚合传输这6种网络传输优化方法。最后,总结并探讨了未来的研究方向。

引用本文:邹赛兰, 李卓, 陈昕. 面向分层联邦学习的传输优化研究[J]. 计算机科学, 2022, 49(12): 5-16. 

扫码阅读全文


2

去中心化云存储网络的存储任务分配算法

申圳  赵成贵

云南财经大学信息学院

摘要:针对联邦学习客户端数据集的存储任务分配问题构建新型模型,为保证去中心化云存储网络的负载均衡,缩短存储数据上传/恢复时间,减少客户端存储总花费,提出了一种考虑客户端需求和全局负载的数据存储任务分配算法——URGL_allo(Allocation Based on User Requirements and Global Load)算法。在节点分配阶段考虑全局负载、拓扑属性及客户端关注的存储价格和数据恢复时间等节点资源,结合万有引力定律定义新的节点排序方法,选择最佳存储任务分配节点。在链路分配阶段,使用Dijkstra算法计算以客户端节点为中心到网络中其他节点的最短路径,并选择两节点间最短路径集合中带宽值最大的路径进行分配。仿真结果表明,相比基于随机策略的分配算法(Random_allo),所提算法的负载均衡指数、客户端存储总花费分别降低了41.9%,5%,并且与基于链路带宽的贪婪算法的数据恢复时间相差不大,都稳定维持在(0,2]之间,是Random_allo算法的1/20,在全局负载和服务质量上的综合表现优于对比算法。

引用本文:申圳, 赵成贵. 去中心化云存储网络的存储任务分配算法[J]. 计算机科学, 2022, 49(12): 17-21. 

扫码阅读全文


3

隐私保护的非线性联邦支持向量机研究

杨鸿健  胡学先  李可佳  徐阳  魏江宏

中国人民解放军战略支援部队信息工程大学数据与目标工程学院

摘要:联邦学习为解决“数据孤岛”下的多方联合建模问题提出了新的思路。联邦支持向量机能够在数据不出本地的前提下实现跨设备的支持向量机建模,然而现有研究存在训练过程中隐私保护不足、缺乏针对非线性联邦支持向量机的研究等缺陷。针对以上问题,利用随机傅里叶特征方法和CKKS同态加密机制,提出了一种隐私保护的非线性联邦支持向量机训练(PPNLFedSVM)算法。首先,基于随机傅里叶特征方法在各参与方本地生成相同的高斯核近似映射函数,将各参与方的训练数据由低维空间显式映射至高维空间中;其次,基于CKKS密码体制的模型参数安全聚合算法,保障模型聚合过程中各参与方模型参数及其贡献的隐私性,并结合CKKS密码体制的特性对参数聚合过程进行针对性优化调整,以提高安全聚合算法的效率。针对安全性的理论分析和实验结果表明,PPNLFedSVM算法可以在不损失模型精度的前提下,保证参与方模型参数及其贡献在训练过程中的隐私性。

引用本文:杨鸿健, 胡学先, 李可佳, 徐阳, 魏江宏. 隐私保护的非线性联邦支持向量机研究[J]. 计算机科学, 2022, 49(12): 22-32.

扫码阅读全文


4


一种非独立同分布问题下的联邦数据增强算法

瞿祥谋  吴映波  蒋晓玲    

重庆大学大数据与软件学院

摘要:在联邦学习中,由于用户的本地数据分布会随着用户所在地以及用户偏好而变动,数据的非独立同分布下的用户数据可能缺少某些标签类别的数据,在模型聚合中显著影响了迭代更新速率和最终的模型性能。为了解决这一问题,提出了一种基于条件生成对抗网络进行联邦数据增强的算法,能够在不涉及泄露用户隐私的前提下,通过生成对抗网络模型对数据偏斜的参与者扩增少量数据,大幅提升非独立同分布数据划分下联邦学习算法的性能。实验结果表明,与当前主流的联邦算法相比,该算法在非独立同分布设置下的MNIST,CIFAR-10数据集上的预测精度分别提升了1.18%和14.6%,显示出了该算法对非独立同分布问题的有效性和实用性。

引用本文:瞿祥谋, 吴映波, 蒋晓玲. 一种非独立同分布问题下的联邦数据增强算法[J]. 计算机科学, 2022, 49(12): 33-39.

扫码阅读全文


5

一种基于背景优化的高效联邦学习方案

郭桂娟1  田晖1  王田2,3  贾维嘉2,3    

1 华侨大学计算机科学与技术学院
2 北京师范大学人工智能与未来网络研究院
3 北京师范大学-香港浸会大学联合国际学院人工智能与多模态数据处理广东省重点实验室

摘要: 联邦学习因其在客户端本地进行数据的训练,从而有效保证了数据的隐私性和安全性。对于联邦学习的研究虽然取得了很大的进展,但是,由于非独立同分布数据的存在以及数据量不平衡、数据类型不平衡等问题,客户端在利用本地数据进行训练时不可避免地存在精确度缺失、训练效率低下等问题。为了应对联邦学习背景环境的不同导致的联邦学习效率降低的问题,文中提出了一种基于背景优化的高效联邦学习方案,用于提高终端设备中本地模型的精确度,从而减小通信开销、提高整体模型的训练效率。具体来说,在不同的环境中根据精确度的差异性来选择第一设备和第二设备,将第一设备模型和全局模型的不相关性(下文统称为差异值)作为标准差异值;而第二设备是否上传本地模型则由第二设备和第一设备之间的差异值决定。实验结果表明,与传统的联邦学习相比,所提方案在普通联邦学习场景下的表现明显优于联邦平均算法,在MINIST数据集上,其精确度提高了约7.5%;在CIFAR-10数据集上,其精确度提高了约10%。

引用本文:郭桂娟, 田晖, 王田, 贾维嘉. 一种基于背景优化的高效联邦学习方案[J]. 计算机科学, 2022, 49(12): 40-45.

扫码阅读全文


6

联邦学习激励机制研究综述

梁文雅1  刘波1  林伟伟2,3  严远超1    

1 华南师范大学计算机学院
2 华南理工大学计算机科学与工程学院
3 鹏程实验室

摘要: 联邦学习以多方数据参与为驱动,参与方与中央服务器通过不断交换模型参数,而不是直接上传原始数据的方式来实现数据共享和隐私保护。在实际的应用中,FL全局模型的精确性依赖于多个稳定且高质量的客户端参与,但客户端之间数据质量不平衡的问题会导致在训练过程中客户端处于不公平地位甚至直接不参与训练。因此,如何激励客户端积极可靠地参与到FL中,是保证FL被广泛推广和应用的关键。文中主要介绍了在FL中激励机制的必要性,并根据激励机制在FL训练过程中存在的子问题将现有研究分为面向贡献测量、面向客户选择、面向支付分配以及面向多子问题优化的激励机制。对现有的激励方案进行分析和对比,并在此基础上总结激励机制在发展中存在的挑战,探索FL激励机制未来的研究方向。

引用本文:梁文雅, 刘波, 林伟伟, 严远超. 联邦学习激励机制研究综述[J]. 计算机科学, 2022, 49(12): 46-52.

  扫码阅读全文


7

边缘场景下动态权重的联邦学习优化方法

程帆  王瑞锦  张凤荔    

电子科技大学信息与软件工程学院

摘要: 边缘计算(Edge Computing)作为一种新的计算范式,在网络边缘提供计算服务,相比传统的云计算模式,它具有高可信、低延迟等特点,在各行各业中有着广阔的应用前景,但在隐私保护和数据处理上仍存在一些问题。而联邦学习作为一种分布式的机器学习技术,能很好地解决边缘计算场景下数据分布不一致和数据隐私问题,但仍面临设备异构、数据异质及通信方面的挑战,如模型偏移、收敛效果差、部分设备计算结果丢失等问题。为解决上述问题,提出动态权重的联邦学习优化算法(FedDw)。该算法关注设备的服务质量,减少训练速度不一致导致部分设备参与带来的异构性影响,并根据服务质量确定在最终模型聚合时的占比,从而确保聚合的结果在复杂的真实情况下更具有鲁棒性。在10个地区气象站的真实数据集上与FedProx和Scaffold这两种典型的联邦学习算法进行了对比,实验结果表明FedDw算法具有更好的综合性能。

引用本文:程帆, 王瑞锦, 张凤荔. 边缘场景下动态权重的联邦学习优化方法[J]. 计算机科学, 2022, 49(12): 53-58.


扫码阅读全文


8

基于联邦学习的车联网多维资源动态分配算法

吴赟寒  白光伟  沈航    

南京工业大学计算机科学与技术学院

摘要: 考虑到车联网系统中多维资源消耗会随时间波动的特性和用户对高效计算服务以及数据隐私安全的需求,提出了一种基于联邦学习的车联网多维资源分配方法。一方面,综合考虑计算、缓存和带宽资源分配,保证计算任务的完成率,避免多维资源的冗余分配,基于该目标设计了一种深度学习算法,通过边缘服务器收集的数据预测各项资源的消耗量,以此为依据分配多维资源;另一方面,考虑到用户的数据隐私安全需求造成的数据孤岛问题,采用联邦学习架构以获得泛化性较好的神经网络模型。该算法能随时间调整多维资源的分配量,满足随时间变动的资源需求,保证车联网系统中计算任务的高效完成。实验结果表明该算法具有收敛速度快、模型泛化性好等特点,能以较少的通信轮数完成联邦学习的聚合。

引用本文:吴赟寒, 白光伟, 沈航. 基于联邦学习的车联网多维资源动态分配算法[J]. 计算机科学, 2022, 49(12): 59-65.

扫码阅读全文


9

基于联邦学习的Gamma回归算法

郭艳卿1  李宇航1  王湾湾2  付海燕1  吴铭侃1  李祎1    

1 大连理工大学信息与通信工程学院
2 深圳市洞见智慧科技有限公司研究中心 

摘要: 在水文学、气象学以及保险理赔评估等领域中,通常假设因变量服从Gamma分布,相比多元线性回归,在Gamma分布假设下建立起的Gamma回归具有更出色的拟合效果。以往获得Gamma回归模型的方法是将数据集中起来进行训练,当数据是由多方提供时,在不交换数据的情况下训练满足隐私保护的Gamma回归模型成为需要解决的问题。为此,提出了一种多方安全的纵向联邦Gamma回归算法,该算法首先使用迭代法推导出纵向联邦Gamma回归模型的对数似然估计表达式,然后结合工程实际确定模型的连接函数,进而构造损失函数建立参数的梯度更新策略,最后对同态加密后的各方参数进行融合更新,获得联邦学习后的Gamma回归模型。在两种公开数据集上进行性能测试,实验结果表明,所提联邦Gamma回归算法在不交换数据的前提下,可有效利用多方数据的价值生成Gamma回归模型,该模型对数据的拟合效果逼近数据在集中情况下学习到的Gamma回归模型,优于单方独立学习获得的Gamma回归模型。

引用本文:郭艳卿, 李宇航, 王湾湾, 付海燕, 吴铭侃, 李祎. 基于联邦学习的Gamma回归算法[J]. 计算机科学, 2022, 49(12): 66-73.

扫码阅读全文


10

基于联邦学习的暖通空调系统故障检测与诊断

王先圣  严珂    

中国计量大学信息工程学院

摘要: 暖通空调系统的自动化和准确故障检测与诊断是智能工业设施维护领域减少时间、能源和财务成本的最重要技术之一。近年来,基于数据驱动的故障检测与诊断方法在暖通空调方面表现出色,但是大多数方法都只能检测单一故障等级的故障,并且不能进行跨系统故障诊断。为了解决这两个问题,提出一种基于联邦学习的故障检测与诊断方法,该方法使用卷积神经网络来提取信息特征,利用特定算法进行聚合,经过多次联邦学习,能够进行跨故障等级和跨系统故障检测与诊断。在多故障等级故障检测与诊断方面,利用冷水机组4个故障等级数据进行联邦学习。实验结果显示,4个故障等级的故障检测和诊断效果的F1-score平均值接近0.97,已经达到实际应用水平。在跨系统故障检测与诊断方面,利用冷水机组和空气处理机组数据进行联邦学习。实验结果表明,利用不同系统数据进行联邦学习,可以提高某些轻微故障的诊断效果,比如,相比传统机器学习方法,RefOver故障的诊断效果F1-score提升了14.4%,Refleak和Exoil两个故障的诊断F1-score提升了2%~4%。

引用本文:王先圣, 严珂. 基于联邦学习的暖通空调系统故障检测与诊断[J]. 计算机科学, 2022, 49(12): 74-80.

扫码阅读全文


本文来源:计算机科学编辑部


END

往期推荐


TDSC 2022 | 为安全联邦学习建立互信的多混洗框架
隐私信息检索拓展应用
2023年度腾讯犀牛鸟精英人才计划——隐私保护相关课题
Rust漏洞查找分析工具——Rudra
欢迎投稿邮箱:pet@openmpc.com参与更多讨论,请添加小编微信加入交流群

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存