查看原文
其他

论文分享 | 联邦学习贡献评估综述

作者: 王勇,李国良,李开宇

论文链接: http://www.jos.org.cn/1000-9825/6786.htm  

0

摘要

数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式. 多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一. 


参与方贡献评估需要兼顾有效性、公平性和合理性等要素, 在理论方法与实际应用中均面临多项挑战. 贡献评估首先需要明确如何度量数据价值, 然而数据估值存在主观性与依赖于实际任务场景的特点, 如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战. 


其次, 联邦学习合作中的参与方贡献评估是经典的合作博弈问题, 如何制定公平合理的参与方贡献评估方案, 实现参与方一致认可的博弈平衡是第二大挑战. 


最后, 参与方贡献评估往往计算复杂度高, 同时, 联邦学习中围绕模型的数据估值时间开销大, 因此, 在实践中如何设计高效且准确的近似算法是第三大挑战. 


近年来, 为了有效地解决上述挑战, 学术界对联邦学习中的贡献评估问题展开了广泛的研究. 


首先, 简要介绍联邦学习与参与方贡献评估的背景知识; 


然后, 综述数据估值指标、参与方贡献评估方案和相关优化技术


最后, 讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.


1

数据估值指标联邦学习参与方贡献评估需要解决的首要问题是如何度量数据价值, 本节综述数据估值相关指标, 为介绍贡献评估技术奠定基础. 

给定参与方组合S⊆N, 数据估值指标v计算S对应数据的价值. 图 4展示了数据估值指标的分类情况. 根据联邦是否提供任务的测试数据集, 数据价值度量分为测试集依赖的指标[26, 27]和测试集无关的指标[28−37]. 

其中, 测试集依赖的指标包含测试准确率和测试不确定性, 这类指标依赖于(完备的)测试集, 可以准确地反映数据对测试场景的价值; 测试集无关指标涵盖数据统计指标[28−32]、模型相似度[33−36]和合成价值指标[38], 这类指标适用性更广, 在特定场景或联邦无完备测试集时可用于数据估值.

图 4 数据估值指标分类

2

参与方贡献评估方案
在明确如何度量参与方组合数据价值的基础上, 本节介绍如何进一步度量参与方在联邦合作中的贡献, 具体介绍如下4种参与方贡献评估方案.

个体法[29]: 将参与方自身数据的价值度量或者相关变体作为该参与方的贡献. 个体法可以基于任何数据价值度量指标进行, 特别地, 有个体信誉[29]、个体交叉验证[26]、个体互信息[35]、个体采样[40]和个体影响函数[41]等指标. 个体法简单、高效, 未考虑参与方个体为联邦集体的价值增益, 适用于参与方数量众多的跨设备联邦场景.

留一法[39]: 将联邦全体中移除某个参与方造成的数据价值损失作为该参与方的贡献. 留一法仅考虑了全体组合下某个参与方带来的价值增益, 对于多个相似互可替代的参与方不公平, 适合于发掘稀缺性参与方的场景, 常被作为其他方案评测的基准方法.

夏普利值[39]: 枚举所有可能的参与方组合, 将参与方加入联邦的数据价值边际增益期望作为其贡献. 夏普利值方案直观、便于理解, 保证了对每个参与方个体贡献评估的公平性, 在目前联邦贡献评估中应用最为广泛.

最小核[42]: 将各参与方贡献估计转化为最优化问题, 其优化目标为任意参与方组合的贡献之和尽可能地大于其组合数据价值. 最小核方案设计上最优化子组合贡献分配, 保证了参与方子组合贡献评估相对于组合价值的公平性, 更加符合经济规律, 所以有利于联邦的长期稳定发展.

3

贡献评估优化技术

从理论角度来看, 结合数据价值度量指标(1)与参与方贡献评估方案(2)已经可以完成联邦贡献评估. 然而在实际应用中, 公平合理的贡献评估方案往往需要穷尽枚举所有可能的参与方组合并度量不同组合的数据价值, 比如针对不同组合数据训练并评测联邦模型, 这导致评估计算产生高昂的运算代价. 


此外, 联邦贡献评估还需考虑如何抵御潜在恶意参与方的影响, 避免恶意参与方影响联邦模型性能. 图 5展示了本节介绍的针对上述需求的相关优化技术, 具体包含如下几个方面.


统计采样优化: 夏普利值和最小核评估方案需要枚举指数级的参与方组合来评估参与方贡献, 可以通过统计采样, 随机采样少量参与方组合来近似计算贡献, 降低贡献评估计算复杂度[58−67]; 在参与方数量众多的情况下, 通过约束采样结果统计特性来进一步加速采样收敛[38, 64], 并通过采样少量参与方进行贡献评估的方式来进一步优化效率[68].

联邦特性优化: 联邦学习贡献评估往往需要训练并评测模型, 这导致了高昂的数据价值度量代价, 通过复用模型训练梯度, 大大减少重复训练成本[69−72]; 同时, 可充分利用剪枝技术, 对参与方、训练轮次和数据样本等进行剪枝, 避免低效或者无效运算[73, 74]. 此外, 在联邦学习实践中, 无法保证参与方均提供高价值无恶意数据, 贡献评估技术结果可反馈作用于筛选参与方, 通过按贡献调整参与度[26]、移除低贡献参与方[75]和按贡献奖励模型策略[76]来降低联邦受到低价值或者恶意参与方影响的程度.


图 5 贡献评估优化技术分类


4

未来展望
参与方贡献评估作为激励参与方加入联邦的关键问题, 目前已有一些探索性研究工作, 但是现有工作在价值度量有效性和可靠性贡献评估方案公平合理性评估算法在联邦学习应用上的性能安全性等问题上仍存在不足之处, 有待未来研究攻克这些挑战.


5

总结与展望

邦学习框架联合不同数据持有方, 打破数据孤岛, 在保障数据安全的前提下, 赋能人工智能应用. 但是, 如何吸引高价值数据持有方加入联邦合作中来, 避免低价值、无价值和恶意参与方窃取联邦合作成果, 是联邦学习首先要解决的问题. 


为此, 需要制定健全的联邦学习参与方贡献评估方案, 保证参与方在联邦参与中的数据贡献得到公平合理的评估, 使参与方根据其在联邦合作中的贡献获得应得的回报, 以推动联邦学习方案落地与长效发展.


本文综述了联邦学习的参与方贡献评估技术. 本文针对参与方贡献评估面临的数据价值度量有效性和可靠性评估方案公平合理性如何贡献评估计算优化等问题与挑战展开了综述. 本文分别调研了数据估值指标参与方贡献评估方案估计计算优化这3个方面的技术. 


本文首先综述了如何设计有效而可靠的价值度量指标, 调研了在有无联邦测试集等多种联邦场景设定下的数据价值度量指标, 其中包括测试准确率、测试不确定性和数据统计指标等. 


本文接下来综述了如何设计公平合理的贡献评估方案, 介绍并分析了夏普利值和最小核方案相对于个体法和留一法的优势, 并总结了评估方案所需的重要性质和适用场景. 


此外, 本文综述了针对贡献评估固有的高计算复杂度等问题, 调研了如何进一步基于统计方法优化贡献评估计算问题、如何结合联邦学习特性来优化计算以及如何降低恶意参与方对联邦影响的问题. 


最后, 本文讨论了联邦学习贡献评估目前仍面临的挑战, 并展望了未来研究工作的前进方向.

本文参考:软件学报

脚注对应的参考文献请参见原论文

分享仅供学习参考,若有不当,请联系我们处理。


END

往期推荐


1.什么是可信执行环境(TEE)
2.论文分享 | 不经意传输协议研究综述3.课程报名丨2023年浙江大学暑期Crypto School系列课程4.综述 | 面向边缘智能的联邦学习


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存