论文分享 | 联邦学习贡献评估综述
作者: 王勇,李国良,李开宇
论文链接: http://www.jos.org.cn/1000-9825/6786.htm
摘要
数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式. 多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.
参与方贡献评估需要兼顾有效性、公平性和合理性等要素, 在理论方法与实际应用中均面临多项挑战. 贡献评估首先需要明确如何度量数据价值, 然而数据估值存在主观性与依赖于实际任务场景的特点, 如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.
其次, 联邦学习合作中的参与方贡献评估是经典的合作博弈问题, 如何制定公平合理的参与方贡献评估方案, 实现参与方一致认可的博弈平衡是第二大挑战.
最后, 参与方贡献评估往往计算复杂度高, 同时, 联邦学习中围绕模型的数据估值时间开销大, 因此, 在实践中如何设计高效且准确的近似算法是第三大挑战.
近年来, 为了有效地解决上述挑战, 学术界对联邦学习中的贡献评估问题展开了广泛的研究.
首先, 简要介绍联邦学习与参与方贡献评估的背景知识;
然后, 综述数据估值指标、参与方贡献评估方案和相关优化技术;
最后, 讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.
数据估值指标联邦学习参与方贡献评估需要解决的首要问题是如何度量数据价值, 本节综述数据估值相关指标, 为介绍贡献评估技术奠定基础.
参与方贡献评估方案
贡献评估优化技术
从理论角度来看, 结合数据价值度量指标(1)与参与方贡献评估方案(2)已经可以完成联邦贡献评估. 然而在实际应用中, 公平合理的贡献评估方案往往需要穷尽枚举所有可能的参与方组合并度量不同组合的数据价值, 比如针对不同组合数据训练并评测联邦模型, 这导致评估计算产生高昂的运算代价.
此外, 联邦贡献评估还需考虑如何抵御潜在恶意参与方的影响, 避免恶意参与方影响联邦模型性能. 图 5展示了本节介绍的针对上述需求的相关优化技术, 具体包含如下几个方面.
● 统计采样优化: 夏普利值和最小核评估方案需要枚举指数级的参与方组合来评估参与方贡献, 可以通过统计采样, 随机采样少量参与方组合来近似计算贡献, 降低贡献评估计算复杂度[58−67]; 在参与方数量众多的情况下, 通过约束采样结果统计特性来进一步加速采样收敛[38, 64], 并通过采样少量参与方进行贡献评估的方式来进一步优化效率[68].
图 5 贡献评估优化技术分类
未来展望
总结与展望
联邦学习框架联合不同数据持有方, 打破数据孤岛, 在保障数据安全的前提下, 赋能人工智能应用. 但是, 如何吸引高价值数据持有方加入联邦合作中来, 避免低价值、无价值和恶意参与方窃取联邦合作成果, 是联邦学习首先要解决的问题.
为此, 需要制定健全的联邦学习参与方贡献评估方案, 保证参与方在联邦参与中的数据贡献得到公平合理的评估, 使参与方根据其在联邦合作中的贡献获得应得的回报, 以推动联邦学习方案落地与长效发展.
本文综述了联邦学习的参与方贡献评估技术. 本文针对参与方贡献评估面临的数据价值度量有效性和可靠性、评估方案公平合理性和如何贡献评估计算优化等问题与挑战展开了综述. 本文分别调研了数据估值指标、参与方贡献评估方案和估计计算优化这3个方面的技术.
本文首先综述了如何设计有效而可靠的价值度量指标, 调研了在有无联邦测试集等多种联邦场景设定下的数据价值度量指标, 其中包括测试准确率、测试不确定性和数据统计指标等.
本文接下来综述了如何设计公平合理的贡献评估方案, 介绍并分析了夏普利值和最小核方案相对于个体法和留一法的优势, 并总结了评估方案所需的重要性质和适用场景.
此外, 本文综述了针对贡献评估固有的高计算复杂度等问题, 调研了如何进一步基于统计方法优化贡献评估计算问题、如何结合联邦学习特性来优化计算以及如何降低恶意参与方对联邦影响的问题.
最后, 本文讨论了联邦学习贡献评估目前仍面临的挑战, 并展望了未来研究工作的前进方向.
本文参考:软件学报
脚注对应的参考文献请参见原论文
分享仅供学习参考,若有不当,请联系我们处理。
往期推荐
1.什么是可信执行环境(TEE)
2.论文分享 | 不经意传输协议研究综述课程报名丨2023年浙江大学暑期Crypto School系列课程4.综述 | 面向边缘智能的联邦学习