论文详解丨一种面向电能量数据的联邦学习可靠性激励机制
背景
联邦学习解决了数据安全日益受到重视条件下的数据互用难题,但是传统联邦学习缺少鼓励和吸引数据拥有方参与到联邦学习中的激励机制,联邦学习审核机制的缺失给恶意节点进行破坏攻击提供了可能性。
主要贡献
本文根据传统联邦学习缺少鼓励和吸引数据拥有方参与到联邦学习中的激励机制以及联邦学习审核机制的缺失的问题,引入了模型评估指标作为联邦学习评估效果的依据。
同时引入了声望模型来描述数据节点的可靠性,并且通过声望实现对数据节点的审核和筛选。
最后按照电力计量系统的特点设计了独特的区块链,简化区块结构,降低电能量节点使用区块链的计算成本,并使用区块链实现联邦学习激励机制和声望模型相关数据的存储。
可靠的联邦学习激励体制的整体流程
可靠激励机制模块设计
第①步训练调度模块负责将电能量数据需求节点的初始模型的全局模型参数W同对齐特征信息一同加密,分发给各参与电能量数据节点。
第②步,利用本地电能量数据对本地模型(即初始联邦模型的本地备份Minit)进行训练,Mtrain是参与数据节点使用本地数据对模型Minit进行训练后的结果。
第③步,提取参与节点训练模型Mtrain的全局模型参数W,将训练得到的模型信息同其他用于激励机制实现的辅助信息一同发送至电能量数据需求节点。
4.2激励机制模块
文中选择对同一初始模型的优化结果作为联邦学习数据参与方的训练评估结果。下图是此激励机制的整体流程:
在初始模型、中间验证模型以及评估指标都确定后,获取训练模型Ti和初始模型O的评估指标值aij和bij,aij和bij的数量关系将作对数据参与方i的训练评估结果scoreij的依据。
将初始训练模型O和获取训练模型Ti后的评估指标aij和bij进行比较,如果aij小于bij,说明数据节点i利用本地数据对模型进行训练的效果极差,score的值给出-1;如果aij大于等于bij,数据节点i利用本地数据对模型进行训练后模型将得到优化,评估结果为提升值/初始评估。在公式中的分母加了一个很小的数值,避免分母为0的情况。
之后按照联邦学习数据参与方的贡献度对其进行奖励分配。贡献度的大小不仅取决于数据参与方的训练结果评估,还应该与参与方的训练成本相关。训练成本costij 与用户i 的数据集大小nij 成线性关系,k为两者之间的相关系数,即:
costij=k×nij
进而,数据参与方i的贡献度为:
conij=costij×scoreij
如果 scoreij为负数,则conij的值相乘为负,负的conij的值不会被记录到总的贡献度。本文在进行奖励分配时秉持公平的按劳分配原则,按照各数据参与方的贡献对其进行奖励.W表示该轮次所有数据参与方的贡献度之和,R 表示数据需求方提供的奖励总额,N 表示通过验证并且conij 大于0的数据节点数量,贡献度之和 W 为:
则该次训练中各数据参与方i应得奖励ri为:
4.3声望模型模块
面向电能量数据联邦学习的声望模型的引入旨在解决联邦学习的可靠性问题,防止恶意节点对联邦学习的攻击造成严重的后果。
本文设计的声望模型为每一个数据节点都维护一个声望值,数据节点的声望值直接反映了其可靠性程度。从而数据需求方可以根据数据节点的声望值筛选合适可靠的数据节点作为参与方参与自己组织的联邦学习。
数据节点的声望值需要考虑了数据节点的历史参与训练的可靠性得分记录,还考虑了可靠性得分记录数据的时间跨度。
如图所示的流程,数据需求方首先在区块链中提取各个申请参与联邦学习的节点的记录。区块链中的记录是记录了数据节点每一次参与训练的信息,进行声望计算的时候,将符合要求的记录参与到声望值的计算中。
在声望值的计算中,kij表示数据节点i的各可靠性评估结果scoreij 的权重。
对于某条历史记录,l表示计算系数,如果记录中的数据需求方为此次联邦学习任务的数据需求方guest本身,那么该条记录将具有更高的权重weight(weight>1),最终权重kij由对应的数据需求方guestij和记录时间跨度spanij,(spanij =NOW-timeij,单位为天)共同决定,数据节点i只有时间跨度阈值thresholdspan内的可靠性记录才会被用于数据节点的声望计算,具体表示为:
本文结合电网实际应用场景,经过灵敏度分析后确定在l设为1、thresholdspan设为100、weight设为1.5的情况下能得到较好的效果。
4.4区块链模块设计
算例介绍
5.1 算例介绍
算例1 家庭用电数据集.该数据集共有10000个样本数据,每个样本数据具有8维特征并带有1个0-1标签表示该样本的城乡属性,标签与实际情况相符且近似平均分布,数据随机分发给各模拟数据节点.算例1基于家庭用电数据集,使用 FATE 和 SecureBoost算法进行联邦学习,模拟3个电能量数据节点使用本地数据训练分类树模型,并聚合形成分类树联邦模型.训练完成后,使用分类树联邦模型,根据家庭用电数据特征预测家庭城乡属性,并对模型效果进行评估。
算例2 用电量数据集.该数据集共有26496个样本数据,每个样本数据具有7维特征并带有1个标签,标签值连续且符合实际用电量的分布情况.算例基于某数据采集点用电量数据,使 用 FATE 和深度神经网络进行联邦学习.模拟3个数据节点使用本地数据训练神经网络,并将其聚合形成神经网络联邦模型并训练完成后,使用神经网络模型,根据各项环境数据指标对用电量进行预测,并对模型预测精度进行分析。
5.2 激励机制可行性验证
分类模型经典评估指标接受者操作特性曲线 (Receiver Operating CharacteristicCurve,ROC 曲 线)下方的面积 (Area UnderCurve,AUC)作为模型训练效果的评估依据。
从表中的数据可以看出,各参与方的数据都能对原始模型起到优化的效果,聚合模型的效果最优,训练效果评估和贡献度的大小与AUC 直接相关。
根据各数据参与节点中间验证模型的 R2-score 来计算各节点的训练效果评估结果,进一步根据训练效果和训练成本确定各节点的贡献度。根据实验结果来看,R2-score的值都得到了提升,训练效果评估和贡献度的大小与R2-score直接相关。
5.3 声望模型效果评估
本文参考: SecurityLabUJN
分享仅供学习参考,若有不当,请联系我们处理。
往期推荐
1.论文分享|安全顶会S&P2022:一个实时可信执行环境 RT-TEE
2.学习同态加密:第四代全同态加密经典论文合集笔记分享|浙大暑期密码学课程:Lattice-based Crypto l 和ll4.学习同态加密:第三代全同态加密经典论文合集