区块链赋能的异步联邦学习在车联网中实现安全数据共享
在车联网(IoV)中,通过车辆间的数据共享进行协同分析,可以提高驾驶体验和服务质量。然而,带宽、安全和隐私问题阻碍了数据提供者参与数据共享过程。此外,由于IoV通信时断时续、不可靠,数据共享的可靠性和效率有待进一步提高。在本文中,作者提出了一个基于联邦学习的新架构,以减轻传输负荷和数据提供商的隐私问题。为了提高模型参数的安全性和可靠性,作者提出了一种混合的区块链体系结构,它由许可链和局部有向无环图(DAG)组成。此外,作者提出了一种采用深度强化学习(DRL)进行节点选择的异步联邦学习方案,以提高效率。通过将学习到的模型集成到区块链中并执行两阶段验证,共享数据的可靠性也得到了保证。数值结果表明,该数据共享方案具有较高的学习精度和较快的收敛速度。中国人民大学金融科技研究所(微信ID:ruc_fintech)对论文的核心内容进行了编译。
来源 |IEEE Transactions On Vehicular Technology, 2020
作者 |Yunlong Lu , Student Member, IEEE, Xiaohong Huang , Member, IEEE, Ke Zhang ,Sabita Maharjan , Senior Member, IEEE, and Yan Zhang , Fellow, IEEE
编译 |张沁楠一、引言
5G网络及其他网络中新型计算和通讯技术的快速发展,为先进的车辆服务和应用提供了可能性,如自动驾驶可以提高驾驶体验。在此背景下,车辆联网(IoV)成为一种集成了智能计算的新范式。在IoV中,移动的车辆不断产生大量的不同类型的数据,其中包括轨迹、交通信息和多媒体数据等附加数据。如何高效、有效地利用海量可用数据,提高IoV的驾驶体验,提供广泛、高质量的服务,是一个至关重要的问题。
数据共享可以通过协同分析和挖掘数据来缓解这一问题,从而提高IoV应用的效率。然而,在IoV中,数据共享面临两个关键挑战。首先,车辆之间的通信不可靠,如何提高数据共享的效率和可靠性,还需要进一步深入研究。其次,数据提供商越来越关注数据安全和隐私问题,可能阻碍他们提供可用的数据进行分析。因此,如何在IoV中高效、安全地共享数据仍然是一个有待研究的问题。
最近,区块链已经成为提供分布式安全解决方案的一种有前途的技术。凭借防篡改、匿名性和可跟踪性等高级特性,区块链在增强物联网等领域的安全性方面引起了广泛关注。联邦学习是一种很有前途的分布式边缘智能方法。而在传统的机器学习中,所有的训练数据都是在一个集中的服务器中收集的,联邦学习在很大程度上解决了数据隐私问题,并且通过将训练工作分配给用户,降低了数据传输成本。局部训练由用户对自己的数据进行,通常采用梯度下降优化算法。在联邦学习框架中,用户保留自己的数据,但将参数发送到服务器进行聚合。这为用户提供了一种并行方案,以协作方式学习解决数据隐私问题。因此,联邦学习通过对分布式数据进行隐私保护的学习,实现了边缘智能,并利用区块链在不可信的参与者之间提供了一种保证有效共享的协作方案。然而,在IoV中,由于车辆的移动性和车辆间通信的不可靠,在一个高度动态的环境下,产生了一些新的挑战。其中有三个方面是至关重要的。首先,区块链的计算效率有待提高。第二,共享数据的可靠性需要得到保证。提供者共享不合格数据(如恶意和冗余数据)的风险。第三,减少联邦学习造成的延迟,以应对车辆的异构通信和计算能力。
在本文中,我们通过将区块链和联邦学习集成到IoV中实现数据共享来解决这些问题。我们开发了一个混合的区块链——PermiDAG,并利用我们的节点选择算法改进了联邦学习。本文的贡献可以总结如下:我们提出了一种新的混合区块链——PermiDAG,它包括由RSUs维护的允许的区块链主节点和由车辆运行的本地有向无环图(DAG),以实现IoV中有效的数据共享。我们提出了一种基于边缘数据的异步联邦学习方案,通过选择参与节点使总代价最小化,进一步提高了联邦学习的效率。我们将学习的参数整合到区块链中,并通过两阶段的验证来验证这些参数的质量,从而提高了学习模型的可靠性。
二、主要内容
车联网(IoV)由车辆、RSU、宏基站(MBSs)组成,如图1所示。MBSs具有较大的计算容量和通信资源。
图1-车辆网络中的数据共享
传统的联邦学习依赖于同步学习方案来更新服务器和客户端之间的表现。然而,这种方法有两个主要的挑战。首先,在车辆网络中,由于异构计算能力和动态通信条件,每辆车的学习时间不同。因此,每个学习迭代的运行时间由最慢的参与者决定,而其他参与者必须等待最慢的参与者来维护同步方案。我们建议采用异步联邦学习来解决这个问题。该方案通过优化选择参与节点,并将模型聚合分为局部聚合和全局聚合来实现异步学习。其次,参与节点之间传输的参数带来了严重的安全和隐私问题,而动态信道条件导致了参数传输的可靠性问题。结合区块链对模型参数进行存储和验证,提高了方案的可靠性和安全性。在异步联邦学习中,我们采用了强化学习框架(DRL)算法来选择参与节点。
本文提出的区块链授权异步联邦学习体系结构包括三个阶段:节点选择、局部训练和全局聚合,如图2所示。节点选择通过使用DRL算法对参与车辆进行选择来制定并解决一个优化问题。然后选择车辆进行局部训练,并更新训练后的局部模型进行全局聚合。
图2-区块链赋能的联邦学习在IoV中的数据共享功能
区块链赋能联邦学习方案的过程如图3所示。MBS首先将全局模型分配给区块链,然后,参与的车辆从区块链下载全球模型,并进行本地培训。证书颁发机构执行访问许可链的参与者身份识别。然后将训练好的局部模型参数上传到区块链中。MBS检索参数并执行全局聚合。注意,在提出的区块链赋能的联邦学习方案中,我们通过将聚合阶段分为局部聚合阶段和全局聚合阶段来提高聚合效率。对于每个车辆,在一个局部范围内的车辆之间异步执行局部聚合,以提高经过训练的局部模型的质量。全局聚合由RSUs同步执行。我们进一步提出了混合区块链方案来执行组合聚合,其中包括轻量级本地聚合和资源密集型全局聚合。
图3-区块链赋能联邦学习方案的过程
为了提高数据安全性、训练效率和准确性,我们为联邦学习方案设计了一种混合区块链机制- PermiDAG。PermiDAG由主许可区块链和本地DAG组成,分别负责在我们的联邦学习方案中进行同步全局聚合和异步局部训练。PermiDAG是分区的,这意味着部分节点也可以有效地运行区块链。此外,通过允许车辆只存储本地DAG和允许RSU存储许可链,从而提高存储效率。在PermiDAG中,许可链在RSU节点中运行,并充当主区块链,而本地DAG在车辆节点上运行。主许可链记录车辆之间的所有数据共享事件,包括提供者、使用者、数据配置文件和本地DAG中事务的汇总信息。另外,允许的区块链还记录了全局聚合中的模型参数。车辆通过证书颁发机构(RSUs或MBSs)注册成为许可链的合法车辆节点,获得参与数据共享的证书。在数据共享过程中,我们的节点选择算法选择车辆节点子集。选择的车辆节点负责训练局部模型,运行局部DAG。RSU节点将事务收集到块中,并验证这些块,以便进一步将它们添加到允许的区块链中。
在我们提出的许可区块链中,我们采用了高效的共识协议DPoS。在传统的DPoS中,代表的投票是基于利害关系来维持区块链。我们将赋能区块链中的委托选择问题和联邦学习中的参与者选择问题转化为一个组合节点选择问题。在我们提出的方案中,代表是由被选中参与车辆投票的RSU。当选的委托通过管理块间隔和块大小等设置来管理许可链的运行。在我们的方案中,委托还扮演见证的角色,负责验证事务、生成和验证新块。在每个块验证中,根据历史表现和随机因素从委托中选择一个leader,并广播候选人的封锁到验证器进行验证。然后验证器验证块中的事务,并将审计结果返回给leader。leader收集所有收到的审计结果,决定是否提交候选块。如果候选块通过了所有验证,leader将把该块发送给所有参与的RSU,用于更新和存储在许可链中。
在节点选择中,我们考虑车辆在IoV中的信誉,以达到车辆间的一致。在我们的两阶段验证方案中,如何使额外的质量验证所带来的资源成本最小化是一个重要的问题。我们利用IoV中提出的基于DAG的局部区块链,将质量验证过程与联邦学习的更新过程结合起来。在提出的本地DAG中,事务是联邦学习中的共享更新模型,我们将其命名为微事务,以区别于数据共享事务。当地的DAG由每个参与车辆在当地维护。在联邦学习的迭代t中,从联邦学习的参与节点中选择一个聚合器,它也是许可链的验证者。为了促进聚合过程,一种有效的方法是选择训练时间长且通信状态好的节点作为聚合器。在局部聚合中,参与车辆通过V2V通信将其模型更新传输给附近车辆进行聚合。本地更新事件在本地DAG中记录为事务。
由于大多数节点都是诚实的,并且希望在短期内对其事务进行验证,因此它们更有可能选择权重较高的事务进行验证。在DAG最重的分枝更容易被确认,而累积权值较低的分枝最终会被隔离。通过以分布式的方式使用简化的PoW来确保共识过程的安全。车辆V通过本地计算简化的PoW获得添加交易的权利,简化后的PoW的复杂度大大低于传统PoW,节省了计算资源,提高了计算效率。事务越多,执行的验证就越多,DAG就会越快、越安全。算法1给出了我们提出的混合区块链赋能联邦学习方案的完整过程。
三、仿真过程
网络初始化:我们考虑一个在网络中心有一个基站,在基站覆盖范围内有10个RSU的车载网络。我们在地图上以纽约市的布鲁克林为基础,定义了一个1500米1000米的目标区域作为我们的模拟场景。车辆的追踪点来自纽约市的Uber数据集。matplotlib basemap工具包绘制的整体仿真场景如图4所示。MBS和RSU的覆盖范围分别为1000米和300米。
图4-车载网络仿真场景
模型和数据集:我们在MNIST数据集上评估提出的异步联邦学习。数据集被分割成100个分片,这些分片被分配给100个提供者。边缘数据共享任务是共享各数据提供者本地数据上的计算结果。我们采用卷积神经网络(Convolutional Neural Network, CNN)模型作为局部训练模型。在每个迭代中,有1个全局聚合和10个局部训练。此外,我们采用本地CNN模型和集中式CNN模型作为同一数据集上的基准算法。本地CNN在本地提供者的数据集上训练模型,而集中式CNN模型则在整个集中式数据集上训练。然后,我们验证了基于DDPG的节点选择算法的性能。
首先,我们对MNIST数据集上不同数量的数据提供者评估所提出方案的准确性和损失。另外,为了测试所提节点选择算法的效果,我们将3个数据提供者设置为低质量参与者,称为恶意节点。3家数据提供商的通信和计算能力较低,为聚合提供的训练参数质量较低。低质量的参数是由随机噪声干扰原始参数得到。精度和损失结果分别如图5和图6所示。结果表明,该方法具有良好的精度和收敛性。当参与的数据提供者的数量从30、50变化到80时,准确性有一个小的降低。然而,这个变化说明了我们的方案的良好的可扩展性。是否采用节点选择的比较结果表明,所提出的节点选择算法可以防止质量较差的节点影响学习结果。
图5-准确性与不同数量的数据提供者
图6-损失与不同数量的数据提供者
为了分析恶意节点对整个联邦学习的影响,我们比较了在不同恶意节点数量下不选择节点的方案的性能。从图7和图8可以看出,恶意节点的增加大大降低了性能。结果表明,优化参与节点的选择对提高系统性能至关重要。
图7-不同数量的恶意节点的准确性
图8-不同数量的恶意节点的损失
我们将该方案与两种基线方法,即局部CNN和集中式CNN进行了比较。本地CNN模型在一个本地数据集上进行训练,然后在来自100个提供者的整个数据集上进行评估。集中的CNN模型在100个提供者的整个数据集上进行训练和评估。从图9可以看出,我们提出的方案的性能与集中式CNN非常接近。但是,集中化的方法给提供商带来了很高的数据安全和隐私风险。local CNN的准确率结果远远落后于其他两种方法。这是因为在局部CNN中进行局部训练的目的是使局部数据集的损失最小化。本地CNN可以得到局部最优解,但与全局最优解相去甚远。
图9-基准方法的全局模型准确率结果
此外,我们评估了我们提出的异步联邦学习方案的时间代价,并将其与图10中的同步联邦学习方法和集中式CNN进行比较。从图10可以看出,我们所提出的方案在时间开销最小的情况下优于其他方法,说明了我们所提出的方案的高效率。在不同车辆数量和RSU情况下运行我们的混合动力区块链方案的附加成本值如图11所示。运行区块链方案的成本随着参与者数量和事务数量的增加而增加通信负载和计算开销。
图10-根据累计时间成本进行性能比较
图11-区块链方案的累积成本
我们进一步研究了所提出的基于DDPG节点选择算法的性能。学习率0.001,重播缓冲区大小为5000,批处理大小为32。图13为选择不同车辆数量的最优参与节点的迭代过程。该算法在500 ~ 600次迭代后能取得较好的收敛效果。最终稳定的即时报酬意味着找到最优选择解。车辆越多,它需要学习的最优解决方案就越多。图13所示为在不同数量车辆获得的累积奖励。收敛趋势对于不同数量的车辆情况大致相同。开始时的高值是由于在默认选择状态下获得了较高的初始即时奖励开始,如图12所示。较高的初始即时奖励意味着初始默认选择状态接近最终最优解。
图12-DDPG即时奖励使用不同数量的车辆
图13-不同数量车辆的DDPG累计奖励
四、结论
在本文中,我们在IoV框架中解决了车辆之间的边缘数据共享问题。我们首先提出了一种混合区块链机制,其中包括IoV中允许的区块链和本地DAG。在混合区块链机制的基础上,提出了异步联邦学习方案,并利用DRL选择优化的参与节点,进一步提高了学习效率。通过将学习参数集成到区块链中,可以通过两阶段验证进一步验证学习模型的质量。广泛的数值结果证实了我们提出的方案在效率和精度方面的有效性。
以下为部分报告截图
……
获取完整论文,
请后台回复“车联网”
获取下载链接
END
编辑/张沁楠 孙翼
责编/孙翼
【延伸阅读】