KDD 2024 | 中南大学等提出PeFAD,参数高效的联邦异常检测框架
©PaperWeekly 原创 · 作者 | 徐榕桧
单位 | 中南大学
研究方向 | 时序数据分析、时序大模型
摘要
随着移动感知技术的普及,各个领域产生和积累了大量的时间序列数据,为众多实际应用提供了动力。在这种背景下,时间序列异常检测具有重要的实际意义。它旨在从时间序列中识别出偏离正常样本分布的异常样本。现有的方法通常假设所有时间序列数据都集中在一个中央位置。然而,由于各种边缘设备的部署,越来越多的时间序列数据需要分散收集。
为了解决分散时间序列数据与集中异常检测算法之间的差距,作者提出了一个名为 PeFAD(Parameter-efficient Federated Anomaly Detection,参数高效的联邦异常检测)的框架,以应对日益增长的隐私问题。PeFAD 首次使用预训练语言模型(PLM)作为客户端本地模型的主体,利用其跨模态知识转移能力。
为了减少通信开销和本地模型适应成本,作者提出了一个参数高效的联邦训练模块,使客户端只需微调小规模参数并将其传输到服务器进行更新。PeFAD 利用一种新颖的异常驱动掩码选择策略来减轻训练期间异常的影响。此外,作者还提出了一种在所有客户端共享的隐私保护数据集合成与知识蒸馏机制,以解决客户端之间的数据异质性问题。
论文标题:
PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection
Ronghui Xu, Hao Miao, Senzhang Wang, Philip S. Yu, Jianxin Wang
中南大学,奥尔堡大学,伊利诺大学芝加哥分校
KDD 2024
https://arxiv.org/abs/2406.02318
https://github.com/xu737/PeFAD
背景
在现实世界中,时间序列数据通常由分布在不同地点的边缘设备(如传感器)生成。并且由于对隐私保护的日益关注,数据提供者可能不愿意披露他们的数据。然而,大多数现有的时间序列异常检测模型通常需要集中化的训练数据,这使得它们在分散的场景中效果不佳。
近年来,联邦学习(FL)提供了一种在多个客户端上分散数据的情况下训练模型的解决方案。FL 是一种机器学习设置,许多客户端在中央服务器的协调下共同训练模型,同时保持数据分散。
挑战1:数据稀疏性
挑战2:已有的无监督异常检测方法往往忽略了训练过程中异常的存在
为了解决上述挑战,本文提出了一个名为 PeFAD 的参数高效联邦时间序列异常检测框架。主要贡献如下:
PeFAD 是第一个基于 PLM 的联邦无监督时间序列异常检测框架。为了降低计算和通信成本,作者还提出了一个参数高效的联邦训练模块。 为了减轻训练过程中异常的影响,提出了一种异常驱动的掩码选择(ADMS) 策略,提高了模型对变化点的适应性,从而提高了异常检测的鲁棒性。 为了解决客户端之间的数据异质性问题,作者提出了一种新颖的隐私保护共享数据集生成(PPDS)和知识蒸馏机制,以确保客户端之间更一致的模型更新。
PeFAD 包含两个主要模块:
基于 PLM 的本地训练模块
参数高效的联邦训练模块
● 基于PLM的本地训练模块
异常驱动掩码选择(ADMS)策略
原始时间序列数据首先被划分成非重叠片段(patch),客户端采用基于掩码重建的方式来进行模型训练。为了减轻训练过程中异常的影响,作者提出了一种新颖的异常驱动掩码选择(ADMS)策略。具体来说,ADMS 策略结合 Intra-patch Decomposition 和 Inter-patch Similarity Assessment 计算异常分数,从而在训练过程中识别异常,对于这些被检测的异常,在后续掩码重建过程中将被赋予更大的权重被掩码。
Intra-patch Decomposition: 通过时间序列分解并提取残差成分,分析 patch 内部的异常分数
Inter-patch Similarity Assessment: 通过计算余弦相似度来计算不同 patch 之间的相似性,分析 patch 之间的异常分数
在 4 个真实场景数据集的实验中,PeFAD 展示了其卓越的通用性和强大的异常检测能力。特别是在联邦场景下,PeFAD 表现出色,大幅提升了时序异常检测的准确性。实验结果表明,PeFAD 在多个任务上的表现均超越了当前最先进的基线模型,证明了其在不同场景上的强大适应能力。
集中式与联邦式场景实验 微调策略与通信开销对比 参数敏感性分析 Case Study
▲ 微调策略与通信开销对比
▲ 参数敏感性分析
Case Study
此外作者该设计了一种新颖的异常驱动掩码选择策略以及隐私保护共享数据集生成(PPDS)和知识蒸馏机制,有效保证了训练的稳定性以及模型的泛化性。最后通过多种实验,PeFAD 在多个真实世界数据集上展示了其性能提升的潜力。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧