优秀!电院薛广涛课题组荣获USENIX FAST最佳论文奖
近日,计算机体系结构顶会USENIX FAST 2023在美国圣克拉拉举办,会议聚焦计算机存储领域的国际最高水准研究。其中,上海交通大学电子信息与电气工程学院计算机系网络与服务计算研究所薛广涛教授和李明禄教授共同指导的博士生鲁瑞明荣获本届最佳论文奖,也是国内首次获此殊荣。
获奖的论文题目为“Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems”(Perseus: 一种适用于云存储系统的缓慢故障检测框架)。上海交通大学和阿里云共同提出实现了一种适用于大规模数据中心的慢盘检测框架,利用性能监测指标进行非侵入式的、细粒度的缓慢故障检测。系统被部署在阿里云近2万台机器上,准确检测到数百块慢盘,可将节点p9999长尾延迟平均降低33-64%,在保障性能稳定性的同时,极大减少了性能的抖动,为客户提供了可预期的平滑服务质量保障。因其对缓慢故障检测的杰出创新研究和巨大应用价值,该研究也被评委推荐发表于USENIX会刊《;login:》。
1
研究背景
近年来,随着高速设备的不断发展,一种新兴的故障模型——缓慢故障(Fail-Slow Failure)逐渐引起了研究者的注意。缓慢故障设备处于全速工作状态和停止故障状态之间的一种中间状态,虽然仍在运行但性能大幅低于预期。
针对缓慢故障的识别,现有相关工作均是粗粒度的、侵入式的检测。“粗粒度”是指其以节点为单位进行检测,而无法定位具体的缓慢设备。“侵入式”是指其需要在软件栈上进行源码修改,并且要求用户使用特定的软件版本。然而,大型云服务提供商不该触碰到用户所使用设施的代码,而且也无法要求用户使用特定软件版本。因此,亟需一种细粒度的、非侵入式的、准确且广泛适用于各种云服务产品的缓慢故障检测框架。
2
研究成果
基于以上挑战,该研究结合传统机器学习技术,提出针对存储设备的、适用于大型云存储系统的缓慢故障检测框架。如下图所示,整体框架包括异常值检测、拟合回归模型、生成慢事件、量化缓慢程度等共四个步骤,最终将存储设备的缓慢程度用一套打分规则进行量化,方便驻场工程师优先针对缓慢程度最高的设备进行下线维修和人工检查。该框架无需做任何参数和设计调整即可广泛适用于阿里云的各项业务线。目前,该研究已成功落地阿里云生产环境,并在一年多的部署里成功检测出300余块缓慢故障设备,大幅降低节点长尾延迟的同时、持续保障云服务的平稳运行。
缓慢故障检测框架工作流程
3
关于FAST会议
FAST会议创办于2002年,是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组织(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议,代表了计算机存储领域的国际最高水平。本届会议一共收录28篇文章,从中评选出2篇最佳论文奖。自创办二十多年以来,FAST推动了如RAID、闪存文件系统、非易失内存技术和分布式存储等多项存储相关技术的发展。
论文链接(或点击“阅读原文”):
https://www.usenix.org/conference/fast23/presentation/lu
点亮“在看”,点赞电院优秀科研团队!
来源丨计算机系
文稿丨鲁瑞明
编辑 | 马雨彤
责任编辑 | 张悦