查看原文
其他

智能告警——企业IT系统神经中枢

成喆 凌云时刻 2022-05-30
凌云时刻

编者按:作者为阿里云日志服务团队的丁来强,花名成喆,一直从事云原生可观测平台、安全运营平台的产品与技术研发,本文根据作者在2021阿里云开发者大会的分享整理而成。

人体的8种感觉

我们都知道人体神经系统非常复杂,由各个末梢信号后经由脊髓、大脑中枢处理后获得如下众所周知的5种感觉:视觉——眼睛、听觉——耳朵、触觉——皮肤、嗅觉——鼻、味觉——口。除此之外,人体其实还有另外3种重要的感觉,分别是:内脏觉——内脏、本体觉——关节肌肉、前庭觉——前庭神经核

其中,内脏觉获取来内脏壁信号,产生内脏相关的感觉例如饥饿、饱腹、尿急等。本体觉获取关节肌肉等信号,感知当前身体处于一个什么样的姿势和运动状态。前庭觉则通过各方信号,获得平衡方向感,并过滤信号以便集中精神。

不用说,任何一个感觉出了问题,都会造成非常严重的后果。人们健康快乐的生活离不开这些神经系统的正常工作。

企业IT系统的感觉系统

企业IT系统同样存在各种感觉——对计算、网络、存储、安全、管控等系统的监控运维。数字化信息化的今天,企业组织能否健康、稳定、持续的发展也离不开其IT系统的神经系统——监控运维系统(更宽泛的说法叫可观测性系统)的正常工作。

但不同于人类物种经过几百万年的统一演化保持了基本一致性,企业IT系统的告警监控系统(可观测性系统),还存在非常大的多样性,例如:使用开源方式对容器化部署形态IT系统的监控就存在多种方案:
传统告警系统大量碎片化、无体系的神经孤岛,带来了非常多的痛点,包括重复建设、监控智能差、告警风暴、触发不人性化、无法闭环等。

SLS告警为企业IT系统提供智能神经中枢

作为新一代的云原生可观测平台,SLS支持多种数据源的一体化接入、一站式的存储、加工、分析、可视化、监控、投递、三方对接,为企业IT系统的使用者(包括开发运维、监控人员、商务、安全运营人员等)提供了最快、最高效的观测体验。

作为SLS的一个子系统,SLS告警为IT系统重现构建了智能神经中枢。目前,已经被阿里云平台的企业用户大量使用,每天从海量的数据中监控识别产生告警、管理处理并通知与响应,可证明的灵活适配与稳定可靠性。

使用SLS告警可以给企业IT系统的神经中枢提升易用弹性、可靠性以及功能灵活性,并降低成本、告警噪音以及减少损失。

下面,我们从几个侧面了解一下SLS告警是如何为企业IT系统提供智能的神经中枢的: 接入三方告警——兼听则明

类似于人体的多种感觉从多方获取信号设置告警(例如听到天气预报说明天会下大雨而出门带好雨伞),SLS告警也支持从其他多种流行监控系统中直接接受告警,并进行智能处理与响应。支持的三方系统包括Promethues告警、Grafana告警、Zabbix告警等。

 统一信号分析——智能告警监控

SLS作为可观测平台,已经接收了IT系统的大量信号(日志、时序、跟踪等),可以直接使用SLS告警从中挖掘出大量信息(告警),SLS提供了一套查询分析语法,全面覆盖现在流行的时序、分析型语法,兼顾强大灵活与易上手。

不仅如此,还支持多种数据的协同关联,就像闭上眼睛,拿一个水果,也可以通过触觉、嗅觉、听觉等判断出这是一个杯子、还是一个苹果等。
 智慧信号处理——ML算法

就像人的脊髓、大脑等会自动参与信号处理得到更高级的感觉信息一样,从海量的数据中产生信息包括告警,离不开机器学习的支持,SLS提供多种丰富流行与顶级算法,更精准高效的产生告警。

 千里眼——全局监控
人的感觉系统是有距离限制的,触觉限制了手能够到的地方,视觉可达数公里。但IT企业系统可能分布在各个国家、城市系统或各个隔离的账号体系中,SLS告警支持跨库、跨地域、跨账号的对数据进行远程监控,就像千里眼一样。
 知识库——内置规则库
人类善于学习积累来扩展感觉系统,一个小朋友在摸过看过或碰触装了热水的玻璃杯后会记住这个感觉,下次再看到冒着热水的玻璃杯就会得到一样的信息。SLS告警的内置告警规则库,提供数百个这样的知识,开箱即用。
 告警降噪——IT系统的前庭觉
一个游戏迷在玩《王者荣耀》或一个新青年在看《光荣与梦想》时,通常会自动忽略周围的大部分信息,这其实是前庭觉在起作用。在企业监控告警中,也需要通用的机制:在收到一个主机宕机的严重告警时,IT运维同学加紧迁移系统中,希望自动忽略该主机上一连串的其他告警的。亦或者在晚上休息期间,非严重告警,要被自动忽略掉。SLS告警的管理功能(告警策略、行动策略等),可以提供静默、合并、合并降噪等功能,也支持根据节假日、工作时段等灵活调整通知策略等。
 告警态势大盘——IT系统的本体觉
类似于本体觉让你闭上眼睛也能感知自己是站着还是躺着,处于什么姿势一样。SLS告警的多张告警大盘让使用者轻松掌握目前整体告警态势与进展。
 记事本——事务管理
人的神经系统不能一下次并行处理多个事务(例如很难一边写作业、一边玩游戏),也不容易记住很多事情。IT系统运维人员面对许多并行告警时,同样如此,SLS的告警事务管理提供了这样的便利,就像记事本一样帮助他们管理好各个告警的状态,及时有效的跟进或处理。
 神经系统响应——行动管理
一如人体对于感觉会做出反应(如看到危险,要躲避一样),SLS告警提供多种通知与响应形式,包括各种渠道:
企业组织下还支持贴心的功能如:值班表(轮岗代班等)、告警升级等。


你可能还想看

1. 工作7年,我的10条经验总结

2. OAM 与 KubeVela 项目整体捐赠进入 CNCF,让云端应用交付更加简单

3. 龙蜥社区首届理事大会圆满召开!14家理事代表出席

4. 仅用 480 块 GPU 跑出万亿参数,中文最大规模多模态预训练模型发布

5. CPU静默数据错误:存储系统数据不丢不错的设计思考


END

关注「凌云时刻」

每日收获前沿技术与科技洞见

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存