查看原文
其他

总是带来惊喜的 2018-05-25

点击蓝字

关注我们


Zabbix用户的福音来了,

通过对接蓝鲸智云的故障自愈,

实现故障的无人值守。 

对于Zabbix用户,故障自愈可以实现哪些功能呢?

1 ”告警风暴”到底为止

“告警风暴”是Zabbix用户心中的痛。

一旦遇到网络波动、机房停电等情况告警根本停不下来,打爆你的手机。

有人甚至将Zabbix告警插入redis自己编写代码设定规则,来实现告警收敛。

如今,有了故障自愈,你不需要这样。

故障自愈拥有强大、可自助配置的收敛模块,轻松解决Zabbix的告警收敛。

1.1 网络出现异常时,收敛即是防护

当网络出现波动导致“假的Ping告警”产生时,可以在自愈里设定收敛规则,有效防护,而不是直接重启服务器。 

1.2 相同处理方案的告警,成功后跳过

当进程告警 和 端口告警同时来袭,选择成功后跳过的收敛方式可以防止重复执行处理方案。

当然,自愈的收敛规则还有很多,等待你去配置。

2 故障处理作业自由定制

故障自愈的处理套餐当前在社区版V3.1 中有“分析CPU和内存使用率”、“磁盘清理”的快捷套餐,也有自己编写脚本的作业平台,以及最近一周即将推出的HTTP回调套餐(直接对接企业内部运维网关)。

2.1 分析CPU和内存使用率

2.2 磁盘清理套餐

2.3 万能的作业平台

在作业平台里可以发挥你技高一筹的脚本编写能力,支持Shell、bat、Perl、Python、Powershell。

2.4 对接企业内部的运维网关

比如PING不可达后,你需要重启服务器 。

3 与CMDB联动,精准处理告警

故障自愈在清洗告警时,会从蓝鲸的配置平台(CMDB)中拉取告警IP的配置信息,与自愈方案做匹配。

实现不同模块,不同集群的告警精细化处理。 

4 故障自愈集成Zabbix的方法

4.1 运行初始化脚本

就这么简单!

以下是原理,剖析给大家听听。

4.2 Zabbix是如何发送消息给故障自愈的

执行了4.1中的初始化脚本后,自愈会自动创建如下操作。

自动创建名为FTA_Act的Action 

FTA_Act这个Action的Operation会通知FTA_Mgr用户,FTA_Mgr的通知媒介就是调用/usr/lib/zabbix/alertscripts/zabbix_fta_alarm.py 

告警产生后在Action log中可以看到发给FTA_Act的Message 

4.3 自愈集成Zabbix告警注意事项

自愈处理告警是把 {HOST.IP}作为故障主机IP,{ITEM.KEY}作为告警类型,请确保 {HOST.IP}在配置平台中注册,同时ITEM.KEY 能被你接入的告警类型所匹配。

上图的ITEM.KEY为 system.swap.size[,pfree]被下图的 Swap使用量(system.swap.*)的规则所匹配。 

在/tmp/zabbix_fta_alarm.log 中可以查看到日志信息 

5 故障自愈,不只是集成Zabbix

作为运维的你,还在等什么?释放双手的时候到了!

了解故障自愈:故障自愈破势而出,引领故障自动化处理潮流!--运维篇


蓝鲸智云简介

腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化运维平台。目前已经推出社区版、企业版、公有云版,欢迎体验。

如有需要请联系蓝鲸客服QQ:800802001,有关蓝鲸搭建布署以及使用方面的疑问,可加入QQ群(495299374)讨论交流

您可能比较感兴趣

蓝鲸智云招募合作伙伴

合作共赢,是腾讯文化中重要的一部分。蓝鲸智云团队计划在全国范围内,大力发展生态体系,寻找优质的合作伙伴,共创运维领域的新局面。我们希望为解决方案供应商、集成商、服务商、应用软件开发商、咨询机构等提供更多的增值服务。

招募详情,请点击访问蓝鲸官网:


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存