点击蓝字
关注我们
Zabbix用户的福音来了,
通过对接蓝鲸智云的故障自愈,
实现故障的无人值守。
对于Zabbix用户,故障自愈可以实现哪些功能呢?
1 ”告警风暴”到底为止
“告警风暴”是Zabbix用户心中的痛。
一旦遇到网络波动、机房停电等情况告警根本停不下来,打爆你的手机。
有人甚至将Zabbix告警插入redis自己编写代码设定规则,来实现告警收敛。
如今,有了故障自愈,你不需要这样。
故障自愈拥有强大、可自助配置的收敛模块,轻松解决Zabbix的告警收敛。
1.1 网络出现异常时,收敛即是防护
当网络出现波动导致“假的Ping告警”产生时,可以在自愈里设定收敛规则,有效防护,而不是直接重启服务器。
1.2 相同处理方案的告警,成功后跳过
当进程告警 和 端口告警同时来袭,选择成功后跳过的收敛方式可以防止重复执行处理方案。
当然,自愈的收敛规则还有很多,等待你去配置。
2 故障处理作业自由定制
故障自愈的处理套餐当前在社区版V3.1 中有“分析CPU和内存使用率”、“磁盘清理”的快捷套餐,也有自己编写脚本的作业平台,以及最近一周即将推出的HTTP回调套餐(直接对接企业内部运维网关)。
2.1 分析CPU和内存使用率
2.2 磁盘清理套餐
2.3 万能的作业平台
在作业平台里可以发挥你技高一筹的脚本编写能力,支持Shell、bat、Perl、Python、Powershell。
2.4 对接企业内部的运维网关
比如PING不可达后,你需要重启服务器 。
3 与CMDB联动,精准处理告警
故障自愈在清洗告警时,会从蓝鲸的配置平台(CMDB)中拉取告警IP的配置信息,与自愈方案做匹配。
实现不同模块,不同集群的告警精细化处理。 
4 故障自愈集成Zabbix的方法
4.1 运行初始化脚本
就这么简单!
以下是原理,剖析给大家听听。
4.2 Zabbix是如何发送消息给故障自愈的
执行了4.1中的初始化脚本后,自愈会自动创建如下操作。
自动创建名为FTA_Act的Action 
FTA_Act这个Action的Operation会通知FTA_Mgr用户,FTA_Mgr的通知媒介就是调用/usr/lib/zabbix/alertscripts/zabbix_fta_alarm.py 
告警产生后在Action log中可以看到发给FTA_Act的Message 
4.3 自愈集成Zabbix告警注意事项
自愈处理告警是把 {HOST.IP}作为故障主机IP,{ITEM.KEY}作为告警类型,请确保 {HOST.IP}在配置平台中注册,同时ITEM.KEY 能被你接入的告警类型所匹配。
上图的ITEM.KEY为 system.swap.size[,pfree]被下图的 Swap使用量(system.swap.*)的规则所匹配。
在/tmp/zabbix_fta_alarm.log 中可以查看到日志信息
5 故障自愈,不只是集成Zabbix

作为运维的你,还在等什么?释放双手的时候到了!
了解故障自愈:故障自愈破势而出,引领故障自动化处理潮流!--运维篇
蓝鲸智云简介
腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化运维平台。目前已经推出社区版、企业版、公有云版,欢迎体验。
如有需要请联系蓝鲸客服QQ:800802001,有关蓝鲸搭建布署以及使用方面的疑问,可加入QQ群(495299374)讨论交流。
您可能比较感兴趣
蓝鲸智云招募合作伙伴
合作共赢,是腾讯文化中重要的一部分。蓝鲸智云团队计划在全国范围内,大力发展生态体系,寻找优质的合作伙伴,共创运维领域的新局面。我们希望为解决方案供应商、集成商、服务商、应用软件开发商、咨询机构等提供更多的增值服务。
招募详情,请点击访问蓝鲸官网:
敬
请
关
注