查看原文
其他

SLS机器学习最佳实践:ECS时序指标巡检

笃林 日志服务 2022-08-25



背景


云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。


众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。


指标说明

对于云服务器的稳定性,有如下黄金指标值得我们关注:

类型指标说明单位
CPU相关指标cpu_utilCPU使用率,计算方式为排除idle、wait、steal后的占比百分号(%)
内存相关指标mem_util内存使用率百分号(%)
磁盘相关指标disk_utilIO使用率百分号(%)
网络相关指标net_err_util报错数据包占总数据包的比值百分号(%)
系统相关指标system_load1系统平均负载,1分钟平均值不涉及

有关云服务器的更多指标(总计46个),可以关注SLS官方文档:《采集主机监控数据》(https://help.aliyun.com/document_detail/171717.html)




使用流程


数据接入


进入SLS控制台,选择接入数据中的主机监控,可以进入如下界面:



以呼和浩特集群为例,在选择了目标ProjectMetricStore之后,您可以选择要监控的ECS机器,组合成机器组:



这里选择的机器组要安装配置Logtail:



Logtail安装成功,心跳正常后,就可以开始采集主机的监控数据啦。您只需要配置如下规则即可采集到对ECS的各项监控指标数据。有关配置参考官方文档《采集主机监控数据》(https://help.aliyun.com/document_detail/171717.html)


点击左下角的开启指标巡检,SLS的机器学习服务将为您实时自动分析监控指标时序数据。智能巡检服务通过机器学习,神经网络等AI算法,以流式的方式不断学习历史数据,对当前的指标状态进行异常分析。有关算法详情请见《SLS机器学习服务简介》(https://help.aliyun.com/document_detail/172129.html)。


至此,我们已经完成了ECS主机监控以及时序指标巡检的全部配置。完成配置后,您的目标project下将被创建如下工程:



其中,主机监控 与 主机监控-ML 分别是指标数据可视化与异常检测结果可视化两个大盘,您可以在上面看到您所监控的ECS指标整体情况与健康度情况。




巡检结果与可视分析



主机监控-ML



上面两图展示了异常巡检结果的大盘。从图中,我们可以对所监控的机器进行智能化的分析。SLS机器学习服务会为您自动学习历史数据,判断当前指标的异常与否,将结果汇总于大盘。


您可以通过通过大盘看到整体汇总的异常信息,以及单指标上的异常位置(三角形符号标识)。点击异常点进入,可以看到该机器整体指标的变化情况。


主机监控



在主机监控大盘中,您可以看到该机器更加详细的指标变化情况。


您可以通过观察指标的变化来判断当前ECS的健康状态,设置相应的告警,辅助您的运维或运营工作。




日志进阶


阿里云SLS(原日志服务)针对日志与指标监控提供了完整的解决方案,以下相关功能是日志进阶的必备良药:


1. 机器学习服务:

https://help.aliyun.com/document_detail/172129.html


2. 机器学习语法与函数:

https://help.aliyun.com/document_detail/93024.html


3. 时序存储:

https://help.aliyun.com/document_detail/171723.html


4. 日志上下文查询:

https://help.aliyun.com/document_detail/48148.html


5. 快速查询:

https://help.aliyun.com/document_detail/88985.html


6. 实时分析:

https://help.aliyun.com/document_detail/53608.html


7. 快速分析:

https://help.aliyun.com/document_detail/66275.html


8. 基于日志设置告警:

https://help.aliyun.com/document_detail/48162.html


9. 配置大盘:

https://help.aliyun.com/document_detail/69313.html


更多日志进阶内容可以参考:日志服务学习路径(https://help.aliyun.com/learn/learningpath/log.html)。





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存