我们都是架构师!
关注架构师(JiaGouX),添加“星标”
获取每天技术干货,一起成为牛逼架构师
技术群请加若飞:1321113940 进架构师群
投稿、合作、版权等邮箱:admin@137x.com
目录
学习目标
任务背景
任务要求
任务分析
Prometheus 实战
学习目标
如下:
能够安装 prometheus 服务器
能够通过安装 node_exporter 监控远程 linux
能够通过安装 mysqld_exporter 监控远程 mysql 数据库
能够安装 grafana
能够在 grafana 添加 prometheus 数据源
能够在 grafana 添加监控 cpu 负载的图形
能够在 grafana 图形显示 mysql 监控数据
能够通过 grafana+onealert 实现报警
任务背景
某某某公司是一家电商网站,由于公司的业务快速发展,公司要求对现有机器进行业务监控,责成运维部门来实施这个项目。
任务要求
如下:
部署监控服务器,实现 7x24 实时监控
针对公司的业务及研发部门设计监控系统,对监控项和触发器拿出合理意见
做好问题预警机制,对可能出现的问题要及时告警并形成严格的处理机制
做好监控告警系统,要求可以实现告警分级,一级报警:电话通知;二级报警:微信通知;三级报警:邮件通知
处理好公司服务器异地集中监控问题,K8S 内部使用的监控系统就是普罗米修斯
任务分析
为什么要监控?答:实时收集数据,通过报警及时发现问题,及时处理。数据为优化也可以提供依据。
监控四要素:
监控对象 [主机状态 服务 资源 页面,url]
用什么监控 [zabbix-server zabbix-agent] => 普罗米修斯监控
什么时间监控 [7x24 5x8]
报警给谁 [管理员]
Prometheus 实战
https://prometheus.io/docs/introduction/overview/
①什么是序列数据
时间序列数据(TimeSeries Data):按照时间顺序记录系统、设备状态变化的数据被称为时序数据。
应用的场景很多,如:
无人驾驶车辆运行中要记录的经度,纬度,速度,方向,旁边物体的距离等等。每时每刻都要将数据记录下来做分析。
某一个地区的各车辆的行驶轨迹数据
传统证券行业实时交易数据
实时运维监控数据等
②时间序列数据特点
性能好:关系型数据库对于大规模数据的处理性能糟糕。NOSQL 可以比较好的处理大规模数据,让依然比不上时间序列数据库。
存储成本低:高效的压缩算法,节省存储空间,有效降低 IO。
Prometheus 有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用 3.5byte 左右空间,上百万条时间序列,30 秒间隔,保留 60 天,大概花了 200 多 G(来自官方数据)。
③Prometheus 的主要特征
如下:
多维度数据模型
灵活的查询语言
不依赖分布式存储,单个服务器节点是自主的
以 HTTP 方式,通过 pull 模型拉去时间序列数据
也可以通过中间网关支持 push 模型
通过服务发现或者静态配置,来发现目标服务对象
支持多种多样的图表和界面展示
④普罗米修斯架构原理
1️⃣静态 ip(要求能上外网)
3️⃣时间同步(时间同步一定要确认一下)
①安装 prometheus
https://prometheus.io/download/
②Prometheus 界面
③主机数据展示
在 web 主界面可以通过关键字查询监控项:
④监控远程 Linux 主机
在远程 linux 主机(被监控端 agent1)上安装 node_exporter 组件。
https://prometheus.io/download/
扩展:nohup 命令。如果把启动 node_exporter 的终端给关闭,那么进程也会随之关闭。nohup 命令会帮你解决这个问题。
练习:加上本机 prometheus 的监控。答:在本机安装 node_exporter,也使用上面的方式监控起来。
⑤监控远程 MySQL
①什么是 Grafana
https://grafana.com/
②使用 Grafana 连接 Prometheus
https://grafana.com/grafana/download
③Grafana 图形显示 MySQL 监控数据
在 grafana 上修改配置文件,并下载安装 mysql 监控的 dashboard(包含相关 json 文件,这些 json 文件可以看作是开发人员开发的一个监控模板)。
https://github.com/percona/grafana-dashboards
点 import 导入后,报 prometheus 数据源找不到,因为这些 json 文件里默认要找的就是叫 Prometheus 的数据源,但我们前面建立的数据源却是叫 prometheus_data(坑啊)。
那么请自行把原来的 prometheus_data 源改名为 Prometheus 即可(注意:第一个字母 P 是大写)。
④Grafana+onealert 报警
Prometheus 报警需要使用 alertmanager 这个组件,而且报警规则需要手动编写(对运维来说不友好)。所以我这里选用 grafana+onealert 报警。注意:实现报警前把所有机器时间同步再检查一遍。
保存后就可以测试了,如果 agent1 上的 cpu 负载还没有到 0.5,你可以试试 0.1,或者运行一些程序把 agent1 负载调大。
测试 MySQL 链接数报警:
⑤总结报警不成功的可能原因
如下:
各服务器之间时间不同步,这样时序数据会出问题,也会造成报警出问题
必须写通知内容,留空内容是不会发报警的
修改完报警配置后,记得要点右上角的保存
保存配置后,需要由 OK 状态变为 alerting 状态才会报警(也就是说,你配置保存后,就已经是 alerting 状态是不会报警的)
grafana 与 onealert 通信有问题
------------- END -------------
如喜欢本文,请点击右上角,把文章分享到朋友圈
如有想了解学习的技术点,请留言给若飞安排分享
·END·
相关阅读:
作者:果子哥丶
来源:https://blog.csdn.net/qq_39578545/article/details/108754585
版权申明:内容来源网络,仅供分享学习,版权归原创者所有。除非无法确认,我们都会标明作者及出处,如有侵权烦请告知,我们会立即删除并表示歉意。谢谢!
我们都是架构师!
关注架构师(JiaGouX),添加“星标”
获取每天技术干货,一起成为牛逼架构师
技术群请加若飞:1321113940 进架构师群
投稿、合作、版权等邮箱:admin@137x.com