Hadoop JMX监控和预警

Original 大数据学习与分享大数据学习与分享 2022-07-29

收录于合集

#Hadoop 23 个

#监控系统 5 个

Hadoop slave node会定期发出一些metrics信息来反映服务的健康状况，服务团队可以通过查看这些metrics来了解服务是否处于健康状态，并回溯了解历史表现。一些典型的用例是：

对HBase集群中RegionServer（堆使用情况）、RPC处理metrics和region有效性等预先警告
通过metrics历史dashboard进行故障排除
来自客户端的NameNode RPC流量非常高，确定客户端的来源，并从审核日志中grep用户
用户可以灵活地为每个监控的metric设置阈值，并在不重写或从头创建策略的情况下获取警报通知
关于生成异常RPC流量的HDFS客户端的通知
提取RPC处理时间异常的DN/RS列表

Metrics收集器和Agent

通常我们获取Hadoop集群 metrics信息，主要通过两种方式进行：

1.在每个节点中部署一个独立的JMX client

以HBase集群为例，监控HBase集群服务器堆使用情况、RegionServer的RPC处理metrics等。那么可以在每个从属节点（或者是选定的一个节点集）部署JMX client。

2.在Hadoop的metrics系统中添加JMX sink

JMX sink需要根据Hadoop的metrics接口开发，并嵌入Hadoop运行时环境中。

对于通过构建JMX client来收集JMX metrics，那么最好有一个agent（代理）来监控JMX client是否工作良好，否则如果有些JMX client停止工作，可能会出现一些JMX数据丢失。

如果我们使用JMX sink收集数据，则JMX client不需要代理，毕竟数据收集生命周期与守护程序生命周期相同。

对于收集的metrics数据，建议先写入Kafka，作为一个"分布式缓存层"，以将JMX client和metrics最终的存储系统解偶，避免JMX数据的存储延迟。

JMX监控和预警

目前Hadoop集群监控的方式很多，比如Restful API，具体Hadoop组件内置的API、JMX等。但具体采取哪种方式，则取决于我们的实际生产需求。

Hadoop的JMX提供了诸如Cluster、NameNode、JVM、FSQueue等Metrics信息，而且获取它也是非常地方便。比如想获取NameNode相关的JMX，我们可以直接请求http://ip:50070/jmx（ip为HDFS集群中active NameNode所在节点IP地址）获取JMX信息（如果想获取Yarn的JMX，则将ip换为active ResourceManager节点所在节点地址，端口改为8088请求即可）。

JMX相关信息的接口是在类org.apache.hadoop.jmx.JMXJsonServlet中实现的，返回的信息是json结构。示例：

http://bigdatalearnshare01.com:50070/jmx

返回信息：

{ "beans": [ { "name": "Hadoop:service=NameNode,name=JvmMetrics", "modelerType": "JvmMetrics", "tag.Context": "jvm", "tag.ProcessName": "NameNode", "tag.SessionId": null, "tag.Hostname": "bigdatalearnshare01.com", "MemNonHeapUsedM": 106.66022, "MemNonHeapCommittedM": 109.15625, "MemNonHeapMaxM": -1.0, "MemHeapUsedM": 425.97473, "MemHeapCommittedM": 1011.25, "MemHeapMaxM": 1011.25, "MemMaxM": 1011.25, "GcCountParNew": 172404, "GcTimeMillisParNew": 923008, "GcCountConcurrentMarkSweep": 103, "GcTimeMillisConcurrentMarkSweep": 14309, "GcCount": 172507, "GcTimeMillis": 937317, "GcNumWarnThresholdExceeded": 0, "GcNumInfoThresholdExceeded": 1, "GcTotalExtraSleepTime": 70879, "ThreadsNew": 0, "ThreadsRunnable": 7, "ThreadsBlocked": 0, "ThreadsWaiting": 11, "ThreadsTimedWaiting": 72, "ThreadsTerminated": 0, "LogFatal": 0, "LogError": 0, "LogWarn": 308137, "LogInfo": 39725604 }, -- 此处省略一万字 ......}

从上面的结果看出，如果直接请求：

http://bigdatalearnshare01.com:50070/jmx

返回的信息很庞大，但其中有很多我们不需要的冗余信息。如果我们只想获取NameNode状态怎么办呢？这就要介绍JMXJsonServlet支持的参数：qry。

qry

回到刚才的问题，只想获取NameNode状态怎么办呢？其实很简单，直接请求下述URL即可：

http://bigdatalearnshare01.com:50070/jmx?qry=Hadoop:service=NameNode,name=NameNodeStatus

返回信息：

{ "beans": [ { "name": "Hadoop:service=NameNode,name=NameNodeStatus", "modelerType": "org.apache.hadoop.hdfs.server.namenode.NameNode", "NNRole": "NameNode", "HostAndPort": "bigdatalearnshare01.com:8020", "SecurityEnabled": false, "LastHATransitionTime": 1618163473872, "BytesWithFutureGenerationStamps": 0, "SlowPeersReport": null, "State": "active" } ]}

我们也可以指定通配符，比如：http://bigdatalearnshare01.com:50070/jmx?qry=Hadoop:*将会返回所有name为Hadoop:开头的JMX信息。

如果查询的添加没有找到，将会返回{}。在Hadoop内部，这个参数的应用可参考接口MBeanServer中的方法：

public Set<ObjectName> queryNames(ObjectName name, QueryExp query)

　　
除参数qry外，JMXJsonServlet还支持参数callback、get。

callback

用于需要JSONP响应的请求。JSONP(JSON with Padding)是JSON的一种"使用模式"，可用于解决http请求的跨域访问问题。使用这个参数之后HTTP头的ContentType变成了application/javascript; charset=utf8，并且返回的Json被callback参数的值和()包围了（JSONP的一种方式处理）。

访问示例的URL：http://bigdatalearnshare01.com:50070/jmx?callback=bigdatalearnshare（bigdatalearnshare在这里是指用户名）

　　
get

如果我们想获取JMX某个属性的值，可以使用get参数。这个参数的值要求是MXBeanName::AttributeName格式的。

以Yarn为例，如果想获取某个队列的tag.Queue属性的值，我们可以这么请求：

http://bigdatalearnshare01.com:8088/jmx?get=Hadoop:service=ResourceManager,name=QueueMetrics,q0=root,q1=bigdata_test::tag.Queue

返回信息：

{ "beans": [ { "name": "Hadoop:service=ResourceManager,name=QueueMetrics,q0=root,q1=g4_q450", "modelerType": "QueueMetrics,q0=root,q1=g4_q450", "tag.Queue": "root.g4_q450" } ]}

如果get参数值的格式不对，服务器将返回异常信息：

{ "result": "ERROR", "message": "query format is not as expected."}

我们可以重新解析这些JMX信息，从而可以监控Hadoop集群、队列、jvm使用情况等。

关注大数据学习与分享，获取更多技术干货

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

Hadoop JMX监控和预警

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

Hadoop JMX监控和预警

您可能也对以下帖子感兴趣