2019年最佳8大IT基础设施监控工具

Original: 蒋洲令翻译云技术 2019-06-03

所有IT部门都在面临这个问题。当服务器，网络和应用出现问题时，他们必须尽快做出反应。这些情形往往具有破坏性和高压性，并可能引发影响整个组织运营（和利润）的停机时间。根据去年的报告，平均IT停机损失高达155万美元。更严重的问题是，暴力事件导致每年545小时的员工产能损失。

出于这些原因，企业越来越多地投资于应用性能监视（APM）和服务器监控软件以及其他解决方案。由于“基础设施监控是否是企业所需的解决方案”已经不再是问题，因此问题就变成了应该使用哪些监控工具。

Romexsoft 系统运维和技术支持团队缩小了以下列表，供我们参考。

1. 最佳IT基础设施监控工具评估

服务器和网络监控工具的目标是确保IT服务 24x7 小时全天候稳定运行，并在出现任何问题时告警给IT支持人员。这样，我们可以最大化正常运行时间并制定更好的灾难恢复计划。

一般来说，所有工具都有共性，但又不尽相同。以下列出了我们认为最佳的工具列表。

1.1. Zabbix

Zabbix可以说是市场上最流行和健壮的实时监控解决方案之一。Zabbix是开源的，它具有一套简洁的特性，拥有完善可靠的文档，并且由活跃的社区用户更新和支持。其他好处还包括它有良好的易用性，当然，它提供了一个不受制于任何供应商锁定的解决方案。

Zabbix 的众多亮点之一是它能够预测流量趋势并根据收集历史数据来提供系统行为预测。

主要特点：

主动监控
容量规划
内置Java应用服务器监控功能
硬件监控
网页服务
虚拟机监控

Zabbix 可以配置为各种行业提供监控解决方案 —— 从航空航天到金融和零售，同样也适用于大中型企业。Romexsoft 团队依靠此工具为客户提供24x7全天候IT支持。

1.2. Prometheus

这是我们团队最喜欢的另一个开源监控工具，它基于时间序列数据提供详细的基础设施洞悉能力。它是监控高动态环境（如AWS上的容器）的可靠选择。

从本质上讲，Prometheus 爬取（scrape）指标，在本地存储所有采样数据并在数据之上运行其“规则”（rule）来聚合或生成告警。

Prometheus 的主要优势包括：

它既适用于以机器为中心的架构的监控，又适用于面向服务的架构的监控；
它是服务中断期间“首选”的完美工具，因为它使得用户能够快速诊断问题；
即使在故障情况下，用户也始终可以查看系统的统计信息（每个Prometheus服务器都是独立的）。

1.3. Grafana

Grafana 是一款用于时间序列的、免费的、出色的分析和监控工具。它使我们能够创建有吸引力的、一目了然的全局数据可视化图像。特别是我们可以可视化系统CPU，内存，磁盘和 I/O 利用率等指标。Grafana这个工具比较万能，我们可以创建来自不同数据源的自定义仪表板和特征数据，并将它们展示为曲线图，单一状态图，表格，热图或自由文本。

Grafana可以轻松的与 Prometheus、Graphite、InfluxDB、MySQL、PostgreSQL 和 Elasticsearch 集成，还可以通过插件与更多的其他数据源连接。虽然Grafana 不是一个独立的解决方案，但它是一个值得考虑进监控体系的优秀插件。我们团队利用Prometheus与Grafana集成来作为作为许多客户的解决方案。

1.4. ManageEngine OpManager

ManageEngine OpManager 是一款综合全面的性能监控工具，可提供服务器监控，并允许我们主动管理网络，执行网络配置和网络流量分析，它还有一个应用性能管理插件。但它必须安装到每个目标节点上才能正常使用。

为了满足我们的需求，我们可以设置可自定义的仪表板来监控不同组件的网络和指标。我们还可以将其用于 LAN/WAN 监控，并接收详细的流量路径可视化，查看带宽流量监测并运行各种网络系统性能指标的测定。

与前面的几个工具不同，ManageEngine 属于收费工具，它将会根据业务需求提供定制性报价。

1.5. Amazon CloudWatch

Amazon CloudWatch 可以为我们提供更好的应用性能、资源利用率、整体云基础设施监控状况的可视化能力，并帮助我们识别和纠正问题。

CloudWatch 使我们能够以日志、指标和事件的形式收集运维数据。该工具在AWS和本地服务器上运行，这意味着我们可以真正获得所有资产的统一视图。其仪表板是可配置的，允许管理员指示AWS根据预定义事件采取特定操作。

如果我们最近将基础设施迁移到AWS云，应考虑使用此云基础设施管理软件，至少应该用到某些容量的规划上。

1.6. WhatsUp Gold 2017

如今是2019年，但这个网络系统监控工具仍是市场上最简单和最可配置的工具之一，即使是现在。

其中一些亮点包括以下内容：

它最新的“plus”版本包括混合云监控，实时性能，自动和手动故障转移，以及分布式网络的可视化；
高度可定制的告警系统，可包括电子邮件，文本，松弛告警，IFTTT推送，服务重启和Web警报；
自动发现和整个网络映射；
伴随移动应用可以随时洞察应用监控；

WhatsUp Gold 可为不同的用户提供完全可定制且极其友好的仪表板。

缺点？只有一个——它仅对Windows操作系统提供支持。

1.7. Icinga

Icinga 是最好的免费监控工具之一，它企业和初创公司的热门选择。它的优势在于适应于各种规模组织的灵活性，它致力于监控基础设施和服务。

而且，它提供了很好的阈值分析和清晰的报告和告警。这些都可以友好的显示在仪表板上，并可以通过邮件，短信或其他消息应用进行分发。

此外，它还可以连接到许多流行的 DevOps 工具，为我们的业务需求创建更加个性化的监控解决方案。这些包括 Chef，Puppet，Graylog，Ansible 等。

1.8. Datadog

Datadog 被设计成一个为混合云生态系统提供监控的服务，它也可以配置为网络、服务和应用性能提供监控。实际上，它附带了业内最大受支持应用的集成列表，我们可以安插这些集成来获得整个生态系统的统一视图。

该工具可以聚合以下指标和事件：

SaaS和云提供商
自动化工具
数据库和通用服务器组件
监控和仪表工具
源代码控制和错误跟踪解决方案

用户根据一系列可选的图形、指标和警报来轻松自定义可视化仪表板和报告。拥有最多五台主机的小公司，可以免费获得Datadog。专业版和企业版则要按每主机定价收费。

2. 实施IT基础设施监控的好处

其实只需从工具的描述中，就可以很容易地收集使用基础设施监控的好处。但是，为了总结它们，这里列出了我们可以获得的确切商业利益。

2.1. 获得基于数据的洞悉而不是主观或预感

任何组织的IT部门都是一种宝贵的资产（commodity），负责其它每个部门的平稳运营，从人力资源到销售、市场、客户服务等。监控允许IT专业人员发掘和洞察有关潜在的问题，尤其是在组织发展壮大并对当前系统造成更多压力时。这些洞悉将转化为基于可靠信息的建议和决策。

2.2. 在早期发现问题

使用主动监控工具意味着我们可以在问题成为灾难前收到告警。监控发现的细微差异和早期征兆将使得我们的IT人员能够预测潜在的问题并规避它们。

这是一种远比灾难发生后才试图救火更加高效的方法————在问题还是星星之火时就抓住并扑灭它们才是最好的办法。

2.3. 计划升级和IT预算

随着组织的发展，当前基础设施的压力也在增长，细致的监控可以指出那些在计划升级时要优先处理的地方。反过来，预算计划也得到了加强。

2.4. 减少停机时间

当然，这是底线。停机会导致终端用户的工作效率降低。订单执行停滞不前; 物流受到影响; 客户服务受到负面影响等。如果这些事情经常发生，商业损失就会发生。

原文链接：

https://dzone.com/articles/best-it-infrastructure-monitoring-tools-in-2019

↓↓ 点击"阅读原文" 【加入云技术社区】

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…