查看原文
其他

DBA的一天丨业务高峰期使用智能诊断高效定位问题根因

云和恩墨
2024-11-12

今年7月我们推出的“《DBA的一天》新传”漫画深受大家好评,今天我们就针对漫画中DBA在业务高峰期使用 zCloud 的智能诊断功能来高效定位问题根因,给大家做个详细讲解。

数据库故障诊断并不好做,因为系统太复杂了,数据库本身就有数百个相互关联的参数,牵一发而动全身。加上数据库运行的复杂环境,包括不同类型不同厂商的操作系统、服务器、网络、存储、虚拟机、集群、容器等等,复杂度指数级提升。

在人工诊断的模式中,专家首先基于自己的经验,穷举诊断路径,逐步缩小诊断范围,最终定位问题。当专家个人无法定位问题时,需要通过知识库查找或向外求助来扩大诊断范围,并逐一排查,最终定位问题。这就形成了传统的人工运维模式。

在 zCloud 中,智能诊断和人工诊断的路径相似,但智能诊断的诊断路径来源于专家知识、案例积累、历史数据等多种渠道,数量远远多于专家诊断。同时,智能诊断利用关联性分析,对诊断路径快速收敛,叠加机器的算力,形成相对人工诊断更快速更准确的发现和定位问题;并且,新的诊断过程和结果回馈给系统积累成新的经验,为以后的诊断提供帮助。zCloud 智能诊断形成平台化的新模式。

让我们从一个 zCloud 帮助用户快速溯源问题的真实案例看起。

上下滑动发现根因


DBA在巡查时,在 zCloud 问题列表中发现系统记录了一个“等待/阻塞的活动会话过多或过长”的严重问题,问题持续半小时后消失。

这类事件虽然问题消失了但很可能复现,为避免业务变慢甚至中断,必须回溯定位根因。

通过智能诊断的详细记录,整个回溯过程快捷直观方便,只需点击几下鼠标就可以定位。

1、查看详情。

2、查看诊断树,zCloud 已经给出的关键诊断路径,找到故障根因。

3、继续往下查看诊断树,在另一诊断路径中,最终找到引起阻塞的罪魁祸首。

如果使用人工诊断方式来定位这个问题,将复杂的多:

1、DBA要导出覆盖阻塞持续时间段的AWR、ASH报告、日志等数据,找到排前两位的TOP事件。

2、继续在AWR报告中查找TOP等待事件相关指标,结合自己的经验判断出是行锁引起的阻塞。

3、借助AWR和ASH以外的数据,查询Oracle视图中的锁表,找到引起阻塞的行锁。

4、查找历史数据,用排除法最终定位到具体的DDL操作。

这个过程往往耗费数个小时,并且问题定位、解决也因DBA的经验积累不同而耗时不同。

zCloud 将DBA从大量的原始数据、代码中释放出来,将繁杂的数据库记录可视化,事件全生命周期记录。

只需点击几次鼠标,就可以查询事件持续过程中的详细数据,并智能关联生成诊断树,使问题定位的过程大大简化。

除此之外,zCloud 智能诊断更有单实例的实时监测评分、健康度评分曲线,体现非告警范畴的的数据库波动,提前识别亚健康、故障趋势,同时给出推荐的解决方案。

zCloud 智能诊断提供事前分析预防、事中精准监控、事后快速恢复的端到端运维机制,保障业务稳定运行。



END



“墙裂”推荐


数据驱动,成就未来,云和恩墨,不负所托!


云和恩墨创立于2011年,以“数据驱动,成就未来”为使命,是智能的数据技术提供商。我们致力于将数据技术带给每个行业、每个组织、每个人,构建数据驱动的智能未来。

云和恩墨在数据承载(分布式存储、数据持续保护)、管理(数据库基础软件、数据库云管平台、数据技术服务)、加工(应用开发质量管控、数据模型管控、数字化转型咨询)和应用(数据服务化管理平台、数据智能分析处理、隐私计算)等领域为各个组织提供可信赖的产品、服务和解决方案,围绕用户需求,持续为客户创造价值,激发数据潜能,为成就未来敏捷高效的数字世界而不懈努力。
继续滑动看下一个
云和恩墨
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存