vSphere 故障排错思路总结
1 、故障排查思维逻辑
故障排查涉及到整体的排错方法论,总体而言,故障排查需要遵循一个工作逻辑:
确认问题状况
o 确认问题所在
o 收集故障相关问题
确认导致故障的原因
o 确认什么原因导致的问题
o 诊断问题的根本原因是什么
解决问题
o 制定可能的解决方案
o 评估数据安全风险
o 执行最佳解决方案
2 、故障排查逻辑图示(流程及细节)
图示说明:
配置问题、软件 Bug、硬件故障是三种最为常见的故障
软件 bug 示例
o 在 ESXi 5.5 u1 或 u2 中存在这样一个常见的软件 Bug:网卡原因紫屏事件
硬件故障示例
o 若主机 HBA 卡电池出问题,可能会在写上面会有很差的表现
3 、vSphere 常规故障分层
4 、故障解决 E2E
故障状态 | 故障原因 |
1 个或多个 LUN 不可见 | LUN 不可见,存储可能没有恰当的 MAP 到主机 |
无法通过 vSphere Web Client 连接 vCenter | VirtualCenter Service 没有启动 |
Virtual Machine 无法启动 | 文件可能被锁定,文件可能丢失 |
5 、案例流程 - 故障状态(示例)
6 、案例流程 - 日志搜集(收集日志信息,用于进行故障分析)
7 、案例流程 - 可能性分析
利用结构化思维来进行故障分析,可以有效提高排错效率;
根据问题的提示,按照下图所示排错流程来进行排错
图示说明:
自上而下进行排错
自下而上进行排错
从中间环节排错
8 、案例流程 - 查找问题的根源
通过反复测试,来确认问题的根源所在,例如:VM 无响应的排错逻辑:
图示说明:
如果仅仅是单台虚拟机无响应,建议自上而下
若涉及很多虚拟机响应慢,建议从中间环节
存在告警,建议从下而上
9、案例流程 - 解决问题
完成问题根源定位之后,评估问题可能带来的影响
o 较大影响 - 立即解决
o 一般影响 - 条件许可的情况下解决
o 较小影响 - 有空解决
制定解决问题的方案
o 头疼医头 - 立刻就事论事解决问题
o 头疼医脚 - 避免同一个问题再次发生
o 长远考虑 - 整体考虑,从未来的思路触发去执行问题处理
10、vSphere 常规故障排查流程 - 追根溯源(图示)
图示说明:
此处以 vMotion 为例,其它故障与此类似
11、vSphere 排错组件归纳
上文摘自《技术资料整理归集——vSphere 虚拟化优化与排错》,由社区会员上传分享,具体排错步骤、工具,可以点击阅读原文下载该文档。或关注我们后续的推送文章。
长按二维码关注公众号