一起同城存储双活典型故障事件的处理
【摘要】一起典型的同城存储双活故障事件的分析、原因定位及经验总结。
【作者】mac2008,一名从事IT行业10多年的老兵,曾分别获得IBM CATE、HP CSA、SUN SCSA、VMware VCP、HUAWEI HCNP等多项专业认证,就职于某大型互联网上市公司。一、 故障概述
业务系统中断,部分虚拟机无法访问。通过VMware vsphere 控制台登录检查发现,虚拟机灰色状态,部分共享存储不可访问。
二、 故障处理
1. 硬件环境说明
硬件环境是做的同城存储双活,本地是一台EMC Vplex存储网关纳管2台EMC存储,前端是VMware ESXI主机集群,异地也是一台EMC Vplex 纳管2台EMC存储,前端是VMware ESXI主机集群,具体硬件架构如下图:
2. 故障分析处理
第一步:首先检查EMC VPlex存储网关和EMC存储,设备状态运行正常,排除EMC VPlex存储网关和EMC存储硬件故障。
第二步:检查SAN光纤交换机,第一眼看SAN交换机端口都是online状态,没有在意继续排查。
第三步:由于是EMC双活环境,对其中一台ESXi主机进行重启,重新识别共享存储,发现ESXI主机共享存储恢复正常访问,先恢复业务要紧呀。
第四步:通过逐台对ESXi主机进行重启,业务全部恢复正常。
第五步:收集EMC Vplex日志、VMware ESXI主机日志,配合厂商进一步分析。
3. 故障原因定位
第一步:通过VMware ESXI主机日志分析,存在如下报错信息:
vmkernel日志中显示 All Paths Down (APD) error ,时间在 00:06 UTC time,输出如下:
ESXI主机不能访问存储lun的原因是因为发生了All Path Down,会使得ESXI主机短暂丢失对datastore的访问,这段时间内IO error出现都是可能的。
现在初步判断:ESXI主机部分无法访问共享存储是因为发生了All Path Down导致,接下来故障原因聚焦在ESXI主机到共享存储多路径上。
第二步:重新检查SAN交换机端口状态,对2个站点光纤交换机SFP长波级联模块以及光纤链路进行光信号强度进行测试,发现生产中心到灾备中心直连光纤链路光衰较大,RX分别是-16dBm、-17dBm,偏离EMC存储双活环境推荐范围值。
EMC官方建议:EMC建议RX的收光功率最好大于-7dBm。日常实践证明,如果8G链路的收光功率小于-10dBm,交换机基本无法正常接收光信号。
第三步:进一步确认由于生产中心到灾备中心直连光纤链路光衰较大,导致EMC VPlex Metro Mirror 延时异常,生产中心部分共享存储发生All Path Down,从而导致虚拟机不可访问。中断EMC VPlex Metro Mirror, 协调运营商对生产中心到灾备中心直连光纤链路信号衰减进行修复。
第四步:运营商对生产中心到灾备中心直连光纤链路信号提高大于-7dBm后 ,重新进行EMC VPlex Metro Mirror存储数据同步,VMware 虚拟化平台主机运行恢复正常。
三、 技术分析
1、 SFP模块光功率信号强度分析
FC(fibre channel)交换机使用光信号传输数据,交换机的SFP/GBIC模块负责接受/发送光信号,并完成光/信号的相互转换。如果SFP模块接受/发送的光信号强度不够,势必会影响到上层FC链路的稳定性。一个优秀的SFP/GBIC模块是FC链路稳定的最基本保障。
衡量方法:
业界常见衡量光信号强度方法有两种:Microwatts(mW)和dBm,不同平台交换机采用方式可能会不一样,部分会选择mW,部分会选择dBm。SFP光模块信号强度通常包含两个指标,分别是Tx Power和Rx Power。Tx Power代表SFP模块发送方向的光信号强度;Rx Power代表SFP模块接受方向的光信号强度。
mW和dBm之间联系:
mW通过功率方式描述光信号强度,dBm是decibel of the measured power to one millwats的简称,通过分贝方式描述光信号功率比。Cisco交换机使用dBm方式,Brocade交换机使用mW方式。两者可以通过以下公式互相转换:
dBm -> mW:
mW -> dBm:
EMC推荐光信号强度范围:
常见速率最大可接受光衰减范围:
• 8Gbps最大可接受信号衰减值:-13.8dBm
• 4Gbps最大可接受信号衰减值:-15.4dBm
• 2Gbps最大可接受信号衰减值:-18.2dBm
EMC的推荐范围比Cisco/Brocade交换机自带范围要小,最小信号强度相对高一些,最强信号强度相对低一些。EMC建议RX的收光功率最好大于-7dBm。日常实践证明,如果8G链路的收光功率小于-10dBm,交换机基本无法正常接收光信号。
如下图说明:
2、 VMware ESXI主机共享存储卷路径设置策略
由于生产环境是EMC VPlex 存储双活环境,对于VMware存储卷路径设置策略就比较有讲究,由于主要业务系统虚拟机都在生产环境站点,EMC官方推荐路径策略采用 固定 模式。
四、 故障总结
通过本次同城存储双活故障处理,总结一下经验:
1、 生产端与灾备端的SAN光纤交换机级联SPF模块及链路RX的收光功率最好大于-7dBm。
2、 EMC VPlex 存储双活环境VMware存储卷路径设置推荐采用固定模式。
3、 EMC VPlex 仲裁服务器Witness推荐放置第三站点。
原题:同城存储双活故障处理技术案例分享如有任何问题,可点击文末阅读原文,到社区原文下评论交流 觉得本文有用,请转发或点击“在看”,让更多同行看到
资料/文章推荐:
某银行基于存储分域的存储双活架构改造方案
http://www.talkwithtrend.com/Article/244239
核心系统存储双活三大难点解读
http://www.talkwithtrend.com/Article/217175
存储双活在实施过程中不可避免的4个问题
http://www.talkwithtrend.com/Article/178635
欢迎关注社区 "存储双活" 技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。地址:http://www.talkwithtrend.com/Topic/1431
下载 twt 社区客户端 APP
与更多同行在一起
高手随时解答你的疑难问题
轻松订阅各领域技术主题
浏览下载最新文章资料
长按识别二维码即可下载
或到应用商店搜索“twt”
*本公众号所发布内容仅代表作者观点,不代表社区立场