域名转移出问题,IBM的全球负载均衡和反向DNS服务遭殃
域名注册服务商使得关键的域名处于暂停解析状态。这对于像IBM这样的庞大云来说够糟糕吗?
一家域名注册服务商给IBM造成了DNS大混乱,结果蓝色巨人的云全球负载均衡服务和反向DNS服务受到了影响。
IBM在发给客户的电子邮件中表示,9月6日,“两家域名注册服务商之间批量转移域名的过程中,两个域名(global-datacenter.com和global-datacenter.net)被负责发送的那家域名注册服务商无意中置于客户暂停解析(client hold)状态,没有转移到负责接收的那家域名注册服务商。”
WHOIS搜索表明两者解析至ns1.softlayer.net和ns2.softlayer.net。
这次混乱“导致那些域名变得访问不了。除了反向DNS服务外,这进而还影响了依赖那些域名的全球负载均衡(GSLB)服务。”
WHOIS显示,这些域名由一家名为MarkMonitor的公司管理,我们联系对方请它发表评论,以证实这家公司在此事件中有无过错。截至本文发稿时,该公司尚未回复我们的邮件,打过去的电话自动转入到语音邮箱。
IBM在客户通知中表示:“云基础设施部门正与相关的域名注册服务商合作,尽快解决这个问题,让受到影响的域名摆脱客户暂停解析状态,那样才能全面恢复GSLB服务和反向DNS服务。此外,在域名注册服务商收拾残局之前,已采取了临时的纠正措施,部分恢复反向DNS服务的功能。”
供应商可能是任何一条链中的薄弱环节。然而,确保任何一家云服务提供商的价值主张的一个重要因素是格外注重弹性(resiliency),也就是基础设施有多个冗余层,以便在极端情形下确保服务正常运行。因此,一家供应商的错误就能拖累IBM的云确实不同寻常。前不久IBM刚出了一回糗:关闭TLS 1.0支持功能,却没有足够提前地事先告知客户应对这次更改(https://www.theregister.co.uk/2017/08/10/ibm_cloud_turns_tls_10_off_and_then_turns_it_on_again/)。IT外媒The Register当时获悉,那次更改事件让客户纷纷怨声载道,于是半小时后IBM赶紧恢复了对TLS 1.0的支持。现在又上演了这么一出,蓝色巨人的云能力有多强大也就可想而知了。
话说回来,云方面出问题的并非IBM这一家。The Register发现,谷歌因不尽如人意的更新而搞砸自己的云这种事起码发生过五次。本周早些时候,Azure也遇到过类似的问题,当时云Active Directory提供低于标准的性能。当然,AWS搞砸过自己的S3云存储服务,导致互联网上相当一部分的网站瘫痪了好几天。
但是那三大云对于故障事件基本上满不在乎。可是对IBM来说涉及的利害更大,因为调研公司Gartner最近评价IBM的云:“缺少大中型企业客户所需要的许多云IaaS功能”,而且有可能无法如期增添功能特性,以便与竞争对手的服务难分伯仲。