新建集群 vs. 滚动升级:如何选择超融合服务器硬件平滑升级方案?
作者:深耕行业的 SmartX 金融团队 刘慧敏
在企业 IT 基础架构运维中,经常会遇到以下问题,从而需要对服务器硬件进行更换或升级:
服务器达到维护期限:通常在金融行业中,生产环境的服务器维护期限在 5 年左右,超过这一期限,服务器需进行下架。
服务器维护成本上升:服务器使用时间较长,硬件故障或老化会导致性能和稳定性下降,从而增加了企业在人力、物力等方面的运维成本。
服务器难以满足业务需求:随着业务的发展和需求的变化,早期购置的服务器配置无法满足当前的业务需求,升级服务器硬件便需提上日程。
问题是,在硬件升级的同时,运维人员应如何保障关键业务正常开展、性能和稳定性不受到升级影响?针对这一需求,SmartX 为运维人员提供了“新建集群”和“滚动升级”两种方案,帮助企业平稳实现基于超融合架构的服务器硬件替换与升级。下面我们将对两种方案进行详细对比,并通过 2 例实践案例,为用户提供方案选择和落地参考。
超融合服务器平滑升级方案
方案一:新建集群
利用新服务器组建一个新集群,将原集群的虚拟机通过跨集群迁移的方式迁移至新集群,从而完成服务器的平滑升级。
方案二:滚动升级
通过在原有集群中依次对服务器进行替换的方式,实现服务器平滑升级。滚动升级步骤如下:
迁移虚拟机:将原服务器节点上的虚拟机迁移至集群中其他服务器节点。
迁移数据:将原服务器节点上的存储数据迁移至集群中其他服务器节点。
移除节点:将原服务器节点从集群中移除。
下架服务器:将原服务器节点关机下架。
上架新服务器:将新服务器节点加电、连线和上架。
添加节点:新服务器节点加入至原集群中。
回迁虚拟机:将虚拟机回迁至新服务器节点上。
欲深入了解 SmartX 超融合对服务器硬件滚动升级的支持特性与用户实践,请阅读:如何做到 IT 基础架构软硬件升级简单又不停机?
平滑升级方案对比
以上提到的两种方案皆可实现超融合服务器硬件平滑升级。而两者分别适合什么样的升级环境?企业应如何选择合适的升级方案?我们可以从以下维度进行对比和评估。
业务连续性
在进行服务器硬件平滑升级时,需保障升级期间集群中的虚拟机业务不受影响。
这两种升级方案都涉及了虚拟机迁移操作。在滚动升级方案中,虚拟机迁移仅涉及计算资源迁移;在新建集群的方案中,虚拟机迁移包含了计算资源迁移和存储资源迁移。虽然这两种方案都可做到不影响虚拟机业务,但因新建集群涉及了存储迁移操作,当集群中存在对业务连续性和 I/O 低延迟要求较高的业务时,滚动升级方案会优于新建集群的方式。
服务器数量
滚动升级方案对新服务器数量并无限制,而新建集群方案中,需确保新服务器数量不低于 3 台。因此,当计划对集群中低于 3 台服务器进行升级时,仅能选择滚动升级方案。
虚拟机 CPU 兼容性
无论是新建集群方案还是滚动升级方案,都需要确保虚拟机可以顺利完成迁移操作。SmartX 超融合集群部署完成后默认会开启虚拟机 CPU 兼容性功能,根据当前宿主机的 CPU 类型和特性,为虚拟机选择一个最接近的 CPU 模型,同时可以让集群中的虚拟机都继承此 CPU 特性。这一功能可以让虚拟机在不同代数(Generation)的 CPU 中进行平滑迁移。此外,虚拟机也可自定义选择 CPU 兼容性,比如物理透传或者其他 CPU 的兼容性。
因此,为了确保虚拟机可以顺利完成迁移操作,目标主机或者集群的 CPU model 中必须包含待迁移虚拟机的 CPU model 指令集,并且虚拟机迁移到新集群或者目标主机后,此虚拟机依旧继承迁移前的 CPU model。
如果目标主机或者集群不满足平滑迁移条件,则需要将虚拟机进行关机后再进行迁移。
网络资源
在网络资源方面,滚动升级方案可复用原有配置,而新建集群方案需进行重新配置。这个维度主要考虑,当前集群是否具备新建集群的条件。新建集群需同时满足以下 3 个条件:
机房机柜预留了可放置新服务器的空间。
交换机预留了管理、存储以及业务网络的端口。
新集群有足够的地址为管理、存储以及业务等 IP 地址进行规划。
如果满足,则可以选择新建集群和滚动升级这 2 种方案;如不满足,则选择滚动升级的方式。
集群调整
在进行服务器硬件升级前,用户可能计划对以下方面进行调整,如:
业务网络调整:计划将集群中的业务网络和管理网络进行物理层面的隔离。
机房机柜更改:计划将服务器放置到 IDC 进行统一管理。
虚拟化平台变更:计划将基于 VMware 虚拟化的 SmartX 超融合集群,变更为基于 SmartX 原生虚拟化 ELF 的集群。
CPU 供应商变更:计划将部分业务迁移至信创集群。
如本次集群调整涉及虚拟化平台和 CPU 供应商的变更,因同一个集群中不能同时存在 2 种虚拟化和 2 种 CPU 供应商,所以需要通过新建集群的方式进行服务器硬件升级。如不涉及这两个方面的变更,那么新建集群和滚动升级方式皆可供选择。
适用场景
以上提到的两种服务器平滑升级方案并不存在对立的关系,相反,它们在适用场景上存在较多的重合部分。根据以上分析,我们对这两种升级方案在适用场景上的区别进行了以下总结:
用户案例:方案选择与落地实践
案例一:采用滚动升级方案实现服务器平滑升级
升级背景
10 节点 SmartX 超融合(基于原生虚拟化 ELF)集群,单节点存储使用容量为 15TB - 20TB。
需要在 1 周内对其中 4 台服务器完成升级。
集群存在业务连续性要求较高且要求 I/O 低延迟的业务,升级期间需尽量保障虚拟机业务不受影响。
机房无多余机柜空间以及交换机端口,IP 地址段无多余 IP 地址可供分配。
方案选择与实践
用户当前环境无多余网络资源,同时由于仅升级集群中的部分硬件服务器,应选择滚动升级的方式。采用此方案,一方面可以使新服务器复用原有的服务器网络配置,无需更改网络资源;另一方面,升级部分硬件服务器无需将 1 个集群拆分为 2 个集群,这样可避免增加客户的集群维护工作量。
最终,用户采用滚动升级的方式,在一周时间内,顺利地完成了硬件服务器平滑升级的操作。
案例二:采用新建集群方案实现服务器平滑升级
升级背景
8 节点 SmartX 超融合集群,单节点存储使用容量为 12TB - 15TB。
3 周内需要完成 8 台服务器升级。
8 节点集群被规划为测试集群,机房和集群网络需要被重新调整。
在升级期间需尽量保障虚拟机不到影响。
方案选择与实践
用户有集群调整的需求,应选择新建集群的方式来进行服务器平滑升级。在这个方案中,新建集群的网络调整以及位置重新放置等操作,对原有集群几乎不产生任何影响,仅需要将原有集群的虚拟机进行跨集群迁移,即可完成全部虚拟机的迁移动作。
最终用户采用此方案,同样在一周时间内,顺利地将 8 个节点的硬件服务器进行了平滑升级。
此外,五矿期货有限公司也利用 SmartX 超融合对异构集群的支持特性,从 4 节点纯软件(基于 SmartX 原生虚拟化 ELF)逐步扩容到 10 节点,同时完成了从超微四子星到 Dell PowerEdge R730xd 的服务器升级替换。更多案例细节,请阅读:五矿期货超融合硬件平滑升级与多数据中心管理实战。
您还可以扫码获取《SmartX 超融合技术原理与特性解析合集(含 VMware 对比详情)》电子书,了解更多 SmartX 超融合功能特性与使用场景。
推荐阅读: