【FIW2022精彩回顾】五矿期货基于超融合实现基础架构整体云化转型的实践
以下文章来源于 FCC30+ ,作者朱大双
9 月 21—23 日,第一届“金融现代化IT基础架构转型论坛(FinTech Infrastructure Wave 2022)”成功举办。该论坛由中国信息通信研究院云计算与大数据研究所、《中国金融电脑》杂志社主办,北京志凌海纳科技有限公司(SmartX)与北京鲲鹏联合创新中心协办。论坛分为三大专场,覆盖银行、保险、证券、基金、期货、信托六大金融细分行业,内容涵盖多云平台建设、核心业务系统信创转型、超融合关键场景落地、核心业务 K8s 改造、数据中心零信任安全、基础设施即代码等前沿话题。
五矿期货信息技术部总经理朱大双分享了基于超融合实现期货公司基础架构整体云化转型的实践。
文丨五矿期货信息技术部总经理 朱大双
一、IT 基础架构转型需求及发展历程
1.转型需求
期货公司是“一行两会”监管的金融机构,业务线条繁多,这就导致业务系统的需求也多,同时考虑到期货行业的特殊性,需要更灵活、高效的 IT 架构。笔者认为,期货公司的 IT 基础架构转型需求包括以下几点。
一是系统能快速满足资源发放和上线迭代的需求。
二是上线的所有系统不存在单点故障风险,能保证行情交易业务的连续性,数据可靠不丢失。
三是按照监管要求,经纪业务、资管业务、风险子公司业务、境外业务等需要做必要的业务隔离,这就要求系统之间能实现有效隔离,在此基础上,还要降低所有系统的运维难度和整个系统的软硬件投资成本。
四是要实现基础架构的自主可控。
2.IT 基础架构发展历程
五矿期货的 IT 基础架构经历了从传统架构到 OpenStack,再到初始选型的某超融合产品,最后到 SmartX 超融合基础架构的发展过程。在使用过程中,笔者总结了不同架构存在的问题。
传统架构不仅需要购买存储、配置服务器和网络设备,而且整个项目从立项、需求到采购,建设周期至少需要一个月时间。同时,基于传统架构的系统设备经过三五年后可能面临淘汰、替换或更新的问题,而且扩充不方便,系统运维也相当复杂。
OpenStack 开源组件众多,需要配备精通操作系统、网络、存储的专业人士,操作管理不便;Ceph 存储存在一些 I/O 问题,并且扩容极其不便。
初始选型的某超融合产品对硬件要求很严格,要完全匹配其硬件兼容性列表。
SmartX 超融合产品具备弹性敏捷、简单实用、稳定可靠的特性:可实现资源的快速发放和回收;CloudTower 界面简单清爽,便于操作;稳定性和可靠性强,在使用过程中几乎没有出现任何重大事故及数据丢失的情况;同时,软件和硬件没有绑定,支持同一套集群当中使用不同的硬件服务器,在破坏测试中面对拔插硬盘、断电、拔交换机等极端情况也有稳定的性能表现。
2018 年 2 月,五矿期货上线第一套集群,不久之后又在深圳建了办公集群,经过多次扩容,现有 8 个集群,43 个节点,分布在上海、大连、深圳、东莞等不同地方。这些集群总的来说分为两大类:生产集群和办公集群。生产集群根据业务系统要求,有的安装了 Oracle RAC 数据库集群,有的安装了做市策略系统。办公集群中上线了 OA,MAIL 等几乎全部的办公支撑类系统。
二、超融合基于不同场景的应用和使用模式
1.为机构通构建敏捷、可靠、隔离的资源池
超融合的使用场景之一是满足多客户机构通系统的需求。五矿期货是中国五矿集团下属的子公司,第一要务是服务集团主责主业,包括为集团内部的有色金属、黑色金属以及境内外期货产品做套保,这就要求期货公司为每一个不同的机构客户提供一套独立的包含行情、交易、结算的机构通系统。
如果按传统方式构建机构通系统,从采购、存储、服务器到交换机的整个过程至少需要一个月时间。通过超融合平台,用虚拟机的方式提供服务,一套系统可能只需三天就完成资源的准备。同时,超融合支持在多个客户之间批量快速部署上线,根据客户要求进行隔离,使每套系统都相互独立。基于超融合的快照备份功能,可以快速有效保护数据,当系统升级出现问题时,也可以通过快照恢复,快速回滚。
2.以较低成本快速搭建大数据预研平台
五矿期货基于超融合技术搭建私有云平台,并在云平台上构建敏态大数据应用开发测试环境,可快速提供大数据平台解决方案,大幅降低大数据类软件的投入成本,也能有效促进大数据类应用的快速开发迭代,提升业务部门满意度。如在存储方面,通过英特尔傲腾内存技术提供的大内存,能很好满足大数据对超大内存资源池的要求,在确保符合性能需求的情况下,有效降低了采购成本。
目前,五矿期货已经开始在私有云平台上进行 ClickHouse 集群、Dolphin 集群、CDH 集群、Flink 集群等大数据创新技术的预研或者测试。结合业务系统,该平台已成为五矿期货进行技术创新的一个很重要的工具。
3.满足 DevOps 对资源池敏捷性的需求
期货公司业务需求多,要求 IT 系统能“小步快跑”、敏捷开发和快速迭代。同时,不同的小团队对应不同的需求,这就要求能有一整套统一的开发和测试环境,通过建立 DevOps 的体系来规范开发、应用的测试发布流程。超融合基础架构能快速满足 DevOps 环境和测试资源池敏捷性的需求。
4.用分布式防火墙实现自主创新云平台的业务隔离
基于对 IT 系统自主可控的要求,五矿期货通过采购满足自主可控要求的服务器以及交换机构建私有云平台,并在云平台上部署了基于微分段技术的分布式防火墙。
分布式防火墙基于零信任模型,不依赖任何特定的硬件设备,只需在管理页面通过几步简单的操作就可制定一套完整的安全策略,并下放到云平台中。分布式防火墙有效解决了数据中心虚拟机之间东西流量存在的安全隐患,并为云平台的业务提供了灵活细致的安全保障,目前已经在测试使用中。
5.全国多集群统一管理降低的运维难度
五矿期货的 5 个数据中心共有 7 套集群,包括 2 套办公集群和 5 套生产集群,这些集群通过分布式云管平台统一管理,集群中的计算、存储、网络资源统一调度,不必在不同的集群中来回切换。通过云管平台,只需 2 名员工就可以完成 7 个集群日常资源的申请、发放、回收及监控等工作,有效降低了运维工作量。
6.利用软硬解耦实现异构硬件在线升级
超融合可以很好地利用软硬解耦实现异构硬件在线升级。2018 年 2 月,五矿期货上线第一套集群,当时因为机房机柜资源的问题,采购了超微的 2U 4 节点设备完成初始的小规模集群部署;2019 年,因小规模集群资源不足,增加了 2 台戴尔 R740,整个集群扩大到 6 个节点,这时集群中就有两种不同的硬件配置,一个是超微四星子,一个是戴尔服务器;2020 年,为了利旧,将刚好淘汰没有过保的 R730 服务器也加进集群中,集群扩大到 10 个节点;2021 年,超微的 2U 4 节点设备维保过期,又将其替换成 4 台戴尔 R740。在整个硬件升级过程中,超融合平台能在一个集群中同时支持不同品牌的硬件设备,而且实现了整个替换扩容过程业务不停机,生产业务零感知。
推荐阅读: