【FIW2022精彩回顾】国泰君安新一代核心交易系统网络底座建设实践
以下文章来源于 FCC30+ ,作者谭泽廷
9 月 21—23 日,第一届“金融现代化IT基础架构转型论坛(FinTech Infrastructure Wave 2022)”成功举办。该论坛由中国信息通信研究院云计算与大数据研究所、《中国金融电脑》杂志社主办,北京志凌海纳科技有限公司(SmartX)与北京鲲鹏联合创新中心协办。论坛分为三大专场,覆盖银行、保险、证券、基金、期货、信托六大金融细分行业,内容涵盖多云平台建设、核心业务系统信创转型、超融合关键场景落地、核心业务改造、数据中心零信任安全、基础设施等前沿话题。
国泰君安 IT 基础架构主管谭泽廷分享了新一代核心交易系统网络底座建设实践。
文丨国泰君安 IT 基础架构主管 谭泽廷
一、挑战与目标
数字化转型背景下,证券行业核心交易系统面临四大挑战:
一是高可用。目前,证券行业正处于持续发展阶段,无论客户还是监管部门,都对证券公司核心交易系统的高可用能力提出了极高要求,这就意味着对核心交易所在的基础架构底座提出了更高要求。
二是高吞吐。伴随证券市场的蓬勃发展,2015 年国泰君安在“大行情”时的交易峰值达到了每秒 5.2 万笔;到 2022 年,国泰君安的客户数量已达千万级,是 2015 年的 3 倍,“大行情”时的交易量也迎来了更高的峰值。
三是低延时。证券市场交易永远追求超低延时,虽然目前国泰君安的集中交易生产环境委托单笔延时仅为 30 毫秒,但依然无法充分满足部分投资客户的实际需求。
四是高安全。目前,集中交易系统大多使用 Windows 操作系统、SQL Server 商用数据库和 Cisco 网络设备,在全力推动数字化转型的大背景下,亟须在下一代核心交易系统建设中采用我国自主创新的操作系统、数据库以及网络设备。
针对上述难点,国泰君安于 2018 年开始自主研发新一代低延时分布式核心交易系统,并于 2021 年试点投产。新系统在高可用、低延时以及大容量等方面均对基础网络环境提出了更高要求。例如,在高可用方面,要求同城双中心高可用网络集群故障或服务器故障自动切换 RTO<10 秒、RPO=0;主备数据中心切换 RTO<1 分钟,RPO=0;异地容灾中心切换 RTO<5 分钟,RPO<1 分钟。在低延时方面,新系统要求委托上行时延小于 2 毫秒,系统内部回路时延小于 40 微秒。在大容量方面,新系统要求 25G 接入与 40G 汇聚,且接入设备最大组播量在 10K 以上,核心设备最大组播量在 20K 以上。
二、技术选型
国泰君安集合应用开发团队、系统运维团队、技术架构团队等骨干力量组成专项技术攻坚小组,在技术选型阶段针对市场上多款交换机产品进行了详细的对比测试,全面覆盖了功能测试、组播测试及可靠性测试等内容。具体实践中,攻坚小组通过专业测试仪打流,确认待测设备的交换容量和包转发率均满足要求,之后对 VLAN、MAC 地址、IP 路由、虚拟化等功能以及组播路由协议、组播特性及组播容量等进行了详细测试,确认有两款产品可满足要求。
在此基础上,攻坚小组开展了多项破坏性测试,例如在设备高负荷运行时,将部分电源及风扇强制拔出,以确认设备的高可用性满足要求,同时针对核心交换机与接入交换机在二层网络及三层网络的单播和组播等多个场景,对时延进行了深入测试,确认了各款产品的具体时延。经过严格的 POC 测试和技术选型,国泰君安最后选择了一款高性能核心交换机作为新一代核心交易系统的网络底座,并于 2021 年在两地三中心建设完成了新一代高性能核心交易系统。
三、路由设计
对新一代核心交易系统而言,其核心交易网络主要涉及来安路、金桥和南方三个数据中心(如图 1 所示),其中,来安路数据中心是国泰君安的生产主中心;金桥数据中心是在上交所租用的托管机房,定位是同城双活及灾备中心;南方数据中心是在深交所租用的托管机房,定位为异地灾备中心。
图 1 国泰君安核心交易网络
在实际运行中,每个数据中心的网络架构均为“核心交换机+接入交换机”的模式。来安路数据中心与金桥数据中心采用两条 10G 裸光纤互联,南方数据中心分别采用了 10G 和 2.5G 的专线连接来安路数据中心和金桥数据中心,且每个中心均部署了全套交易组件,支持独立运行。此外,整个网络通过 VPN-Instance 实现逻辑隔离,并在每个数据中心的核心交换机配置三层互联接口,在互联接口为每个域划分了子接口,子接口与 VPN-Instance 绑定。
在路由设计方面,数据中心之间使用 BGP 路由协议互联互通,使用 Loopback 0 作为 BGP 的 Router-ID,通过子接口的互联地址建立 BGP 邻居关系,负责将该域在数据中心的业务网段以及 BGP 的 Router-ID、Anycast RP 的 Local 地址等信息,通过 Network 发布进对应的 BGP-VPN 实例地址簇,进而实现每个域在数据中心之间的路由学习。值得强调的是,由于金桥数据中心和南方数据中心之间距离较远,而 BGP 的收敛能力仅为秒级,难以满足低时延网络要求,故国泰君安在网络中专门配置了 BFD 来提供毫秒级的检测精度,以快速识别故障并触发 BGP 路由的收敛,从而确保业务连续性。
四、组播设计
新一代核心交易系统的各应用组件在同城数据中心之间使用组播实时同步,并支持在同步完成后通过单播发送给南方数据中心进行备份。在此过程中,上海同城数据中心互联接口开启 PIM-SM,数据中心内部在各组件的网关地址下开启 PIM-SM 以及 IGMP V3 功能,以满足组件之间的业务访问需求。同时,为增强 PIM-SM 中 RP 节点的可靠性,上海两个数据中心配置了 PIM Anycast RP,且每个数据中心核心交换机均配置了相同的 RP 地址,RP 地址间通过 Loopback 地址建立对等体关系,从而实现组播源就近注册和接收者就近加入,既能缓解单个 RP 的负担,也可实现 RP 备份,同时优化了转发路径。
PIM Anycast 注册过程如图 2 所示。在二层网络中,为防止组播流量泛洪对带宽造成影响,所有连接服务器的交换机通常会配置 IGMP Snooping,通过侦听三层组播设备和用户主机之间发送的组播协议报文来维护组播报文的出接口信息,进而管理和控制组播报文在数据链路层的转发过程。通过组播技术,新一代核心交易系统的数据传输效率整体提升了 5 倍以上,目前核心交换机的组播表项已达 8900 个。
图 2 PIM Anycast 注册过程
五、模块化部署
在部署设计方面,来安路数据中心的每个机柜额定功率为 5kW,按照每台服务器功率不超过 400W 计算,每个机柜可放置 12 台服务器。基于此,国泰君安将 3 个机柜作为一个标准模块,并为每个模块配置一对接入交换机,可同时支持 48 台服务器的双网卡接入。此外,每个机柜中同时部署交易节点、外部接入群集、数据库群集、控制群集等各类业务组件,通过将每个节点中各组件的主备节点部署在不同的标准模块中,确保即使某对接入交换机同时发生故障,组件的整体处理能力亦不会受到太大影响,从而可最大程度保证系统可用性。
对于同城灾备中心及异地灾备中心而言,因托管机房对单个机柜的电量限制,导致每个机柜部署的服务器数量会相应减少,故金桥数据中心以 4 个机柜作为一个标准模块,而南方数据中心则是以 5 个机柜作为一个标准模块。
六、整网性能指标
新一代核心交易系统部署完成后,同城双中心的网络集群中任何一台设备故障对系统均不会造成影响,且标准模块下的网络设备发生故障时,应用亦可实现平滑切换。在时延方面,新一代交易系统网络满足了业务委托上行时延小于 2 毫秒,系统内部处理时延小于 40 微秒,查询时延小于 100 微秒,单笔时延小于 200 微秒,速度提升 10 倍以上。在容量方面,系统通过压测整体达到每秒 30 万笔交易,并且支持后期根据业务需求进行水平扩展。经过应急演练验证,主备数据中心切换 RTO<1 分钟、RPO=0,异地灾备中心切换 RTO <5 分钟、RPO<1 分钟,可用性高达 99.999%。目前,国泰君安近 400 家营业部已经全部切换至新一代核心交易系统,新平台承载了 1500 万零售客户交易。
国泰君安新一代核心交易系统成功上线,代表新一代分布式低时延架构在中国证券公司核心交易领域取得了重大突破,不仅标志着千万级账户规模的证券公司零售交易系统正式从以数据库为中心的大集中交易系统时代,走向以消息处理为核心的新一代分布式低时延交易系统时代,更是标志着金融核心系统自主创新方案的不断成熟,推动网络设备应用从测试网、办公网逐步走向了最核心的交易网,进而为后续全面创新转型积累了宝贵经验、增加巨大信心。
推荐阅读: