独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进
2019年双11当天总成交额2684亿,交易峰值54.4万笔/秒,成交量背后是单日970PB的数据处理量。阿里巴巴核心系统100%上云,意味着公共云第一次支撑全球最大规模在线交易,阿里云自研的飞天操作系统(Apsara),完成了这个挑战。而“洛神“作为飞天的虚拟网络系统,则承载了双11期间超大规模并发、超稳定性和复杂的业务流量调度。
下图是一张简化的电商系统架构,底层即是阿里云的计算、存储、网络等一系列产品和解决方案。由于电商平台需要巨大的处理能力,其依托的分布式节点之间的通信,就是由洛神虚拟化网络来提供的。
图1 简化电商系统架构
什么是飞天“洛神”云网络平台?
洛神是阿里云飞天分布式操作系统的核心组件,提供了虚拟化网络服务,例如虚拟专有网络(VPC)、软件定义网络(SDN)控制器和服务器负载均衡(SLB) 等多项网络产品及技术。
洛神网络平台如何支撑双11?
1、迎战Tbps级流量洪峰
11月11日00:02时,仅仅在双11开始不到2分钟,总体流量达到峰值1.1TB!如此庞大的并发访问,正在买买买的“剁手党们”却察觉不到任何异样,这背后离不开阿里云网络两位流量洪峰悍将:负载均衡SLB和NAT网关。
负载均衡SLB(Server Load Balancer)是承载Tbps级别流量调度的“大管家”, 彻底“消灭”网站响应慢或者交易失败的现象。通过集群部署,平均分发用户请求并通过自动健康检查剔除异常服务器,消除单点故障,提升系统可靠性。同时实现跨可用区容灾,当主区出现故障时,SLB能秒级实现业务平滑切换。
当用户选好心仪的宝贝,跳转到支付宝进行付款时,就是由NAT网关调用支付宝的支付接口来实现,每一笔支付都会在NAT网关产生新连接。双11期间每秒交易峰值达到54.4万笔,就是背靠NAT网关超大规模的带宽和并发能力,其中单NAT网关的最大活跃连接数就高达400万。
2. 构建全球购物狂欢的高质量网络
2019年双11吸引了超过200个国家的全球用户参与,为了打造全球用户优质的购物体验,阿里巴巴集团在阿里云的河北,上海,深圳,香港,新加坡,美国等多个地域部署了Virtual Private Cloud(VPC),并使用了弹性公网IP (Elastic IPAddress),使不同地区和国家的用户能够就近、快速接入到网络。同时通过云企业网(Cloud Enterprise Network)进行多地域网络互联,分钟级构建出一张覆盖全球的,高质量的,安全的企业网络。
例如,新加坡的用户在购物时,就近接入新加坡阿里云并通过云企业网的专有链路到中国内地的阿里云,进而和部署在中国内地的阿里巴巴核心服务器和数据库进行交互。在这种跨地域的“专用高速公路”架构下,新加坡的用户可以获得极好的应用访问体验。
搭建好了全球网络,还需要超强算例资源部署。通过阿里云VPC ,工程师可以在1个小时内部署包括上万台云服务器。这在传统数据中心需要花费近月的时间。2019年双11云上单个VPC的IP规模达到 30万,最大的一个VPC的ECS和容器实例数量达到百万级,成为双11超级算力和最强大脑,云上公网和跨域出口流量达到数十Tbps,在业界遥遥领先。
3. 云网络QoS能力
双11期间,不仅是阿里巴巴电商购物,还有蚂蚁支付,菜鸟物流,大数据分析等多个业务系统均几乎同时进入流量高峰,然而不同系统对于通信的带宽、时延、丢包要求却不尽相同。为此,洛神网络平台提供了智能QoS功能,对不同业务进行流量优先级区分,对大带宽、丢包敏感业务设置通信报文高优先级,成为业界第一个具备QoS能力的云网络。
4. 智能网络分析
在双11的几个月前,洛神的网络运维和运营中枢—“齐天”已先行计算出承载双11流量所需的网络资源,精准的预测每个区域可承受的流量峰值、每条线路的带宽峰值、服务器数量。不仅如此,齐天还基于阿里云实时计算(Alibaba Cloud Realtime Compute),阿里云时间序列数据库TSDB(TimeSeries Database)结合数据可视化,构建了一张全网实时监控大盘和分布式网络质量探测系统,支撑超过每秒2000万,多达100种核心网络数据的计算。通过智能诊断网络故障、多维度实时监测网络状态,齐天保障了双11网络的稳定运行。
2019 年双11,洛神网络平台强力支撑阿里集团核心业务的全面上云,提供快速、安全、稳定的网络服务。未来在弹性、开放、智能网络能力上会持续创新,提供给用户更加美好的体验,最终将做到让网络更简单,这是阿里云网络追求的理念也是使命。
系列阅读:
☞什么是 CD 管道?一文告诉你如何借助Kubernetes、Ansible和Jenkins创建CD管道!