查看原文
其他

阿里云孙成浩:生而为云,连接增长——洛神云网络3.0持续演进

梵叶 云布道师 2023-06-18

云布道师

12 月 1 日,第二届中国云网络峰会在线举办,在「云网融合」分论坛上,阿里云智能 云网络产品线副总经理 孙成浩(梵叶)发表《云网络:生而为云,连接增长——洛神云网络 3.0 持续演进》主题演讲,孙成浩结合产业发展趋势和应用场景需求,深度剖析了阿里云飞天洛神云网络的技术演进与产品迭代。
孙成浩表示:生而为云,连接增长。这是云网络产业的源泉。生而为云,本质上是企业数字化和全球化发展过程中产生的需求,推动了云网络持续前进。包含如下四类:
  • 应用场景更加多样。各种各样新的应用形态开始出现全球化,云原生、物联网、包括近两年出现的元宇宙、近期出现的 web 3.0 的应用,无疑都是构建在云和云网络之上的。
  • 安全形势更加严峻。随着云本身的广泛应用,原本藏在规模之下的安全问题开始凸显,各种各样的安全风险和安全事件层出不穷。企业把业务托管到云上,安全是无法绕过去的重点和关键。
  • 规模性能更具挑战。随着企业本身规模和业务的变化,对云网络的规模和性能也带来了非常大的挑战,网络需要不断的去深化产品和技术,来满足用户业务的弹性需求。
  • 网络使用更加简单。网络本身具备一定的复杂度。在用户使用网络的生命周期里建好网、用好网、管好网是云网络必须要解决的问题。这样才能不断的降低用户使用成本。
洛神云网络从 2021 年进入了 3.0 的阶段,也是围绕着上述四类需求来完成产品技术的演进。

更广泛的连接:场景、资源更丰富

首先是更广泛、更丰富的应用接入场景。考虑到地缘政治合规等出发点,业务的全球化布局必然会带来应用的全球化部署。还有物联网应用、车联网应用/自动驾驶,云原生应用等,以及组播类应用,在金融行业或者 oracle rac 这样的业务中,都是非常重要的。
全球化应用的背后,最重要的就是高质量的全球一张网。洛神云网络也一直致力于丰富全球的资源以及全球的能力建设上。除了对区域、可用区、pop 点和边缘计算节点进行丰富之外,洛神云网络 3.0 也推出了在亚太区域的精品 EIP。与本地接入的普通 EIP 相比,精品 EIP 的质量上有了非常大的提升,这个提升尤其是在回国的高峰期时段。
阿里云精品 EIP 如今已在中国香港、新加坡、日本、韩国等区域上线,接下来将在印尼、马来西亚和菲律宾等地进一步完善,以形成精品 EIP 对于亚太区域的全面覆盖。相信在精品 EIP 的加持之下,全球化企业,尤其是中国的出海企业,以及海外的入华企业,一定会形成更好的全球化业务布局。
物联网是近几年非常重要的技术趋势,在物联网应用上,云的业务中分成两段:
  • 第一段是海量的物联网终端连接到云。物联网终端一般都是通过公网连接到云,存在着一定的安全风险。在国内一些大流量的场景中,还存在着一定的合规问题。
  • 另一段是云上的业务对于物联网终端的管理。企业一般会采用传统的自建 CLB+Nginx 的架构,存在着额外的维护成本。同时因为物联网的大规模,这套集群的还需要面对稳定性和可靠性的问题,实际上就是连接风暴。当海量的设备重新发起连接的时候,对于云上的这套集群来讲,就会产生非常大的压力。
洛神云网络 3.0 提供了物联网云原生的服务套件,包括了云连接器和网络型负载均衡。这两个产品都是云原生网元,因此具备弹性可靠、可视、开箱即用以及按量付费等标准能力。云连接器提供的是物联网卡一键连接到云的能力,同时提供安全的专网传输能力,屏蔽公网威胁。网络型负载均衡除了支持 TCP SSL 协议之外,通过技术优化,实现最大支持 1.28 亿的并发连接。同时,对于物联网场景特有的连接风暴等问题进行了相应的优化,避免了云上服务的宕机。
用户通过云网络 3.0 提供的物联网服务套件,可以非常方便的把物联网应用搬到云上来。
除了物联网应用之外,应用本身的云原生化也在快速的演进。用户一般会选择 CLB+Nginx 的架构来构建它的集群作为云上 Ingress 的入口。与物联网云上应用类似,自建架构也会存在成本、弹性、性能、可靠性等要求。但与之不同的是,在云原生的应用里面,用户还会碰到多种应用协议相关的定制化的策略,以及在一些特殊场景里低延迟的需求,如量化交易等。而这种特殊的需求,通过自建 CLB+Nginx 架构是难以满足的。
洛神云网络 3.0 支持面向云原生的应用型负载均衡。作为官方的 Ingress 网关,在性能、协议的丰富性、稳定性、可靠性、低延迟等方面相比自建方案都有了较大的提升。上线一年多的时间里,应用型负载均衡在广告、量化交易、互联网应用的云原生化中发挥了非常重要的作用。
长期关注()网络的从业者一定会关注一个问题——云网络本身对于组播的支持。虽然组播场景一直在云网络里面没有得到云原生化的支持,但是在在金融证券、oracle rac 场景中实际上是一个非常关键的需求。没能支持一部分原因是由于底层技术的限制,另外是出于对安全的考虑。所以在这两种情况下,用户一般都是选择 ECS 内部的自建工具,或者用户自己基于 overlay 构建隧道技术来完成转发。
在洛神云网络 3.0 架构中,今年发布了云原生的组播能力,构建在转发路由器上。用户可以非常方便的通过维护和配置组播域中的静态组播关系的来完成 VPC 云上之间的组播转发。同时用户还可以基于转发路由器和线下建立 Connect Peer 来构建到线下的组播转发。
云原生化的组播相比于传统的自建方案,在成本、SLA、易用性和可靠性等能力方面都有较大的提升。

更安全的连接:全方位提升

除了广泛的连接,阿里云飞天洛神云网络在安全的架构设计上也在不断演进和提升。
在洛神云网络 3.0 中,安全主要体现在三个方面:
  • 第一点,对 VPC 的安全边界进行加固。
  • 第二点,对云网络和云安全的深度集成。例如云防火墙、WAF 等,让用户在使用网络的过程中可以一键获得安全能力。
  • 第三,对第三方安全进行无缝接入。对于用户更多的定制化的线下的安全需求,通过服务链把三方的安全能力引入进来,与生态合作伙伴一起共同服务客户,帮助客户上云。
回到云网络的核心的产品 VPC。随着近年来的发展,VPC 从一张简单的网络演变成了一个庞然大物。今天我们主要关注它的边界,包括了到 OSS、到公网,以及到线下的安全的连接。
第一,我们在 ECS 访问 OSS 的服务中间,插入了一个新的安全的网关结点来进行源目的管控,用户可以在 OSS 的 bucket 策略中设置源 VPC 的访问策略,在 VPC 的网关终端节点的策略中设置对目的 OSS 的 bucket 的控制策略,有效避免了例如 AK 泄露以后对 OSS 的非授权访问等越权行为。
第二,我们在 ECS 访问公网的链路中补齐了公网网关的产品,通过在路由表中设置指向公网网关的路由,有效管理了用户业务暴露到公网中的风险。
第三,一些高敏感的用户,对于专线的流量也期望能够加密,我们发布了私网 VPN 网关来对初始流量进行加密。这样整体专线的安全性也有了质的飞跃。
业务在线下的架构一般都包含一个 DMZ 区域,用于隔离业务边界到业务内部的安全威胁,在这个 DMZ 区域中一般会放置物理防火墙,WAF 等安全设备。当用户完成云化以后,也期望能继续使用原有的架构和安全设备的能力,形成类似于左图的架构,达到对业务的改造最低。
这里我们通过转发路由器来支持服务链能力,通过自定义路由来设置引流条目,通过多路由器来调度进出两个方向的流量,加上自定义路由发布和学习,来帮助客户完成快速配置。目前在云上,我们也已经和 Fortinet,Checkpoint 等多个厂商形成了联合解决方案,帮助客户完成了业务迁移上云。

更深入的连接:大规模、高性能

下面这张图实际上是运营商某企业级客户在阿里云上的常态的业务规模和流量数据。可以看到,这里面有三百多个账号,五百多个 VPC,1 万台以上的 ECS,日均产生 PB 级以上的流量和线下还有二十多个物理专线,分布在三十多个 AZ。用户在云上业务增长的速度非常快,需要云网络本身的规模和特性不断的去突破极限。根据用户业务峰值来进行提升。
首先来看规模,洛神云网络的规模围绕着单 VPC 规模、单地域网络规模以及全球化组网规模来展开。
单 VPC 规模代表了用户一个 VPC 里面所能容纳的节点数量。能力越强,用户构建大的算力资源池就越简单。这意味着,用户可以通过维护一个更大的资源池,来降低调度成本。在洛神云网络 3.0 中,单 VPC 规模从 120 万提升到了 200 万,目前最大的客户已经达到了 150 万。
单地域网络规模,决定了用户在一个地域里面所能容纳的网络数量和租户数量。这意味着,随着企业数字化的深入,我们可以承载越来越多的租户在云上开展业务。在洛神云网络 3.0 中,单地域的网络规模从 100 万提升到了 150 万。
全球化的组网规模,代表了一个用户全球化业务中可突破和拓展的极限峰值,这是洛神云网络 3.0 中重点提升的对象,在今年全球化组网规模从 200 提升到了 5000,为企业全球化业务的快速发展提供了有力的支持。
性能方面,洛神云网络 3.0 从三个角度来进行提升。包括单 ECS 网络性能、单用户混合云专线带宽和单实例并发连接。
  • 第一个,是单 ECS 的网络性能。单 ECS 的网络性能代表了用户的算力在云上所能获得的最大的内网和互联网的访问能力。在去年,随着我们软硬件一体的虚拟交换机技术的研发和深化,我们把单 ECS 网络转发性能从 24M 提升到 40M。这个值的提升,也为网络型的应用,例如 NFV、安全等类型的应用提供了强大的资源池能力。
  • 第二个,是混合云的专线接入的带宽。对于云上的中大型的客户来说,混合云的接入能力是一个必须要具备的能力。同时我们也看到了超大的头部客户,对于超大的混合云接入的带宽是有强诉求的,在今年我们把这个能力从 12.8T 提升到 51.2T。
  • 最后,是网络功能方面的提升。如负载均衡、NAT 网关等并发连接能力进行了优化提升。目标是面向从人联网到物联网整体业务逻辑的演进和进化。其中,面向四层的网络型负载均衡并发能力从 1000 万提升到了 1.28 亿。让企业可以从容的去应对更加丰富、更大规模设备接入的挑战。

更简单的连接:易用、按需弹性

随着技术发展和演进,产品和特性的数量在不断的增多,但事物本身存在着两面性的,云网络产品在丰富的同时,也变得越来越复杂。复杂让使用门槛和使用代价越来越高。因此,除了规模和性能,洛神 3.0 在网络的易用行方面也进行了全面的提升,围绕着建好网、用好网和管好网,来让网络变得更加简单和易用。
在建好网方面。云企业网 CEN 是洛神云网络 2.0 在 17 年发布的一个产品,在今年,云企业网从 1.0 到 2.0 进行了全面升级。除了对于组播服务链等高级特性的发布之外,在性能和规模上也有了非常大的提升。基于云企业网,用户可以快速的构建全球一张网,而不需要对路由进行手动的配置,包括了策略和带宽。同时,云企业网 2.0 还提供给用户一张全局化视角的拓扑,让整个网络管理也可以更加直观。
云企业网的背后,是洛神 3.0 基于意图网络的产品实践。它里面包含了两个技术理念的升级:
  • 第一,是从分散网元的配置,升级到中央控制器提供全局网络配置并自动计算自动下发;
  • 第二,是从程序网络语言,到意图人类语言,即通过拖拽、加入和离开的方式来管理网络
毫无疑问,云计算的核心之一是按量弹性,这也是用户在用云网络中感受到的关键痛点,如下图所示:
蓝色的曲线是用户上云的部分生命周期的业务波动,这里面既有业务初期上线的缓慢上量,也有日常的波峰波谷,还包含了大促期间的业务冲高。在传统的网络和云网络的初中期,受到产品和商业的限制,主要提供的是按带宽/规格是的计量方式,这种计量方式是缺乏弹性的。当业务峰值低于产品带宽或规格的时候,会产生浪费,用户需要为未使用的资源付费,而当业务突发峰值超出了产品带宽或规格的时候,就会因为受到限制而产生业务受损。从客户的具体案例来看,在日常生产中,由于未能及时调整产品带宽或规格,而产生的业务峰值打爆云网络的案例比比皆是。
那么,按量弹性代表了什么?如下图所示:
红色的部分是按流量/按 CU 的弹性计量方式,这条曲线和用户的实际业务曲线是完全拟合的,这代表了云网络和用户业务完全的共振,既没有产生浪费,也不会产生业务的受损。
当然,按量弹性也是云计算的 serverless 的关键组成部分。洛神云网络 3.0 中,核心的带宽类的产品和网元类的产品都已经全面支撑了 serverless 的云原生模型,同时对计费的商品 Code 进行了归一和缩减。
在按量付费的背后,是产品技术的能力的积累,以及商业利益的释放。洛神云网络的核心技术,包括软硬一体的 SDN 技术,弹性的 NFV 技术都是对按量弹性的有力支撑。
在用户开通和配置云网络之后,接下来就是网络的管理和运维。洛神云网络 3.0 从拓扑的可视化、流量的分析以及故障的诊断这三个维度构建了网络智能服务产品,从而降低用户运维和管理成本。
  • 首先,对于网络主动的拓扑发现。通过主动对配置进行分析,生成组网架构,同时还能关联资源水位,让网络运行状态一目了然。
  • 其次,是对公网跨地域以及混合云的流量进行及时的分析。一方面提供给用户一个全局的大盘,另外一方面可以为用户提供租户级的流量分析。例如,对于用户 NAT 网关上的流量,可以分析哪个 ECS 占用了比较大的 NAT 网关的处理能力,这对于用户合理的规划整个网络的成本产生很好的助力。
  • 最后,在主动检测方面,通过对路径和实例的网络诊断,主动匹配异常特征,进行预警。同时还可以关联常见的处理的步骤和处理的帮助,来协同用户进行网络故障的排查和处理。

全篇总结:广泛、安全、深入、易用

总结一下,洛神云网络 3.0 围绕着广泛,安全,深入和易用的连接来构建。
  • 在广泛连接上,洛神云网络 3.0 构建了连接全球,连接万物和连接应用的产品能力。
  • 在安全连接上,通过狗关键安全边界和三方安全接入,来提升云网络的安全性。
  • 在深入的连接上,云网络持续致力于构建更大规模和更高性能的网络,支撑业务不断不断突破。
  • 在易用的连接上,云网络围绕建好网,用好网和管好网三个维度,把让网络更简单做成云网络的核心目标。
客户案例分享
洛神云网络从 1.0 到 3.0 历经十余年,期间服务了千行百业的客户,助力企业逐步实现数字化和全球化升级。
英国石油,作为老牌的国际化石油公司,近几年一直致力于自身的数字化转型,在这个过程中,洛神云网络提供了全球一张网解决方案,帮助客户提升效率,降低成本。
国泰产险,作为国内头部互联网保险公司,在全国有数以万计的分支,去年开始也在进行整个分支和办公网络的云化;借助洛神云网络的全球加速以及云企业网等系列化产品,实现效率的大幅提升以及成本的大幅下降。
TCL,是国内知名的家电厂商,也是国内智能家居领域的先行者,网络型负载均衡通过超大的并发能力和海量设备的可靠管理,为 TCL 鸿鹄实验室构建智能家居生态的过程提供了推动力。
IN THE END
阿里云飞天洛神云网络,无论是在过去、现在还是未来,都会始终围绕着“让网络更简单”这一愿景和使命,去服务我们的客户,构建我们的产品,为客户上云提供源动力。


你可能还想看

1. Tapdata 携手阿里云,实现数据平滑上云以及毫秒级在线查询和检索能力

2. 当云原生成为一种显学,对象存储和数据湖如何顺势而为

3. Apache Flink运行时在B站的稳定性优化与实践

4. 阿里云前端专家冯军:前端用户体验该如何优化

5. 阿里云携手百奥利盟发布云上精准医疗与创新生物药数字化解决方案,助力行业数字化转型

关注我们

欢迎关注加星标✨ 回复关键词可领取相关技术白皮书

随机抽取送技术图书 · 重大节日发放文创纪念品

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存