随着数字化转型和智能化升级的加速,更多的企业级应用开始基于多云、混合云、边缘云等新模式构建,比如自动驾驶、车路协同、物联网、电商、视频、游戏等。这些应用对网络提出了更高的要求,尤其是对云网关产生了重大挑战:
为了更好地应对以上挑战,百度智能云推出了基于可编程硬件的新一代云网关技术方案,并对专线网关、云智能网、边缘计算节点、弹性公网 IP、流日志等产品进行了升级,满足 AI 原生云时代10T 级别的数据流通和管理需求。
最早的网关采用专用硬件实现。随着对灵活性的需求以及 X86能力的提升,网关逐步从专有硬件转变为 X86集群。在人工智能、大数据应用的普及下,数据流通量级大幅增长,单纯依靠 X86服务器集群已经难以应对成百倍的带宽增长。业界普遍开始采用软件+硬件 Offload 加速的方案。这也是百度智能云网关1.0的技术方案。多云、混合云、边缘云等新的云计算架构的应用,数据流通量级继续爆发式增长,导致软件+硬件 Offload 加速的方案也难以满足需求,业界开始尝试采用可编程硬件解决问题。百度智能云基于可编程硬件升级了自己的技术方案,相继推出了网关2.0和3.0技术方案。其中,网关2.0技术方案,对中心云的相关网络产品进行了全面升级,已经规模化部署上线。网关3.0技术方案,通过引入新的 UNP 架构,将带宽能力升级了一倍,业务表项能力升级了百倍,在边缘云和中心云已逐步开始落地。应对客户不同场景需求的产品家族
我们将在下文对应用了百度智能云网关2.0、3.0技术方案的产品进行介绍,包括新特性和典型案例。专线网关是 VPC 打通用户 IDC 或者多云之间实现内网互联的重要产品。为了满足客户对专线的海量带宽和频繁扩容的需求,百度智能云的专线网关通过可编程硬件部分负责处理海量带宽、低时延、有限配置规模场景下的业务流量,对于其他流量不大的场景则全部交由 X86软件网关处理。某电商客户采用多云战略,在百度智能云和友商云之间搭建了10T 级带宽的混合云专线。曾经至少需要600台 X86软件网关集群,现在只需要16台可编程硬件网关即可实现多云间的海量资源对大吞吐带宽、超稳低时延的需求。云智能网 CSN 实现了不同地域 VPC 之间、VPC 与本地数据中心之间的高性能、低延迟的网络互通。客户可以基于云智能网打造企业级云上全球一张网。相比传统的对等连接方式,云智能网的组网更加灵活。通过可编程硬件网关 TGW,云智能网提供高吞吐接入的同时,也提供了灵活的路由策略和网络 QoS 等能力,并且可以利用百度智能云的骨干网实现多 VPC 跨地域互联的智能选路优化。某金融客户通过云智能网 CSN 打通了云中心地域和边缘节点的算力和存储资源,并提供 T 级别的网络吞吐能力,实现了全国范围的业务部署和近源计算。弹性公网 IP 为用户提供公网接入服务。通过可编程硬件网关 EGW 可满足超大公网带宽的访问需求,并可以在不同业务需求下灵活调度流量。部分高吞吐的弹性公网 IP 流量直接通过 EGW 设备实现快速路径转发处理,节约大量慢速路径的X86机器,同时缩小故障域、降低时延、减轻服务器间负载不均的问题;通过流量特征识别,EGW 可以将公网流量按指定规则导流到不同的X86软件网关集群,从而实现故障域隔离或专属集群调度,典型场景如异常大象流的治理。某制造业客户计算资源被劫持,对外实施 DDoS 攻击,占用较大网关处理能力导致正常业务丢包。通过弹性公网 IP 的流量特征识别的能力,及时治理了问题流量,避免影响其他用户,最大限度地降低用户损失。流日志用于记录 VPC 中云服务器、负载均衡、NAT 网关等实例发送和接收的网络流信息,方便用户进行流量分析、可视化、故障诊断以及网络架构优化。百度智能云的公网、专线、跨地域等边界网关在实现了硬件化转发的同时,提升了网络诊断能力,支持流量的全量镜像或者按比例镜像分析,具备流粒度的精细化统计和安全审计功能。某电商客户混合云场景下,流日志满足了数十 T 级别专线,1000万级 IP 地址对的实时流量分析、topN 展示、公网流量来源分地域统计和网络攻击行为审计等业务需求。边缘计算节点提供一站式靠近终端用户的弹性计算资源。边缘场景下,云边互联、边边互联需要云网络提供高质量的统一接入和管理服务。百度智能云基于可编程硬件的网关3.0技术方案,打造了 UNP(Universal Networking Platform )平台,实现一套可定制硬件基础平台输出多种产品形态 ,兼顾软件灵活性和硬件高性能,实现“超高带宽 + 超低延时 + 超大表项”的软硬一体化超融合系统,覆盖公有云 IDC、边缘计算、Local compute cluster 等场景。UNP 实现控制面容器化部署+转发面可编程硬件加速,同时 CPU 和可扩展 NIC 配合实现密钥协商、IPsec 加解密以及 CPU 配合可编程硬件实现 DDoS 等安全功能,可以敏捷、灵活应对业务快速变化。
在百度智能云的边缘计算节点,我们通过引入 UNP 平台,对原本职责不同的众多网关进行整合,使所需网关机器的数量缩减了80%。百度智能云的网关2.0和3.0技术方案,相比1.0,在产品性能、弹性、能耗显著提升:容量:单集群几百 G 升级为几十 T,集群机器数目反而大幅度下降
时延:30us 降至1us,长尾几乎消失,转发更快速。
丢包率:十万分之一降至数亿分之一,网络更可靠
线速能力:256字节降至150字节,网络更稳定
扩容排期:月级别降至周级别,弹性能力更强
扩容频度:季度级别降至年级别,水位冗余度提升
能耗:单 T 能耗下降90%以上,现在每 T 仅需不到200w 能耗,实现碳减排
虽然可编程硬件的网关技术带来了各项指标的大幅提升,但是相比 X86的几百 GB 的内存,可编程硬件的存储空间缩小为几百 Mb。容器场景下辅助 IP 的大量运用导致系统的表项规模产生了十倍乃至百倍的跃增,此时可编程硬件在表项容量上的紧缺成为了新的问题。百度智能云运用多种手段,包括架构升级、单机优化、硬件升级等,将有限的存储运用到极致,实现同等硬件条件下部分关键表项容量提升10倍,并具备分集群扩展能力,满足高性能的云原生网络需求。百度智能云致力于打造可靠、高速、智能的云网络,让上云更简单。