查看原文
其他

看不见的“网” ,一文读懂阿里云基础设施网络

阿里云基础设施 凌云时刻 2022-05-30

凌云时刻

编者按:在这个万物智联的时代,无论是在线网络购物,还是网络强国、数字中国建设,都离不开一张“看不见的网”——基础设施网络。

2009年,首届双11每秒交易订单创建峰值400;2021年,双11每秒交易订单创建峰值58.3万,12年交易数字量猛增的背后,是阿里云在庞大分布式系统上计算和IO能力的飞跃,更离不开阿里云基础设施底层网络技术的支撑。

图|阿里云全球基础设施网络系统

作为阿里云基础设施的重要组成部分,阿里云基础设施网络团队负责整个阿里云全球基础设施网络,包括大规模高性能数据中心网络,全球数据中心互联网络,边缘网络,运营商接入网络,光网络,DNS以及创新研究工作。

在业务支撑上,覆盖全球云计算以及基于云计算的电商、支付、物流、本地生活等服务。不但拥有业内领先的超大规模网络智能化运营能力,同时在诸多网络技术领域实现创新突破,是行业生态中有国际影响力、引领网络技术变革的一支重要力量。

 智能化网络运营,构筑高效稳定云计算底座

面对网络规模持续数量级增长,过去五年,基础设施网络团队不断推动自主技术创新,打造了一个全智能化的AIOps运营体系,涵括自主研发的网络设备、软件、数据及算法,从网络规划到建设交付,从运维管理到更新换代的全网络生命周期自动化能力,为阿里云覆盖全球的百万级服务器规模的云计算提供全球服务支撑,既提高了运营效率,又有效实现了网络故障率的指数级下降。

图|XNET智能监管控中枢

在智能系统平台基础上,基础设施网络团队还建设了全球大规模“意图驱动网络”管控体系,设计研发了高级抽象语言、编译器、形式化验证、高精度仿真等先进技术,其中多项研究成果在网络全球顶级会议ACM SIGCOMM论文中屡次发布。

 超大规模高性能,打造新型数据中心网络

作为大型分布式系统内部的高速公路,今天数据中心网络承载着越来越多计算和存储系统IO延伸的作用。阿里云新型数据中心网络是基于阿里云自研交换机构建的超大规模网络系统,scale out多平面架构设计充分满足了云计算分布式大规模系统的算力互联以及资源弹性扩展需求,单网络集群支持可实现从几百台到10 万台以上服务器连接的弹性扩展能力。

在此基础上,基于Sonic开源社区的阿里云自研网络操作系统(AliNOS)有效打通了单设备与整网维度的监管控能力,在快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备和光互联组件完全契合阿里场景进行模块化设计,实现了成本、供应、运维能力的多维度自主控制。

作为业内最受欢迎的高性能网络技术,2016年,阿里巴巴开始投入专项研究RDMA(Remote Direct Memory Access),以改造RDMA、提高传输性能,目前已建成全球最大规模数据中心内的“高速网”,将时延显著降低90%,支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务,取得了巨大的商业价值。

图|软硬一体全自研数据中心系统

同时,通过大规模RDMA网络部署实践,阿里云基础设施网络团队自主研发了基于端网协同的Solar-RDMA高性能网络协议和HPCC流控算法,并通过自研网卡实现了协议硬件卸载,极大的降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。

 云边一体全网调度,实现网络质量可预期

阿里云全球网络流量调度系统NetO采用中心控制与分布式处理有机结合,提供从中心到边缘的全网流量调度能力,为业务提供了差异化和高品质的网络服务。通过采用行业最新的Segment Routing技术,结合Anycast、BGP路由管理,全球网络质量探测,以及各种场景优化算法等真正实现了云边一体的全球网络调度能力。

同时,阿里云NetO流量调度系统将精细化调度能力、网络流量状态分析能力以端网融合调度的方式提供给业务,实现了符合业务特色需求的各种差异化网络服务能力。

随着泛边缘分布式云的发展,云边一体的网络全域调度无论是从规模和灵活性角度都将面临新的挑战,阿里云基础设施网络团队在SRv6、自研路由控制协议,以及调度模型算法等方面持续投入和创新,以更灵活多变的控制应对边缘云发展下的复杂流量管控,为业务提供质量可预期的服务。

图|云边一体的网络全域调度

 开放光网络,高速光互连

高速、灵活、开放、协同发展已成为光网络领域重要技术发展趋势。在光网络技术领域,阿里云基础设施网络团队在业界率先开始开放解耦DCI技术的研发并实现规模部署,在光网络模型、光网络软件和数字化、光网络自动化、开放解耦ROADM网络方面做出多项创新性成果。在光互连技术方面,从光模块、光电芯片、超百万级光模块数字智能化运营等方面成果斐然。同时,积极和行业、高校间进行高质量合作,对高速光互连、光交换技术及智能光网络等领域的前沿技术进行探索,致力于推动产业实践和学界理论的双向发展。

图|开放、标准、模块化硬件

过去三年,阿里云基础设施网络团队在光通信顶级学术会议如OFC、ECOC上发表学术论文16篇,在光通信顶级学术刊物(IEEE、OSA和Nature学术刊物)上发表学术论文10篇,用数字书写着对行业挑战性、前瞻性课题的不懈研究。
图|OFC 2019现场

 日解析量超万亿DNS,参与网络强国基础设施 

DNS(Domain Name System)是互联网访问的第一跳,是全球互联互通关键网络基础设施,也是云服务的访问入口。随着移动APP、智能终端/IoT、家庭/企业网络接入对DNS安全、稳定和智能调度提出新的需求,阿里云DNS面向云上云下多样化的连接场景帮助企业实现数字化转型,面向各种终端用户提供基础解析服务,目前平台日均解析服务量突破万亿。

图|云端一体的阿里云DNS
2017年,阿里云DNS入选工信部评选的“2017网络安全试点示范项目”;2020年3月,阿里云云解析DNS作为支撑疫情防控和复工复产的网络安全公共服务平台被工信部重点推荐。目前,阿里云DNS是国内首家提供DNSSEC、IPv6、DoH/DoT等功能特性的DNS服务商。2021年6月,由下一代互联网国家工程中心发布的公共DNS测试结果表明,阿里云满足IPv6双栈环境的各项功能,且在DNS响应延迟这项指标上全国领先。

 业务驱动创新,引领生态行业发展

快速发展的业务驱动技术不断创新。过去几年,阿里云基础设施网络团队始终坚持软硬一体优化、自主可控的研发创新道路。在技术商业化上,阿里云自主研发的交换机、光网络等设备已大规模部署并取得业务价值。在大规模部署实践基础上,同时积极回馈开源生态社区,在SONiC社区、ODCC社区建设中做出了积极贡献,领导了S³IP白盒化标准、SRv6等项目的发展。

2021年7月16日,阿里云基础网络团队联合腾讯,百度等组织发起了S³IP首届行业发布会,京东、快手等众多互联网行业伙伴加入,这项旨在标准化白盒网络设备软硬件设计,解决用户痛点的发布会共吸引了20万人次参与在线讨论,会后,众多白盒用户和厂商纷纷邮件申请加入S³IP。

图|首届S³IP发布会
此外,阿里云基础设施网络团队也积极参与行业国际学术交流,以强大的学术研究实力为行业侧目:连续三年入选国际网络顶级会议ACM SIGCOMM,累计发表10篇论文;同时在NSDI、USENIX ATC、HPCA、OFC、ECOC等国际顶级会议中也发表了十多篇论文。阿里云在网络可编程、网络可视化、形式化验证、意图驱动网络、高性能网络、无线传输、硅光技术、量子通讯、光传输、物联网等多个技术领域都保持持续创新,引领行业发展方向。

图|ACM SIGCOMM 2019现场

 IPv6+打造未来数字基石

2021年7月23日,国家网信办发布《关于加快推进互联网协议第六版(IPv6)规模部署和应用工作的通知》。IPv6规模部署已是互联网升级演进的必然趋势和网络强国建设的基础支撑,而IPv6也将助力为“全世界的每一粒沙子”赋予一个网址,让每一个消防栓和路灯都变成一个智慧终端。

1、2018年

阿里巴巴集团内部系统基本完成IPv6化

2、2019年

“IPv6商用部署技术研发及大规模应用”项目获得中国通信学会科技进步二等奖

3、现在

阿里巴巴集团IPv6改造已进入第三阶段,以挖掘IPv6技术红利为主要驱动力,推动基础设施整体架构升级。

图|IPv6发展历程“满眼生机转化钧,天工人巧日争新”。今天,云计算正在成为数字经济的新型社会基础设施,作为云计算底座的基础网络将面临更大规模、更高稳定性、更优性能、最佳效率和成本的挑战。

阿里云基础设施网络团队基于自身优势,在云网融合的5G时代大趋势下,依托阿里云庞大的业务群,将在IPv6+ 、云边一体超融合边缘网络、新型DNS技术架构、下一代可预期服务化网络、以及新一代超低延时网络和池化数据中心等方面持续开拓创新,为我国独立自主掌控先进的基础网络技术做出重要贡献。(完)



你可能还想看

1. 对话阿里云张献涛:距离云计算终极目标还有多远?

2. 重点项目却总是腐化,程序员为什么会写烂代码?

3. 钉钉总裁不穷:周末最烦写周报还有被人钉

4. 我在支付宝体验技术部这四年学到了什么?

5. Flink CDC 2.0 正式发布,详解核心改进

END

关注「凌云时刻」并设置星标✨精彩推送不错过

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存