序言
蜂窝坍塌?6G时代的算力网络探究
文 | 特约专家 刘鹏
总编辑的推荐
在继《蜂窝坍塌?关于6G架构变革的思考》、《蜂窝坍塌?关于6G天地一体化数据中心的构想》之后,刘鹏先生“6G三部曲“的第三篇出炉了。这一次,刘鹏先生把目光聚焦在了6G时代的算力网络上。毫无疑问,这又是一个十分现实并具有重要意义的话题。
关于算力网,这是已经行走在全球通信头部的中国业者所率先倡导、实际推动的概念与实践。特别是中国联通等运营商关于算力架构的较早发表、李正茂先生“算力时代三定律“的提出,乃至主管部门“东数西算“工程的推进,算力网正在成为一个行业热词。这种热,体现在对现有网络算网一体架构的变革,更体现在算力网商业模式的设计和商业价值的达成。
往往从技术实现到商业成功,是一个最难的跨越。虽然6G的定义我们还没有完全确定,但可以肯定的是,算力必然是它的核心能力。可见,当6G真正来临的时候,或正是算力网商业实践成功之时。更早讨论6G的算力网架构,十分现实,也具长远。
刘鹏先生作为长期耕耘通信产业一线的资深通信人,在6G正在找方向、做定义的预研期,发表“6G三部曲“,就算力网架构给出建议,十分值得赞赏。刘鹏结合算力网”时延、带宽、确定性”等三个瓶颈,分析探讨了分布式融合边缘节点CT-IPS的能力、冯诺依曼架构的挑战与变革、以及TCP/IP“尽力而为”协议的挑战和确定性网络变革,并给出自己的观点。
正如刘鹏先在文中所述,6G、数字化发展、智能化转型、乃至眼前的“算力网络”,都充满了未知的领域、充满了世界性竞争与博弈、充满了无人区的变革与创新,容不得我们业界的丝毫懈怠。确实如此,作为数字社会建设的主导力量和主要承载者,通信产业扮演着数字化重构的关键角色,而不仅仅是销售额、利润,和为之驱动的盲目的技术迭代、不明就里的商业故事。
6G既然是全新的事物,发展6G,希望业界也走出过往1G2G、到5G的路径惯性,多问几个为什么:为什么要6G?需求在哪里?产业在何方?还要适度超前吗?
《通信产业报》全媒体总编辑
辛鹏骏
5G移动通信在全国风起云涌,到2022年底基站数达到200万个,5G个人用户达到5.6亿,ToB的应用达到成千上万。
5G业务以燎原之势遍布各行各业,其中以AR/VR的AI视频领域为引领的各行各业的应用让我们充满了期待。例如4K视频传送、虚拟博物馆、虚拟航空驾驶、跑车赛道、3D游戏、局域自动驾驶仪(矿业运输、公交等)、矿业的自动掘采、钢铁工业的高精度炼钢、机器视觉、生物微生物培养的高精度识别、智慧农业等等。在这些应用的背后展现了“算力”的威力,正是这些算力把社会每个人、每个行业所形成的无穷多的数据通过算法赋予了生命的活力。正是算力促进每种应用迈向逻辑化、精准化、自动化、智能化。
谈到算力构架,计算的内涵之一是分布式计算模式。但对于大多数ToC应用,由于时延要求不高,云计算大多是集中化的大型数据中心和计算中心,强调的是数据处理的低成本计算能力。随着ToB数字化转型的需求,算力(算力网络)更强调及时迅捷的“数据获取、数据处理(算法)、输出人们想要的处理结果的能力”。中国移动在算力网络白皮书中表述:算力网络是以算中心,网为根基,网、云、数、智、安、边、端、链等深度融合,提供一体化服务的新型信息基础设施。目标是实现:算力泛在,算网共生、智能编排、一体服务,达到“算力无所不在,智能无所不及”的愿望。
应当清醒的看到,在这么多ToB的应用当中,算力(算力网络)还有很多的瓶颈,还有很长的路要走。归纳起来主要有三大瓶颈与挑战:
1、时延:在自动化、高精度、智能化的一些应用中,时延成为最大的瓶颈。影响时延的因素很多,例如:视频编解码、算力架构与芯片、传输带宽等等。
2、带宽:随着进入企业数字化转型的时代,由于各行各业应用的算力数据庞杂、巨大,数据的获取会以视频为主、就会以大量的上传为主,就要求有更高的带宽,加之对时延的要求,对上行带宽的刚性需求成为5G乃至6G时代无线亟待需要解决的问题。
3、确定性:由于大量的ToB应用多是在特定区域(例如企业园区)、特定的环境下,其算力在时延、带宽可以满足的条件下,需要更便捷、更确定、更安全的抵达各个应用节点和终端,而这些便捷的抵达不能是尽力而为的,是必须确定的。这就要求算力的传送要具备“确定性”。
为了解决算力在应用层面的三大瓶颈和挑战。业界在通讯架构及产品、算力架构(异构)、芯片、各种通信协议进行了多方的深度变革和创新,取得了一些成果,但距离解决算力的三大瓶颈还有很长的路要走。如果能用一个公式来表示理想的算力网络的效率,应该是这样的:
算力网络效率=算力异构平台效率*算力数据传输带宽/算力数据传输时延,即算力网络效率与算力的架构平台效率成正比;与算力数据传输带宽成正比;与算力数据传输时延成反比。
值得说明的是,算力网络效率在不同行业的不同应用场景下都有其匹配和适应的算力效率值,不同场景的算力效率、算力平台单元、算力传输带宽、算力传输时延都将是差异化的,实现以场景需求主导的最佳匹配,使得全网范围内实现应用场景需求与算力网络效率和算力网络资源的实时、灵活、智能匹配,将是算力网络的关键技术和最难的挑战。
本篇尝试在算力网络架构、算力芯片异构、确定性网络的趋势对三大瓶颈的影响和变革方面进行粗浅的探讨。
算力网络架构趋势
分布式融合边缘节点
数据成为土地、劳动力、资本、技术之后的第五个生产基础要素,其受重视程度不断提升。算力成为继电力、热力之后新的关键生产力,成为衡量一个国家数字经济发展水平的重要指标。
在基于传统的纯粹计算能力(云计算的算力平台由IaaS、PaaS、SaaS-IPS组成)提升的基础上,我国通信界率先提出算力网络这一原创性技术理念,将依托高速、移动、安全、泛在的网络连接,整合网、云、数、智、安、边、端、链等多层次算网资源,提供数据感知、传输、存储、运算等一体化服务的新型信息基础设施。
从技术架构来说,算力网络是以网络为中心的新型网络计算模型,构建网络与算力的深度融合,是一种根据业务需求,在云、网、边、端之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型泛在一体化信息基础设施。基于最新网络技术,如运用网络功能虚拟化技术(NFV), 算力网络可以有效地将异构算力资源虚拟化。此外,通过云网融合技术和软件定义网络技术(SDN),算力网络还可以以确定性的服务等级将网络中的计算、存储、连接资源进行智能化的有效编排,将计算资源、存储资源等多维异构资源完全融入到网络系统中,使各类资源节点在网络中可以实时交互,并进行多维异构资源的动态调度。
当下需要的ToB云服务已经不单单是传统的云计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
4G时代,由于移动通信的带宽和时延大大改进,改变人们生活的云计算和各种APP应用风起云涌,移动支付、移动游戏、视频浏览、外卖、快递等新兴业务迅速在全国普及,极大的改善了人们的生活品质,促进了国计民生的发展。
但也要看到,4G互联网时代的各种应用基本是ToC业务,其业务量迅猛发展,其带宽和时延(下载速率40-80兆/S、时延大于50Ms)就可以满足,鉴于大多数ToC业务的时延要求不高,成本(地址、能源成本)的诸多因素,使得云计算越来越集中化,远程化。导致了ToC业务的算力架构-“云计算”越来越集中,越来越迁移到土地、能源成本比较低西部(如贵州、内蒙、东北等地),就是我们称之为“东数西算”。
到了5G/6G时代, 对于大部分创新视频类应用,大量的ToB应用,对于AR/VR游戏及应用、机器视觉、自动驾驶、全息通信等业务,目前的云计算集中式的算力架构无法满足这些应用的带宽、时延、确定性传输、信息安全、低成本、人工智能的要求,也背离了云计算分布式的意义。
1、算力网络架构的时延。目前的算力中心大多是集中部署,一个企业时延要求很高的应用也要经过通信网络和互联网“长途跋涉”的到云计算中心去报到和计算,然后再把算力结果原路返回给用户(还有可能受到通信网的选路和互联网协议的尽力而为的影响,加大其时延,影响业务的要求和体验)。
集中式的IPS:IaaS、PaaS、SaaS是对ToC的普适性而不是针对ToB的独特性,更加影响了算力服务的时延(其时延一般大于50ms)。为了改善算力网络架构时延的短板,更好适应ToB的各类应用,业界提出了“边缘计算-MEC”,将计算任务迁移到用户附近的网络边缘服务器,降低核心网和传输网的拥塞与负担,减缓网络带宽和低时延的压力,提高数据处理的传送效率,能够快速响应用户请求并提升服务质量。MEC就是把IaaS、PaaS、SaaS部分与通信需求充分纳入软硬一体,MEC还要求与公有云链接互通,把各种ToB的应用的数据和运算合理分担,在集中云计算的基础上形成新型的算力架构—“分布式融合边缘节点(CT-IPS)”,只不过现在还做的很不到位。
这种架构对阿里、腾讯、百度等拥有传统互联网大型、集中云计算的厂家边缘计算的挑战在于无法满足边缘节点的CT通信功能。
而对于通信运营商的挑战在于IPS的能力有限,尤其是边缘计算的PaaS、SaaS是运营商的短板。
因此,为了降低算力服务的时延,构建“新型算力网络架构—分布式融合边缘节点(CT-IPS)”,就必须是开放式的,充分发挥运营商、互联网厂商、企业(专门应用)三方的长处,实现真正的ToB应用需求。
为了实现ToB的“分布式融合CT-IPS”的算力架构(CT、IaaS、PaaS、SaaS软硬一体),小于1ms-5ms时延的IPS就应该设置在边缘计算(MEC)与终端侧;(例如:自动驾驶的交互数据就应设置在汽车内终端数据模块中),20ms 时延的算力应用就应设立在本地算力中心(例如,VR/AR游戏类业务时延要求小于20ms);大于50ms时延的应用就可以到大型算力中心(距离比较远、能耗成本比较低的的集中算力中心)。
2、ToB应用的信息安全。ToB应用一个重要的特征就是信息安全,企业园区或厂区的用户特征和信息算力的封闭性。
互联网厂家都希望采用共享模式把企业的信息和算力放入他们集中的、大型的“公有云”算力中心,但用户更担心融入公有云算力中心的竞争性信息的安全泄露。
运营商虽然在推进MEC的部署,把UPF下沉到靠近用户一侧,用分流的方式大大降低了转发时延,但其用户特征的控制面还在运营商的核心网一侧,使企业客户失去了用户特征控制面和信息算力的自主性和安全性。
其次企业业务遍布全国或全球,不能完全封闭在“分布式融合边缘节点CT-IPS”,要利用运营商管道、互联网厂家”公有云”实现“私有云”与“共有云”的灵活切换,才能运作。因此,“分布式CT-IPS”必须合理分流,利用运营商的管道把可以对外的信息算力与互联网厂家的公有云“集中式IPS算力中心”对接(或者特大企业会利用运营商的特殊管道—切片技术,构建自主的私有云)。无论是公有云还是私有云,私有化和混合云部署都更适合目前中国产业升级的现状,在互联网行业普遍上云以后,剩下的传统产业需要分布式、全栈式、一体化的边缘计算服务来衔接云和端。
由此得出结论,要想提升算力网络效率,适6G时代ToB的各种应用,应该针对不同应用场景,在集中式云计算IPS的基础上构建“分布式融合边缘节点—CT-IPS”的算力网络架构。
算力异构平台的效率
XPU融合异构平台的趋势
算力网络效率与算力异构平台效率成正比是业界对算力架构逐步达到的共识。近几十年来算力背靠冯*诺依曼架构、摩尔定律、阿姆达尔定律得到了长足的发展,但现在面临瓶颈期挑战。
集成电路诞生几十年后,产业界和学术界公认有三座算力墙:1995 年后内存性能和CPU 性能错位形成的内存墙(memory wall);2005 年后 CPU 性能和芯片功耗错位形成的功耗墙(power wall);2015 年后CPU 性能和 I/O 带宽错位形成的 I/O 墙(I/O wall)。为了跨越三堵高墙,提高算力及效率,维持一个平衡的系统,芯片架构、编程模型、编译器和软件工程的研发人员使出浑身解数,设计出了很多复杂的机制。最为有希望的是推出算力XPU芯片及算力异构平台,成为来算力网络架构的基石。
1、功耗墙、I/O墙,内存墙的挑战
到了后摩尔定律时代,晶体管的数量提升一方面是制程的缩小,一方面是工艺的革新,具有里程碑的意义的是浸润式光刻机、FinFET鳍式场效应晶体管、3D堆叠。
25年间主频提升了约1000倍,而功耗只提升了30倍,从Intel的CPU来看,每代大约电压降低15%,电压从5V降低到1V左右,因为约40%功耗是由于电流泄露造成,电压继续下降则会遇到晶体管泄露电流加大导致开关状态不稳定或者失灵。因此,当CPU主频在提升到5GHz以后功耗墙出现了,当没有采用新的材料和突破性工艺之前,电压很难下降、则主频提升越来越难。另一方面,在不考虑散热成本的情况下,瓦特效能=算力/功耗快速下降也失去了经济性。这是功耗墙的另外一个佐证。
算力的核心是计算能力,这些年演进的线路大致是按照:提升CPU主频,提升PCIE总线速率,提升内存主频和带宽三条主线开展。通用CPU差不多每10年一代架构,近年来,围绕提升单核效能->多核数量-->提升多核协同效能这样的线路缓慢前行。
衡量单核效能的一个关键指标是IPS(Instructions per second)每秒执行的指令数量,主频的提升贡献很大,流水线并行几乎发展到极致,最后是分支预测效率。
计算单元板卡间的总线除了提升主频,另外一个思路是并行和更高的协议来提高效率,当计算单元的算力增长超过了互联极限,I/O墙出现了。一个典型案例是,随着CPU运算能力越来越强,冯·诺依曼架构下的内存成为瓶颈,内存墙实际是I/O墙的一个分支,这些年解决内存墙的主要技术手段是:更短的缓存时延,更大的多级缓存(容易),集成HBM(高带宽内存),也就是说挑战I/O极限的主流从板卡级互联走向芯片互联。
另一个算力提升最重要的技术线路是异构计算,其核心思想是不同类型的计算交给更合适的架构,比如说X86更合适通用计算,ARM更合适低功耗平台,FPGA更合适超大规模并行,NP更合适网络报文处理。AI算力是近年来比较热的领域,其核心是矩阵运算,得益于GPU庞大的流处理器单元,成为主流部件。很多初创公司通过定制芯片,针对特定的AI算法,实现了远超通用CPU的算力能力。
2、并行计算的极限:阿姆达定律(Amdahl's Law)的启示阿姆达定律用公式量化了计算的串行和并行部分对整体系统性能的影响。
对于可并行的部分性能提升公式为: S=1/(1-α)+α/K。
α为系统可并行计算的某一部分占用的时间,K为这部分提升的倍数。
以多核系统为例,当核数量无限时,K并不是趋于无穷大,K更多的受限于多核间的效能。故而提升算力K最有效的途径为:在提升核数量的同时,提升多核协同效率。
随着制程的缩短,同样面积的硅片上可容纳的晶体管数量增加了,CPU核数量增加了,同时良品率下降了,一个成品的128核CPU成本远超一个32核的,Chiplet小芯片技术应运而生。但是互联的核越多,互联效率越低,这是由于共享三级缓存调度效率越差。新一代的CPU架构中是把缓存本地化更靠近当前CPU(近核缓存,存算一体),另一个方向是提升互联的总线带宽和更有效率的互联协议。
3、从板卡级互联走向芯片级互联:
Chiplet架构的兴起。
Chiplet(小芯片)技术是一种短周期、低成本的集成第三方芯片例如I/O、存储芯片、NPU等的技术,被视为延缓半导体摩尔定律的解方,是硅片级别的IP重用。通过搭积木方式将数据存储、计算、信号处理、数据流管理等功能通过die-to-die内部互联技术连接在一起形成一个小芯片的芯片网络,形成异构的System in Packages(SiPs)芯片。
Chiplet架构有同构和异构两类,同构架构中最典型的就是多核CPU;异构的架构最典型的就是HBM(high band memory)内存的使用,所谓的存算一体化。
另一个衡量系统的指标是瓦/带宽,实测HBM比传统GDDR低50%。带宽大,功耗效率高,尺寸小,完美延缓了功耗墙、内存墙的历史进程。
HBM内存同样大规模应用于多种AI芯片,以提供巨大的片内内存阵列,这是专用AI芯片远超通用显卡效能的密码,这类芯片也被称为GPGPU(据悉国内红山集团已经量产了7nm的GPGPU芯片),以实现高速超算能力。
4、异构计算架构的趋势展望
新型算力的提出和异构计算单元。
近年来,不同类型的计算和工作负载呈现爆炸式增长,产生了许多不同的芯片架构、计算模型,让合适的人做合适的事,低成本快速应对,是异构计算兴起的商业逻辑。常用的三种计算模型:传统通用算力单元CPU,AI算力单元GPU/GPGPU,网络算力单元DPU。
尤其值得关注的是人工智能,神经网络是目前比较热门的新型计算领域,常见的深度学习算法包括:受限波尔兹曼机(Restricted Boltzmann Machine,RBN), Deep Belief Networks(DBN),卷积网络(Convolutional Network), 堆栈式自动编码器(Stacked Auto-encoders)。目前的深度学习模型主要是基于张量(tensor based)模型,很多 AI 处理器会着重加强自己的乘累加(MACC,基础的矩阵计算操作)处理能力。GPU成为AI算力的主流得益于其流处理器数量巨大,NVDIA的CUDA架构成为很多开源算法的标配实现。
而专用的ASIC多采用HBM来实现矩阵高效处理。
已知的三大类算力:CPU/GPU/DPU,未来是否会出现xPU?答案是肯定的。xPU可能的方向有:针对虚拟现实AR/VR的算力(渲染和网络),针对强人工智能的神经元,量子计算等等。
三大算力中,CPU发展最慢,受限于工艺制程、主频和核数量提升缓慢;GPU发展最快,得益于AI的兴起,主流依然在堆处理单元数量,并没有绽放新的算法之花。DPU百花齐放,流派众多,但是主流的网络协议TCP/UDP没有变化(尽力而为的互联协议也会成为算力网络的挑战,下节再述)。当400G网卡成为数据中心标配以后,1Tb的网卡何时出现?量变是否引起质变?导致CPU架构革命性的变革以适应这种不平衡,而不仅仅是DPDK这样的软件架构,从目前来看CPU核的数量和计算能力赶不上网络需求。
在新的xPU融合架构出现之前,三类算力是一个永恒的矛盾三角,总有一个角因为发展的不平衡导致瓶颈。
算力和网络现在几乎是同等重要的两极,云计算(分布式计算)离不开高效的网络。通信网络要根据算力业务所要求的时延、带宽、确定性、安全等级实现最佳的匹配是算力网络最重要一环,对于日益兴起的ToB业务,在传统的“宏”网络通信的基础相上,构建边缘融合节点的分布式CT-IPS就显得更为重要。
2、三大算力之间的等效比是异构计算能力的标尺。
3、瓦特效能(算力/功耗比)是衡量异构计算的商业基础。
4、CPU+DPU,GPU+DPU是异构计算的重点方向。算网一体化是未来趋势。
5、算力网络效率作为生产力要素不可能依赖无尽的投资,应用是算力发展的推手,应从分布式应用入手扩展到整个异构算力网络结构。
实施确定性算力网络的SDN化
(TCP/IP协议“尽力而为”的挑战与变革)
计算机网络从逻辑功能上看就是以传输信息为基础目的,用通信线路将多个计算机连接起来的计算机系统的集合,一个计算机网络组成包括传输介质和通信设备。20世纪70年代末至90年代的计算机网络发展到具有统一的网络体系结构并遵守国际标准的开放式和标准化的网络,形成了两种国际通用的最重要的体系结构,即TCP/IP体系结构和国际标准化组织的OSI体系结构。
层次化结构设计的基本原则就是:各层之间是相互独立的;每一层需要有足够的灵活性;各层之间完全解耦。(如下图所示)
回顾通信网络数据交换方式变迁历程,大概如下图所示,刚性管道按空分或时分划分通道,其优势是独占通道,QoS保证,但缺点则是资源无法复用,利用率低。柔性管道则是分组交换,统计复用,优势是资源利用率高,缺点则是共享带宽,QoS保证困难。
网络层的目的是实现两个端系统之间的数据透明传送,具体功能包括寻址和路由选择、连接的建立、保持和终止等。数据交换技术是报文交换(基本上被分组所替代):采用储存转发方式,数据交换单位是报文。
而TCP/IP协议对应二层的帧通信和三层的包通信都是无连接的、不可靠的通信方式。如果帧在传输中丢失,通信双方的二层、三层功能模块都发现不了。
TCP/IP三层网络层的核心协议为IP协议。IP协议非常简单,仅仅提供不可靠、无连接的传送服务。IP协议的主要功能有:无连接数据报传输、数据报路由选择和差错控制。所有网络物理设备通过使用IP协议,屏蔽了物理网络之间的差异;当网络中主机使用IP协议连接时,无需关注实际物理网络细节,使得复杂的实际网络变为一个虚拟互联的网络;并且解决了在虚拟网络中数据报传输路径的问题。
虽然TCP/IP协议对互联网发展、对ToC做出了巨大贡献。但基于TCP/IP技术“尽力而为”的互联网只能将端到端的时延减少到几十毫秒。但无法满足许多的新兴业务,例如智能驾驶、车联网、机器视觉、AR/VR、AI等的时延要求,这些新型业务需要将端到端时延控制在微秒到几毫秒级,将时延抖动控制在微秒级,将可靠性控制在99.9999%以上,远远超过传统运营商99.999%的要求。因此,迫切需要现有网络能够提供“准时、准确”的数据传输服务质量,也即确定性的网络服务能力。
2、确定性算力网络(SDN)
以TCP/IP协议的互联网技术已经提供成百上千的应用服务,譬如语音通话、视频会议、电子商务、游戏娱乐等等,取得了极大的成功。根据全球移动数据流量预测报告显示,到2020年全球IP网络接入设备将达263亿,其中工业和机器连接将达122亿,相当于总连接设备的一半,同时高清和超高清互联网视频将占全球互联网流量的64%。
但是,激增的ToB数据业务,如视频流量、工业机器通信、精密农业、智能服务业,带来了大量的拥塞崩溃、数据分组延迟、远程传输抖动,需要现有网络能够提供“准时、准确”的数据传输服务质量,也即确定性的网络服务能力。
确定性网络的技术关键在于实现确定性时延、抖动、丢包率、带宽和可靠性等。确定性时延主要通过时钟同步、频率同步、调度整形、资源预留等机制实现;确定性抖动和丢包率通过优先级划分、抖动消减、缓冲吸收等机制实现;确定性带宽通过网络切片和边缘计算等技术实现;确定性可靠性通过多路复用、包复制与消除、冗余备份等技术实现。
确定性网络技术目前主要包括:灵活以太网(Flexible Ethernet,FlexE),时间敏感网(Time-sensitive Networking,TSN),确定网(Deterministic Networking,DetNet),DIP(DeterministicIP)技术,确定性 WiFi(Deterministic WiFi,DetWiFi),以及 5G 确定性网络(5G Deterministic Networking,5GDN)。
在确定性带宽保障方面,运营商5G网络的传输采用了FlexE 通过接口技术在物理层和链路层之间插入中间层,实现业务速率和物理通道速率的解耦,提供比传统以太网更加灵活的带宽颗粒度,支撑高速大端口 400GE、1TE 等演进。通过灵活的物理接口捆绑和逻辑接口划分,提供子速率承载、硬管道及隔离等机制,构建智能端到端链路,实现网络切片,支撑带宽资源弹性灵活的分配和保障,达到数据传输更便捷、更精准、更迅速、更安全的“确定性”目的。
为保证确定性时延,IEEE TSN工作组和 IETF DetNet工作组分别聚焦于链路层和网络层的确定性技术,提出了全网时钟/频率同步机制和基于时隙的门控优先级队列调度机制,即先通过门控优先级队列将时延敏感流和尽力而为流隔开,再从时间上或空间上将时延敏感流隔开,从而使网络出端口不发生排队或具有有界的排队时延。
在无线确定性方面,5G采用高可靠通信技术,通过子载波、特殊帧结构等技术来实现 99.9999%的确定性连接可靠性,通过网络切片实现确定性带宽保证,借助低延迟技术和边缘计算等实现端到端确定性控制。
以上确定性网络技术都的关键是SDN(软件定义网络:Software Defined Networking)的实现。Flex E可以与SDN技术结合实现对L1层的传输控制,实现网络动态调整。目前灵活以太网技术主要用于5G承载网场景,作为未来网络体系的基础性技术,还将进一步扩展至其他网络场景。TSN桥是将控制面和数据面分开。控制协议作为高层的实体,可以通过使用SDN 控制器编排代替分布式协议提供控制能力。DetNet WG采用类似于软件定义网络范例的方法,为DetNet起草了一套TE架构,和集中式SDN方法具有相似之处。整个架构分为应用层面、控制层面和网络平面,并且在控制层面对DetNet流进行全局规划。这种DetNet流量工程架构设想了一种高度可扩展、可编程和通用即插即用的方案,其网络功能和配置便于进行实现和扩展。
确定性网络用于提供实时数据传输,基本特征就是保证确定的通信服务质量如超低上界的时延、抖动、丢包率,上下界可控的带宽,以及超高下界的可靠性,灵活切换确定性服务和非确定性服务,自主控制提供确定性服务质量的等级。通信运营商则可以深入产业一线定制化弹性供给确定性网络服务,确定性网络服务能力一体化与多样化和谐并存。
3、确定性算力网络相关核心技术(SDN&NFV&SD-WAN)
回顾历史发展,SDN(Software Defined Networking)为什么能快速发展起来?主要是在网络数通领域,由于协议的复杂度和历史习惯,过去一直采用命令行的方式执行业务开通和运维任务,随着网络规模和复杂度持续增长,人工操作响应速度慢,错误率高;同时人员成本越来越高,必须要提升网络运营/运维的效率;而且随着云计算的普及使得计算可浮动,网络要随计算负载的变化而变化;同时IT行业软硬早已实现了分离,应用的需求变化快,功能及架构演进相匹配,而网络还是专有芯片/封闭体系,演进缓慢,尤其是5G/6G时代的ToB业务要求算力网络的确定性。所以在SDN出现后获得业界共识,得以快速发展。
要实现SDN化的算力网络下面几点是必须实现:(1)网络可编程,强调网络设备接口开放可编程,应用和控制器可以订制设备的转发行为;软硬件分离,网络创新不再依赖于硬件厂商。(2)网络自动化,强调客户的网络业务意图的自动化实现,关注北向接口的抽象简化,不关注底层是专有还是开放硬件系统,完全屏蔽或者部分屏蔽底层硬件物理架构。(3)全网的自动化、智能化编排,统一所有设备的北向接口数据格式,实现不同业务、不同到达位置、不同时延等级、不同带宽的最佳匹配。要达到这些,运营商还有很长的路要走。所以,算力网络不是一蹴而就,抓主要矛盾,ToB业务的分布式融合边缘计算CT-IPS的率先实施就显得更加重要。
NFV(网络功能虚拟化:Network Functions Virtualizatio)是SDN化确定性算力网络的基础,利用虚拟化技术将网络节点阶层的功能,分割成几个功能区块,分别以软件方式实现,不再拘限于硬件架构。网络功能虚拟化(NFV)的核心是虚拟网络功能。它提供只能在硬件中找到的网络功能,包括很多应用,比如路由、CPE、移动核心、IMS、CDN、饰品、安全性、策略等等。网络功能虚拟化(NFV)技术的目标是在标准服务器上提供网络功能,而不是在定制设备上。
SD-WAN起初是ONUG(Open Networking User Group)在2014年作为SDN在企业分支领域的一个应用而提出,但很快成为一个独立的分支快速发展起来,和Hybrid WAN等概念共存、融合。从一开始的利用普通互联网代替MPLS,逐渐演变成和MPLS共存,甚至与4G LTE、5G等无线网络一起共存,并且目前已基本形成将多种网络融合、安全和WAN优化作为SD-WAN关键特性的共识,同时又将SDN的自动化也作为重要特性融入其中,实现了很多大企业“确定性”局部算力网络的最佳实践。
可以得出结论,5G乃至未来6G的许多新兴业务需要算力网络实现确定性时延、抖动、丢包率、带宽和可靠性等。而传统的互联网传输协议TCP/IP、UDP尽力而为服务质量无法满足,迫切需要现有网络能够提供“准时、准确”的数据传输服务质量,也即“确定性”的网络服务能力。
总结与展望
综上所述,算力网络是帮助各行各业数字化转型,5G亟待发展的2B业务,更是业界力推6G时代算力网络的通信趋势。
1、应当清醒看到算力网络仍存在时延、带宽、网络确定性三大瓶颈,也是算力网络效率的关键指标和标志。
2、提升算力网络效率,适5G/6G时代ToB的各种应用,应该针对不同应用场景,在集中式云计算IPS的基础上构建“分布式融合边缘节点CT——IPS”的算力网络架构。
3、为了解决后摩尔定律时代面临的挑战,要构建传统通用算力单元CPU,AI算力单元GPU/GPGPU,网络算力单元DPU等等算力混合异构平台——XGU(服务器),根本上解决算力效率的瓶颈。
4、用确定性网络技术SDN解决算力网络TCP/IP尽力而为、无连接、不可靠通信的ToB服务质量的瓶颈问题。保证确定的通信服务质量如超低上界的时延、抖动、丢包率,上下界可控的带宽,以及超高下界的可靠性,灵活切换确定性服务和非确定性服务,自主控制提供确定性服务质量的等级。
后记
终于完成了蜂窝坍塌6G未来网路三部曲的最后一篇。
第一篇“蜂窝坍塌?关于6G架构变革的思考” 论述了6G太赫兹环境下,网络核心网、传输、无线接入架构的深刻变革,尤其是通信协议在MAC层的弊端和变革的必要性,也是无线人梦想提高频谱利用率不由之路。如果想在6G上有大的作为,就应该从毫米波开始进行变革,重构其网络架构和协议栈,为未来6G网络独占鳌头奠定基础。
第二篇“蜂窝坍塌?关于6G天地一体化数据中心的构想”论述了网络架构和业务需求的背后的数据中心建设、组网的特征和技术趋势等问题的探讨,尤其是:
(1),交互时延是未来6G天地一体化数据中心及其组网的重要指标,而不必拘泥地面或太空。
(2),建立太空数据中心,满足卫星通信外,尤其是把能够允许20ms-50ms及以上时延的地面数据中心部分或大部分迁移到太空中去。
可以预见这两个重要诉求将会成为未来6G天地一体化数据中心组网碳达峰碳中和的必然途径,应该成为我国未来6G天地一体化组网的重要远景。也是实现未来“地数天算”梦想。
2、冯诺依曼架构的挑战与变革;
3、TCP/IP“尽力而为”协议的挑战和确定性网络变革。
这里所谈的效率应是根据业务不同应用不同的算力平台、算力传输带宽、算力传输时延最佳匹配的算力网络效率,这也是算力网络关键技术和最难的挑战, 它的实现完全需要运营商算力和网络自动化、智能化,现在还远远达不到要求。
其实6G未来网络、企业和社会化的数字化、智能化转型、三大运营商倡导的“算力网络”都充满了未知的领域、充满了世界性竞争与博弈、充满了无人区的变革与创新。容不得我们业界的丝毫懈怠。尽管产学研都在不懈努力,也取得了一些成绩,但仍然不尽人意,甚至在很多所涉及的领域远远落后于美国。其主要症结在于我们不能充分理解“百年之未有大变局”的机遇、不能充分解放思想、不能勇闯无人区变革创新,当然也受制于我们理论科学、前沿技术和工艺瓶颈等因素。要比当年5G研发时期的局面困难的多。
所以,衷心希望业界同仁能够励精图治,不能固步自封、不能躺在5G辉煌的成绩之上,因循守旧。
遵循第一性原理与准则,勇于变革创新。再创6G时代和算力网络新篇章!
刘鹏,教授级高工,长期耕耘在通信产业一线。曾任邮电部第四研究所产业部主任、副所长,主管研发管理及产业推广。后长期在中兴通讯多个部门担任负责工作,任中兴通讯副总经理。曾担任国家3G专家组成员。
在2003-2004期间,代表中兴在业界首次提出了BBU+RRU解决方案和运维工厂的理念,有效解决了当时TD-SCDMA大规模组网馈线无法落地的问题,并开创了移动通信网络架构新模式。
编辑:晓燕