通信思享 I 张成良论算力需求与光网络发展
中国电信研究院院长张成良分析了算力需求以及大模型对光网络影响,以及算力新时代的光网络发展。
张成良指出,在顶层设计和产业落地加速推进背景下,我们正在迈向万物感知、万物互联、万物智能的“算力时代”,算力深刻影响着人们的生产方式、生活方式、科研范式以及未来的数字化生存图景。
据张成良介绍,2022年,全球计算设备算力总规模达到906EFLOPS,增速达47%。其中,通用算力规模为440EFLOPS,智能算力规模为451EFLOPS,超算算力规模为10EFLOPS。我国智算高速发展,截至2023年8月,中国算力总规模达到197EFLOPS,位居全球第二,智能算力规模同比增长45%
张成良指出,大模型参数持续攀升,超大规模GPU集群成为大模型训练的必要条件,目前预测未来训练所需集群算力将达E级规模。需要从规模、带宽、时延、抖动、稳定性等多个角度分析AI大模型对于智算中心网络需求,以设计高效的集群组网方案,满足低时延、高吞吐量的机间通信。
超大规模组网需求上,在网络规模方面,要求支持万级以上计算节点,提升集群算力。大集群≠高算力,AI场景负载不均是影响集群性能关键因素 ;网络协议方面,支持Infiniband、RDMA、RoCe协议,满足大带宽、低时延的要求。
超大带宽需求方面,要求网络带宽接入速率升级至800Gbps、1.6Tbps及更高;超低时延及抖动需求方面,以1750亿参数规模的GPT-3为例分析,动态时延10us提升至1000us,GPU有效计算时间占比降低10%;网络丢包率为千分之一时, GPU有效计算时间占比降低13%;网络无损是大模型训练基本要求,0.1%的丢包率会造成50%的算力损失。
超高稳定性需求方面,训练期间发生故障需重新安排最优通信模式;网络故障导致训练业务长时间卡死,影响训练效率。
AI大模型时代,东西向流量增加。一个训练任务通常在数据中心内部完成训练;当项目庞大时,需多个数据中心协同完成训练。为减小时延,需通过专线实现数据中心间训练数据传输,资源式专线商业模式暂时无法满足 AI 大数据高效流动需求。
算力需求对DCI的影响上,张成良表示,短期内,算力需求集中在智算中心内部,随着算力规模的持续扩大,算力需求会逐步外溢到多个物理集群间,实现区域内智算协同;同时需要八大枢纽间大容量、高速、低时延互联实现异地备份、分区多活的传输格局。
骨干高速大容量传输方面,波分复用频谱范围持续扩展。当前C6T+L6T波段已经技术相对成熟,相关系统在产业界已经开始部署投产。业界开始探索进一步扩展应用更大光谱带宽的可行性。S波段在学术界的实验中,已经有了相当的研究成果,在产业界而言,S波段光放大器的实现仍然是一个大的技术瓶颈。
大带宽传输是DCI网络最关键技术能力,单载波400G是当前光传送网演进升级的核心技术,是未来至少10年的技术大代际,是构建中长期、面向算力的高品质、确定性运力网络的坚实光底座。
张成良表示,2023年—2024年,骨干网400G将迎来规模商用周期,中国电信将会积极跟进部署。400G技术十年前就已经出现,发展慢的原因是要取得频谱效率和传输距离的平衡,经过多年发展,基于400G的QPSK调制将是400G干线传输的主流选择,目前可以传输2000公里。
对于城域/区域DCI大容量传输,开放解耦盒式波分将是构筑大带宽低成本传输底座的重要选择。低时延方面,中国电信正在打造业界最优、效率最高的枢纽间DCI网络,构筑1ms/5ms-10ms/15ms的多层次时延圈,支持政企OTN/CN2-DCI/DCI波分灵活、多层次组合,提供多AZ/双活/主备等能力,用户数据中心选点无忧。另外,空芯光纤以低时延、低非线性、低色散和低损耗特性或将成为算力通道绝佳解决方案。
高可靠方面,在光网络引入智慧运营可以提升网络可靠性。通过态势感知技术对光纤光缆“哑资源”进行智能监测和数字化管理,提前识别并排除潜在隐患。另外,利用机器学习进行数据挖掘,做到主动运维。
作为通信产业年度风向标活动和跨年思享会,由通信产业报全媒体主办的2023通信产业大会暨第18届通信技术年会,以“AI时代的能力重构与商业创新”为主题,聚集“政、产、学、研、用”的各界力量,分析当下、前瞻趋势,聚焦热点、关注焦点,直面大变局下行业创新与企业机会,共享行业专家与企业领袖智慧,为行业企业发展提供决策支撑与商业判断。大会由主旨论坛和5G-A部署与6G进阶、算网融合与算力服务创新、云电脑发展创论坛暨联通云电脑沙龙6.0三个分论坛组成,共计26场报告,发布7项重要知识成果,超过600位来自信息通信产业链各方的嘉宾和注册代表出席会议。
指导:新文