构筑AI时代的数字底座。
一线谈:智算中心的挑战与应对
数字时代下,谁是智算中心的领航者?智算中心将会给行业带来哪些影响?如何充分发挥智算中心的技术优势,构筑数字经济算网新底座,助力产业数字化发展?
智算中心发展面临五大挑战
近日,地处京津冀交汇的黄金区位的中国联通京津冀数字科技产业园投产运营正式启动。首期已交付一栋研发楼和4500架8KW机柜,将为智能产业数字科技提供智算服务与生态企业科创载体。在工程进度方面创造了多个“史无前例”,项目从土建开工到4500架机柜投产交付,整体用时不足一年,真正做到了业界最快。
中国联通相关技术人员告诉《通信产业报》全媒体记者,当前,智算中心发展面临五大挑战。
第一,如何应对组网规模的大幅增长。AI应用计算量呈几何级数增长,算法模型正向巨量化发展,人工智能模型参数在过去十年增长了十万倍,当前AI超大模型的参数已达千亿甚至万亿级别。训练大模型毫无疑问需要超高算力,并且对显存需求也很高。而且,在训练过程中,各类中间变量均需要存储,且中间变量在单次迭代中也会不断增加。更高的显存消耗,意味着需要几十上百个GPU才能完整存储一个模型的训练过程。组网规模的大幅增长,将导致网络管理更加复杂,拥塞控制、负载均衡的难度增加等问题,为智算中心发展带来严峻挑战。
第二,如何满足超高带宽的迫切需求。在AI大模型训练场景下,机内与机外的集合通信操作将产生大量的通信数据量。服务器内GPU要求支持高速互联协议,进一步避免GPU通信过程中依靠CPU内存缓存数据的多次拷贝操作;机间GPU的高速互联也对网络的单端口带宽、节点间的可用链路数量,及网络总带宽提出了更高需求。
第三,如何解决网络时延及抖动问题。当网络拓扑与通信数据量确定时,在数据通信传输过程中产生的网络时延主要由动态时延情况所决定。除时延外,网络变化因素引入的时延抖动也可能导致集合通信的效率变低,从而影响AI大模型的训练效率。因此,如何降低计算通信时延、减少网络抖动、提升网络吞吐是充分释放AI大模型智算中心算力所面临的重要挑战。
第四,如何维持网络的稳定高效。过去5年时间,AI模型参数量从61M增长到540B,翻了近1万倍,面对如此大的变化,集群算力已成为解决大模型训练问题的有效方案。而在算力集群中,网络系统的可用性又对整个集群的计算稳定性起着关键性作用。一方面,集群中一个网络节点的故障可能会影响数十个甚至更多的计算节点的连通性,降低系统算力的完整性;另一方面,网络保证了集群内的资源共享,相较于单个计算节点不容易被隔离,因此性能波动会导致所有计算资源的利用率受影响。所以,在AI大模型训练任务周期中,维持网络的稳定高效是极其重要的目标,对网络运维带来了新的挑战。
第五,如何实现网络自动化部署。智能无损网络的构建往往基于RDMA协议及拥塞控制机制,但与之相伴随的是一系列复杂多样化的配置。其中,任一个参数配置错误都可能会影响到业务的性能,还有可能会引出一些不符合预期的问题。因此,实现高效或自动化部署配置能够有效地提升大模型集群系统的可靠性与效率。由于AI大模型训练中集群规模更大,会进一步增大配置的复杂度,如何实现多台并行部署配置、自动选择拥塞控制机制相关参数,以及根据网卡类型与业务类型选择相关配置等自动化部署配置,是智算中心发展面临的又一大挑战。
如何应对智算中心发展挑战?
作为数字经济时代的关键生产力,随着人工智能、数字孪生、元宇宙等新兴技术的发展,算力需求规模呈爆发式增长,智算中心的重要性愈发凸显。智算中心不仅为企业提供强大的数据处理和分析能力,还通过智能算法帮助企业实现业务优化和创新,促进企业的产业数字化升级。
天津移动规划技术部算网能力室经理李强在接受《通信产业报》全媒体记者采访时表示,智算中心是指基于智能化技术和算法的数据中心,它不仅具备通用数据中心的计算、存储和网络等基础功能,还更加注重数据的智能化处理和应用,以实现更高效、更智能的数据管理和应用服务。智算中心和通用数据中心在多个方面存在显著的不同,主要体现在算力供给、客户受众、网络架构等方面。
一个智算中心需要多种技术和产业链企业的支撑,以确保其顺利运行并满足各种复杂的计算需求,具体包括IT基础设施供应商、数据中心建设与运营企业、智算服务供应商、云服务供应商、AI算法,以及模型开发商和软件开发商。
在李强看来,首先,智算中心技术在快速地演进,需要有敏锐的技术触觉。其次,大模型训练要求算力更加集中,规模更大,对智算中心基础设施提出更高要求。最后,交付中的硬件集成和软件集成难度加大。为构筑数字经济算网新底座,助力产业数字化发展,智算中心应该健康发展并发挥其优势。
第一,构建高效的基础设施。运营商及互联网厂商正牵头大规模推进智算中心建设,政府层面对于算力基础设施的“新基建”已成为各实体行业及资本市场期待与关注的焦点。智算中心作为盘活数据资源、整合AI算法的载体,向上拉动智算硬件巨大的需求,向下促进AI应用繁荣,是AI时代重要的战略资源。当前,智算中心由“资源服务”向“应用服务”转变,产业进一步丰富。
第二,合理规划布局。智算中心的建设应该与地区经济发展和产业布局相结合,避免盲目建设和资源浪费;应该根据区域产业发展需求,合理规划智算中心的布局和规模,确保其与当地产业数字化发展的需求相匹配。
第三,加强数据安全保障。智算中心涉及大量数据的存储和处理,数据安全保障至关重要;应该建立健全数据安全保障体系,加强数据安全管理和隐私保护,确保数据的安全性和可靠性。
智算中心应该与当地产业数字化转型紧密结合,为企业提供智能化解决方案和服务,推动传统产业的数字化转型和升级。同时,积极培育新兴数字经济产业,推动数字经济与实体经济的深度融合。
李强表示,当前,各省份均在部署算力规划建设。未来,我国将持续优化算力设施建设布局,促进东西部地区算力高效互补和协同联动,推动算力结构多元配置,逐步提升智能算力占比,推动智能算力与通用算力协同,满足不同类型算力的业务需求。
采写:胡媛
编辑、校对:胡媛
指导:辛文