查看原文
其他

大模型时代,创新智算基础设施的挑战与应对之道

信创咨询
2024-10-31

点击 信创咨询 并设为星标⭐️ 及时获取最新资讯

编者按:在“百模大战”硝烟弥漫的今天,不仅智能算力需求将加速释放,也将带来信创AI的又一轮迭代和高爆发。



编辑|信创咨询公众号(ID:XConsultancy)出品 | 信创观察组转载|请注明出处



前不久,中国电信AI算力服务器(2023-2024)集采项目启动。备受业界关注的是,这不仅仅是中国电信第一次将AI算力服务器作为独立品类进行集采,而且其中鲲鹏相关的AI算力份额接近50%。可以说,中国电信这一轮集采其目标就是瞄准了大模型训练。当然,这批AI服务器目测不仅仅是服务于中国电信自研的大模型训练,也将为更多中国电信的用户提供大模型训练所需的算力服务。中国电信的这一轮集采,说明了以运营商为代表的算力供给方,其算力布局的重心已经开始向智算倾斜。但,这只是一个切面。


近几年,随着“东数西算”和智能计算中心的加速落地,以及国家对于新基建的政策扶持,各地也都纷纷开始大力推进AI计算及研究。国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,截止2023年1月,全国有超过30个城市正在建设或提出建设智算中心。“十四五”期间,对智算中心的投资可带动人工智能核心产业增长约2.9到3. 4倍。未来5年,中国智能算力规模年复合增长率将超过50%。到2025年,中国人工智能核心产业规模将超过4000亿元,带动相关产业规模将超过5万亿元。


在“百模大战”硝烟弥漫的今天,可以预见的是,随着大模型训练带来的数据量、参数规模的“指数级”增长,以及东数西算工程建设的逐步落地完成,不仅智能算力需求将加速释放,也将带来信创AI的又一轮迭代和高爆发,国内信创AI算力的建设即将进入崭新的发展阶段,也迎来新的挑战

01

智算时代,基础设施面临新问题与新挑战

         


近年来,集算力、存力、运力于一体的综合算力水平,越来越成为基础设施建设高质量发展的新评价指标。据中国信息通信研究院近期发布的《中国综合算力评价白皮书(2023年)》显示,截至2022年年底,我国算力核心产业规模达到1.8万亿,算力总规模达到180EFlops,年增长率近30%;存力总规模超过1000EB;国家枢纽节点间的网络单向时延降低到20毫秒以内。但即便如此,随着大模型时代的到来,算力需求暴涨、运力压力剧增、数据安全隐忧等诸多挑战依然严峻。


从算力层来看,算力发展应用多元化、供需不平衡、分配不平衡、效能比不平衡的挑战仍在持续,计算技术亟需在理论架构和软硬件实现层面产生质的飞跃。据行业调研分析,预计到2030年全球智能算力将达到105Z Flops,是现在500倍,增长速度远超通用算力的10倍。但国外目前尖端的A100、H100 GPU处理模块不对我国市场开放,而专门针对中国市场推出的A800和H800又一卡难求,交期漫长。其次,目前国内大模型的训练还是“高端局”,算力供给也相对集中向几个大厂配给,企业用户想要获得算力的资源比较困难,算力分配上也存在不均衡。最后,建立一个智算中心成本通常以亿为单位,数据模型训练成本也在千万级徘徊居高不下,大量的场景需求和大型AI算力中心建设的高准入门槛相互对立,进一步加剧了供需矛盾。


在基础网络层,大模型极其庞大的参数规模,对运力提出了严峻挑战。从2017年到2023年,不到10年的时间里,大模型参数从千万级规模增长到5000亿级,暴增了5万倍。由于参数量巨大,单个GPU卡早已不堪重负,多卡互联形成智算算力集群是目前的主流解决方案,但国内传统使用的无链接网络技术和向上收敛的网络架构,在通信连接、算力调度、稳定性等方面仍有诸多问题,丢包、重传等频繁出现对智算中心模型训练将会带来致命问题。


同时,大模型时代,数据安全也毫无疑问面临更多挑战。企业使用大模型+AI算力中心赋能数字化转型,往往需要经过预训练,精调,推理等三个环节。但无论是客户使用AI算力资源,上传数据到厂商环境训练,还是模型落地企业客户本地化私有部署环境,或者精调、训练等环节都不免会涉及数据和模型泄露的风险。


02

创新智能基础设施全栈智算解决之道

         


近日,在世界制造业大会上,作为神州数码信创产业布局的核心载体,神州鲲泰针对中国智造的实际场景,提出了应对创新智算基础设施挑战的解决之道。


所谓创新的智算基础设施,一方面更加强调用中国自主创新技术,赋能基础设施层的创新和迭代,另一方面也体现自动生成式AI带来的巨大变革。当前创新的智算基础设施,正在成为包括中国智能制造在内的各行各业数字化转型的坚实基础,构筑强大的底座。


针对算力挑战,神州鲲泰基于昇腾主板的全系列AI服务器,覆盖从训练到推理的全部场景,平台的处理能力非常强大,并具备完善的服务体系和本地化交付能力。针对数据安全挑战,神州鲲泰结合自身全系列基于鲲鹏底座的通用算力产品,构建“CPU+GPU+SPI”的异构智算算力平台,更好地满足国内企业数字化转型对算力和安全的需求。针对运力挑战,通过神州鲲泰独有的云管理平台,以及AI服务器和网络的深度融合,能自动实现对网络节点的快速配置和调优、验证,以及智算算力中心全局端到端流量负载分担,保证算力数据的高效转发,努力实现“零差错、零丢包”,训练效率相较同类型产品提升20%。与此同时,分布式全闪智算存储平台,基于全闪的存储介质,能很好的满足对于存储性能的要求,采用分布式存储技术,充分满足对于存储容量的需求,成为支撑智算中心高效运转的存力底座。


与此同时,基于三个产品平台,神州鲲泰正联合生态伙伴,推出了一系列满足企业数字化转型场景使用的方案型产品,包括超融合一体机,分布式全闪存储一体机,数据安全一体机,为企业客户提供更便捷、易用的场景化方案产品。


深化自主创新,赋能数字产业发展,创新智能基础设施全栈智算解决之道是神州鲲泰给出的回应和解答,深度融入“鲲鹏+昇腾”产业生态,凭借神州数码20年的深厚产业理解和数字时代的前瞻预判,神州鲲泰正走出自己的独特智算路径


智算神州 鲲泰领航,数字时代正扬帆启航。



END

 

点击图片查看完整内容:


个人观点,仅供参考
继续滑动看下一个
信创咨询
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存