其他
星脉高性能计算网络:为AI大模型构筑网络底座
前言
AI时代下的网络诉求:极致网络
网络性能决定GPU集群算力
网络可用性决定GPU集群算力稳定性
创造高性能——AI训练集群下的极致性能网络
超带宽计算节点
多轨道流量聚合架构
异构网络自适应通信
定制加速通信库
驾驭高性能——最大以太RDMA网络的工程实践
端网部署一体化
端网基础环境校验:通过端网状态数据以及周边建设系统的信息采集,在硬件上判断PCIe,光模块,连线等是否正确。在软件上通过配置审计校验端网配置是否正确。 RDMA基础测试:通过运行Perftest,并进行数据采集分析,判断网卡性能是否达到预期。 通信库性能测试:通过运行NCCL/TCCL test,并进行数据采集分析,判断集合通信性能是否达到预期。 模型&可靠性测试:运行典型模型训练,判断业务模型性能是否达到预期;通过设计端侧故障模拟、网络内故障模拟以及交换机配置错误等三类故障来判断业务可用性是否达到预期。
全栈巡检,一键故障定位
业务无感秒级网络自愈
►►►
总结
未来随着GPU算力的持续提升,GPU集群网络架构也需要不断迭代升级,才能保证系统算力的高利用率与高可用性。星脉超算网络作为腾讯大规模训练集群的重要基石,会持续在超带宽、异构网络通信、通信库定制加速、智能监控等技术上不断创新,为AI大模型训练构筑可靠的高性能网络底座。
欢迎关注公众账号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。
注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;
注2:本文图片部分来自互联网,如涉及相关版权问题,请联系:sandyshuang@tencent.com或 mianyang@tencent.com
/
关
注
我
们
/
/ 鹅厂网事/
分享鹅厂网络的那些事