跨域异构算力网络实验取得阶段性成果,推动算力资源高效协同
近日,第三届算力网络与数字经济论坛暨2024年“算力浦江”总结大会在上海召开。会上,跨域异构算力网络实验验证成果发布。在上海市通信管理局和上海市数据局的大力支持下,由中国信息通信研究院(简称“中国信通院”)、同济大学、上海人工智能实验室、上海新型互联网交换中心牵头,联合上海联通、有孚、沐曦、天数智芯、无问芯穹等多家单位,开展了跨域异构算力网络下的人工智能模型分布式训练实验验证工作。该实验旨在探索有效利用跨地域、架构异构的算力资源的方法,构建聚合零散算力资源的人工智能软件基础设施框架,以提高算力资源可用性和利用率,降低算力资源闲置水平,为实现数据要素跨域流动提供技术支撑。
针对跨域算力资源的联合训练问题,本实验基于通信拓扑感知、资源感知、计算与通信并行的方法,提高算力资源与跨域通信资源的利用率,加速模型训练。此外,本实验基于差异化流水线分割、网状流水线调度、异构流水线非均匀并行等方式构建了负载均衡的模型训练流水线并行方法,进一步提高了异构算力与网络资源场景下的模型训练吞吐率,跨域异构混训效率可达90%。
针对异构芯片的通信闭源不兼容问题,本实验基于现有的底层通信协议,构建统一的通信适配层,利用直接内存访问与CPU辅助中转等方式实现跨生产厂家的智算芯片通信。基于此,本实验实现了异构算力芯片的点对点以及集合通信。本实验完成了跨硬件架构、跨生产厂家的大模型联合训练,打破了传统训练模式下局限于同一厂商的技术栈与解决方案的模型训练常规模式,为统筹利用算力资源提供了更多可能,异构混训效率可达97.5%。
本次实验成果的成功发布是算力基础设施研究领域的重要进展,也标志着跨域异构算力网络应用场景的进一步拓宽。下一步,中国信通院将立足国家东数西算重大战略需求,激活并挖掘潜在的算力资源,为多种类数据要素的跨地域流通持续注入动能。中国信通院将与各合作单位一道,进一步推进多场景下的跨域异构模型分布式训练相关研究,完成相应框架与平台搭建,提升算力资源的利用效率和协同能力,助力构建更加开放、共享、高效的人工智能技术生态体系。同时,中国信通院将持续关注前沿技术的演进方向,深化大规模预训练模型、云计算协同等领域的探索,推动技术成果在产业中的落地应用。未来,中国信通院将携手产业链上下游各方,打造具有国际竞争力的算力基础设施解决方案,为数字经济高质量发展提供坚实支撑,为全球人工智能技术发展贡献中国智慧和力量。
联系人:
张老师
17621686367
校 审 | 谨 言、珊 珊
编 辑 | 凌 霄
推荐阅读
专家谈