中国信通院郭亮等:异构AI算力操作平台的架构设计与优化策略
The following article is from 信息通信技术与政策 Author 郭亮,赵精华 等
随着数字经济的发展和万物互联的推进,数据量已呈爆炸式增长,算力之争成为人工智能竞争的重要组成部分,数据量的快速增长和数据采集来源的日益多样,使得非结构化数据不断涌现。如何高效可靠地处理与运用这些多元化数据,成为大数据时代亟待解决的核心挑战之一。异构算力平台能够充分发挥硬件优势,适配算法模型对于硬件特性的需求,适应复杂多元的数据形态,满足各类上层应用对计算资源、计算能力的多样化需求。
1 异构AI算力
1.1 异构AI算力概念界定算力是指设备、集群、平台等计算数据的能力,是数字社会发展的重要资源,广泛应用于国防科技、行业转型和移动消费领域[1]。人工智能算力能够解决场景多样化、数据巨量化、部署规模化所带来的挑战,满足实时数据快速增长、非结构化数据加快形成等数据变化产生的新要求,持续不断为人工智能负载提供高并发、高效率的计算能力[2]。异构算力是指CPU、GPU、FPGA、ASIC等多种算力协同的处理体系,能够满足不同场景中的应用需求,实现计算效力最大化[3]。基于此,本文将异构AI算力定义为针对超大规模数据的计算能力,包括E级超算、高性能计算、智能计算等多种AI算力,通过GPU、FPGA、ASIC等异构算力应用于多种AI应用场景。
1.2 异构AI算力部署要求国家高度重视异构AI算力发展水平,明确异构数据协同融合策略,提升算力设施与异构算力适配能力。《“十四五”大数据产业发展规划》从异构数据融合关联和模式创新、产品异构数据兼容能力、大规模数据采集加工、多模态数据分析治理和应用优化等方面,提出多维度异构数据发展策略和相关系统研发方向[4];《“十四五”信息通信行业发展规划》 明确提出异构算力融合理念,重点关注多元算力应用的重点领域,应当在算法框架、算法模型库、人工智能算法平台等多个方面加强多元异构智能设施应用、计算资源集约高效部署和海量异构数据处理能力[5];《江西省“十四五”新型基础设施建设规划》明确要加快多元算力协同,建立起多元协同、数网融合的算力体系,大力支持企业对于多元异构算力的部署、服务和应用[6]。
1.3 异构AI算力发展局限1.3.1 异构芯片适配标准尚需统一算法适配专有化程度高,不同加速芯片适配技术繁杂多样。随着华为、寒武纪等公司推出自主化加速芯片,算法在多种加速芯片上的应用需求越来越高。由于算法在加速卡上使用需要针对加速卡作专有化的算法适配,一个算法需要进行多次适配[7]。虽然各大厂商都在算法适配相关的技术研发上投入大量研发能力,但依然存在不同自主加速芯片的算法适配在算子匹配、算子开发等方向都有自己独有的技术能力,训练和开发的人工智能模型也有多种智能加速芯片选项,尚未形成协同统一的解决方案,针对算法和多种加速卡连通的算法适配标准尚需加强[8]。
1.3.2 异构硬件移植适配亟待优化异构算力硬件差异明显,GPU算法移植适配过程中存在精度减弱、算子适配度低、移植适配后GPU性能和运行差距较大等问题。异构AI芯片生态的不断完善与丰富,异构AI芯片的软硬件技术趋于成熟,异构算力硬件有极低功耗、多种形态、支持多模态数据、算力强劲、成本较低等诸多优点,使得异构算力成为智能计算中心主要算力单元。但是,现有异构算力硬件之间存在较大的差异,在GPU上训练的算法无法直接在异构算力上运行。因此,需要将GPU上的算法向自主AI芯片进行移植适配[9],而在移植适配过程中,存在算法移植后精度下降、部分算子不支持、算法移植适配后性能不理想等诸多问题。移植适配后,性能和运行在GPU上也可能存在一定的差距,还需要将通过各种方式进行性能优化,充分发挥异构算力独有的优势,保证各个加速芯片对算法以及模型的性能达到最大化。
1.3.3 软件生态技术应用相对薄弱国产软件生态相对薄弱,自研AI框架、操作系统、数据库、中间件应用较少,尚未成为主流。TensorFlow、Pytorch等国外深度学习框架占据较大份额,国产PaddlePaddle、MindSpore等自研软件框架尚未成为主流[10];国产操作系统自研水平明显提升,但从总体上看,国外操作系统仍呈现垄断地位,且国产操作系统大多是在国外上游开源社区的基础上进行二次开发;主流关系型数据库产品均来自国外,Oracle、mysql、sqlserver等国外数据库应用范围广、市场份额高、行业影响大,而达梦、南大通用、人大金仓等国产数据库使用率较低道[11];国产中间件市场发展加快,但国外企业中间件市场份额过半,仍位于第一梯队,国产中间件技术水平与IBM、Oracle相比,存在一定差距。
2 异构AI算力操作平台架构
2.1 异构AI算力操作平台定义异构AI算力操作平台是一个面向多元人工智能算力的异构融合适配平台,能够实现硬件性能与计算要求有效对接、异构算力与用户需求有效适配、异构算力在节点间灵活调度、多元算力智能运营与开放共享,将各类异构算力协同处理来发挥最大的计算效力,为多样化AI应用场景提供高性能、高可靠的算力支撑。异构算力操作平台由硬件支撑平台、异构AI算力适配平台、异构AI算力调度平台、智能运营开放平台四个部分组成(见图1),依托软硬结合的融合架构,解决多种架构导致的兼容性差、效率低下问题,通过软件定义方式,实现硬件资源分类整合、池化重构和智能分配。
2.2 异构AI算力操作平台技术架构异构AI算力操作平台采用软硬件融合架构,通过软件定义的方式,实现硬件资源池化重构和智能分配。
2.2.1 资源重构技术方案按照计算、存储、网络等资源类别的差异,整合硬件资源,形成同类资源池,实现不同设备间资源按需重组。通过硬件重构实现资源池化,CPU与GPU、FPGA、xPU等各种加速器将更加紧密结合,利用全互联的新型超高速内外部互连技术,实现异构计算芯片的融合;与此同时,计算资源可以根据业务场景实现灵活调度;NVMe、SSD、HDD等异构存储介质则通过高速互连形成存储资源。在软件层面,推进硬件资源自适应重构,实现资源动态调整、灵活组合和智能分配,响应多应用、多场景需求。
2.2.2 软硬件融合架构技术优势一方面,软硬件融合架构支持海量资源处理要求。异构AI算力操作平台能够满足系统对于性能、效率、稳定性、扩展性要求,满足AI训练中GPU或CPU计算集群的高带宽、低延时的并发访问要求,适应业务部署量线性增长所带来的数据量PB级甚至EB级增长,与此同时,显著缩短AI模型生成时间,使硬件算力最大化释放[12]。
另一方面,软硬件融合架构能够满足多种应用场景的智能化需求。软硬件融合架构基于软件定义计算、软件定义存储、软件定义网络,发挥资源管理和调度系统的应用感知能力,建立起智能化融合架构,在分离控制与计算的同时,融合计算与存储,依托智能网卡等产品融合多元算力,使软件层面的全部资源在可调度的范围内实现动态组合,满足多元应用需求。
2.3 异构AI算力操作平台功能架构2.3.1 硬件支撑平台硬件支撑平台基于融合架构,实现CPU、GPU、NPU、FPGA、ASIC等多种硬件资源的虚拟化和池化。
建立“CPU+GPU”“CPU+FPGA”“CPU+ASIC(TPU、NPU、VPU、BPU)”等多种“CPU+AI加速芯片”架构,充分释放CPU与AI加速芯片各自优势,分别应对交互响应和高并行计算。在针对多元化数据处理的复杂AI应用场景中,硬件支撑平台能够将差异化的数据计算任务分派到最为合适的硬件模块进行处理,实现整个平台算力最优。
2.3.2 异构AI算力适配平台异构AI算力适配平台是连接上层算法应用与底层异构算力设备的核心平台,驱动异构软硬件算力工作的核心平台,提供覆盖AI算力全流程的适配服务,使用户能够将应用从原平台迁移到异构AI算力适配平台。异构AI算力适配平台包括应用框架、开发套件、驱动、固件4个部分(见图 2)。
应用框架用于提供丰富的编程接口和运行方式,适配算法模型的编程框架,抽象算法计算语义,适配不同应用场景,屏蔽异构加速逻辑实现细节,使各厂商差异化的异构算力编程框架适配于此。开发套件定义了一套在计算图语义之下的异构编程模型,是加速计算负载从框架到硬件的重要软件,实现异构加速编程的简化、同化、优化。驱动模块用于实现异构硬件与操作系统和运行环境的交互适配。固件能够适配硬件支撑平台,实现安全校验、访问隔离、硬件状态告警等安全性功能,还可直接充当其他异构加速设备。
2.3.3 异构AI算力调度平台异构算力调度平台能够实现异构算力在计算节点间的灵活调度,满足高性能和高可扩展性,形成标准化和系统化设计方案。异构AI算力调度平台能够实现AI模型开发部署和运行推理。依托软硬融合理念,对AI算力进行细粒度切分和调度,加快模型迭代,赋能AI训练,增强各类AI模型兼容适配能力。
异构AI算力调度平台包括全栈训练、资源管理监控告警3个模块组成。全栈训练模块能够实现AI算力调度从设计训练到上线运行的全栈式服务,同时通过可视化工具,保证了训练全过程可查、可析。资源管理模块针对多租户资源、IT资源、服务器和调度资源,提供相应的运营管理策略,同时对整个异构AI算力调度平台的资源提供报表管理、日志管理、故障管理等服务。监控告警模块对算力调度平台全局提供监控管理,包括资源使用、训练任务、服务器资源、关键组件等方面,实现数据采集存储和业务资源的有效监控和及时告警。
2.3.4 智能运营开放平台智能运营开放平台提供软硬一体的融合解决方案,面向全行业,建立开放、共享、智能的异构AI算力支撑体系和开发环境,实现对异构AI算力智能运营、安全可靠和开放共享。在智能运营方面,对物理资源、集群节点、平台数据进行统一纳管,建立匹配异构AI算力资源特点的分配机制与流程,通过强有力管理,支持异构算力扩充,承载各类AI模型服务与场景应用。
在安全防护方面,部署主动防御可信平台控制模块,整合适配可信操作系统与平台内核,在整个平台管理过程中,建立完整的信任链,营造可信计算环境、安全控制机制和可信策略管理,防范恶意入侵和设备替换,增强平台安全可控水平。
在开放共享方面,智能运营开放平台面向行业发展需求,开展技术研发、成果转化和落地等工作,构建开发者生态社区;与此同时,为用户提供资源库、开发工具库、解决方案库等共享内容,加速异构AI算力操作平台与各行业、各领域融合落地。
3 发展建议
3.1 提升技术能力3.1.1 确立异构算力统一调度机制为集成多元化AI芯片和算力资源,异构AI算力操作平台需要融合多元异构算力,进一步增强融合架构的技术优势,实现多元异构AI算力统一调度和高效分配。一是提升融合技术性能,深化软硬协同的应用能力。通过新型超高速内外部互连技术、池化融合、重构技术等融合架构,推动多元异构算力设施实现高速互联,形成高效池化的智算中心;通过软件定义,实现重构硬件资源池的智能化管理,显著提升软硬件性能水平,保证了业务资源的灵活调度和监控管理的智能运维。二是实现多元异构算力的统一调度,满足异构算力资源灵活调度和高效分配,及时响应各类AI应用需求。基于应用场景、接口配置、负载能力的差异性,建立面向多样化异构算力资源和上层多场景需求的多元异构算力统一调度架构,统一资源实时感知,抽象资源响应和应用调度。
3.1.2 部署智能算力虚拟资源池通过虚拟化形成软件定义的AI算力虚拟资源池,能够增强异构AI算力操作平台运行能力,优化应用架构。一是增强计算资源细粒度切分能力。根据应用需求和业务特点对智能算力虚拟资源池中的计算资源进行细粒度切分,能够最大化利用算力,提高了资源利用率,降低了运算成本,规避在大规模计算设备集群中进行设备选择、设备适配的繁杂工作。二是异构算力服务器芯片架构的虚拟化配置。需要根据异构算力服务器自身的芯片架构,进行虚拟化技术的配置与设置,从而进一步保障异构算力资源池化。可以异构算力的服务器、存储、网络等做成一个虚拟的资源池,上层应用所需的算力资源通过API接口在资源池进行抓取,并实现虚拟资源池到物理资源池的映射。
3.2 完善应用生态3.2.1 推进异构操作平台融合应用将异构AI算力操作平台与行业智能化改造升级深度融合,为多样化AI应用场景提供高性能、高可靠的算力支撑,增强异构AI算力操作平台的应用范围和应用能力。提供多算法融合调度、大数据规范化处理、多场景应用服务能力开放,助力构建智慧城市应用;采用智能视频管理方案,提供智能设备管理、AI智能分析与服务等能力,打造智慧园区一体化解决方案;提供视频图像模型导入能力、算法仓模型导入、智能分析模板编排等能力,快速响应各类智慧政务应用需求;基于异构AI算力操作平台,实现生产设备的预测性维护、人工智能高精度机械设备、工业AR智能化生产辅助等智慧工业应用;以强大的智能算力赋能科研工作协作和项目创新管理;以高速度、高精度、大数据量处理能力赋能智慧金融和业务创新。
3.2.2 形成全场景矩阵化合作模式开放生态是实现多元算力融合的有效途径,构建矩阵化合作模式,能够促进技术融合创新、场景融合应用、服务融合交付,完善异构AI算力操作平台建设和发展的生态框架。一方面要打造融合全链条、面向全场景的一体化解决方案,持续推进多方合作,建立起从硬件、算法、AI中台到行业应用的生态架构。另一方面要建立起开放开源的生态体系,形成合作共赢的组织联盟,变革生产模式和应用服务模式,持续优化异构AI算力操作平台的技术能力和建设水平。ODCC开放数据中心委员会等开源组织应当充分发挥平台优势,实现基础软硬件开放和能力融合,孵化出更多的多元复合场景智慧解决方案。
3.3 规范异构算力3.3.1 制定异构算力调度技术标准规范异构算力调度技术能力,面向深度学习的异构硬件统一API标准和运行时算力底座,规范深度学习计算任务的定义和执行,实现上层应用和底层异构硬件平台的解耦。协调各个生态产业链厂家,核心攻关异构设备硬件统一纳管、系统层驱动的对接适配、模型与算子层加速库的拉齐持平、算法层框架的高性能迁移与优化、平台层调度器的自主研发,有效保证异构算力的纳管与调度。
3.3.2 统一硬件算法适配评测方法从硬件适配和算法统一两个角度,制定异构算力适配标准,实现异构算力之间的互通性和性能最大化。在硬件适配方面,规范异构芯片和相对应的底层接口,从异构芯片功能、性能、稳定性、兼容性等方面,形成标准化测试方法;规范异构AI服务器的技术要求和性能规范,确定异构AI服务器的设计规格、管理策略和运行环境等要求,推动服务器研发、生产、测试的标准化。在算法统一方面,规范分布式人工智能深度学习框架监督学习、无监督学习和强化学习等不同类型的模型;规范异构AI算法模型在收敛时间、收敛精度、吞吐性能、延时性能等方面的评测指标;规范异构AI算法模型在多种应用场景的部署要求、在分布式训练平台设计研发过程中的适配要求、在算法模型推理能效的评估方法。
4 结束语
异构AI算力操作平台能够有效应对异构AI算力存在的适配能力弱、技术支撑难、硬件移植待优化、软件生态少应用等问题,释放硬件资源优势,提高多元算力迁移适配能力,实现算力高效灵活调度,形成智能开放的应用生态。为进一步增强异构AI算力操作平台能力,可在技术优化方面,建立融合技术架构和虚拟资源池,形成多元异构算力统一调度和高效分配机制,使异构AI算力能够及时响应各类应用需求;在开放应用方面,增强行业应用能力,建立多方合作生态,持续、有效赋能行业智慧化改造升级和产学研用优势集聚;在标准规范方面,聚焦硬件适配和算法统一,实现异构算力硬件、异构芯片、异构服务器、算法框架适配的标准化和规范化,增强异构AI算力互通性。
参考文献
[1] 开放数据中心委员会. 数据中心算力白皮书[R], 2020.[2] IDC, 浪潮. 2021—2022年中国人工智能计算力发展评估报告[R], 2021.[3] 中国联通算力网络产业技术联盟. 异构算力统一标识和服务白皮书[R], 2021.[4] 工业和信息化部. 工业和信息化部关于印发“十四五”大数据产业发展规划的通知[EB/OL]. (2022-01-18)[2022-01-30]. http://www.gov.cn/zhengce/zhengceku/2021-11/30/content_5655089.htm.[5] 工业和信息化部. 工业和信息化部关于印发“十四五”信息通信行业发展规划的通知[EB/OL]. (2022-01-18)[2022-01-30]. http://www.gov.cn/zhengce/zhengceku/2021-11/16/content_5651262.htm.[6] 江西省人民政府. 江西省人民政府办公厅关于印发江西省“十四五”新型基础设施建设规划的通知[EB/OL]. (2022-01-18)[2022-01-30]. http://www.jiangxi.gov.cn/art/2021/11/8/art_4968_3711667.html.[7] 徐敬蘅. 面向异构系统的大气模式并行优化方法研究[D]. 清华大学, 2019.[8] 郑宗生, 胡晨雨, 姜晓轶. 基于改进的最大均值差异算法的深度迁移适配网络[J]. 计算机应用, 2020,40(11):3107-3112.[9] 阳王东, 王昊天, 张宇峰, 等. 异构混合并行计算综述[J]. 计算机科学, 2020,47(8):5-16+3.[10] 孟伟, 袁丽雅, 韩炳涛, 等. 深度学习推理侧模型优化架构探索[J]. 信息通信技术与政策, 2020,46(9):42-47.[11] 艾瑞咨询. 2021年中国数据库行业研究报告[R], 2021.[12] 王月, 柯芊. 智能计算中心:人工智能时代的算力基石[J]. 中国电信业, 2021(S1):11-15.
作者简介
郭亮
中国信息通信研究院云计算与大数据研究所副总工程师,正高级工程师,主要从事算力基础设施相关的政策支撑、技术研究和标准制定工作。
赵精华
中国信息通信研究院云计算与大数据研究所数据中心部助理工程师,主要从事数据中心相关的政策支撑、产业咨询、技术研究和标准制定等工作。
赵继壮
中国电信股份有限公司研究院AI研发中心赋能平台团队总监,高级工程师,主要从事AI研发等工作。
论文引用格式:
郭亮, 赵精华, 赵继壮. 异构AI算力操作平台的架构设计与优化策略[J]. 信息通信技术与政策, 2022,48(3):7-12.
本文刊于《信息通信技术与政策》2022年 第3期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
http://ictp.caict.ac.cn/
(点击“阅读原文”访问)
校 审 | 陈 力、珊 珊
编 辑 | 凌 霄
推荐阅读
数字化转型专家谈