查看原文
其他

计算机行业专题报告:华为昇腾,国产AI算力“扛旗者”

(报告出品:民生证券)

1 AI 算力需求快速提升,未来市场大有可观

1.1 数据量增长带来算力需求提升,智能算力规模有望快速 增长

数据海量增加,算法模型愈加复杂,应用场景的深入和发展,带来了对算力需 求的快速提升。根据白皮书数据显示,从 2012 年开始的 6 年中,Al 计算的需求增 加了 30 万倍。

1)根据 IDC 测算,国内智能算力规模正在高速增长,2021 年中国智能算力 规模达 155.2 每秒百亿亿次浮点运算(EFLOPS),2022 年智能算力规模将达到 268.0EFLOPS,预计到 2026 年智能算力规模将进入每秒十万亿亿次浮点计算 (ZFLOPS)级别,达到 1,271.4EFLOPS。2021-2026 年期间,预计中国智能算 力规模年复合增长率达 52.3%。

2)通用算力规模也正在高速增长,根据 IDC 测算,2021 年中国通用算力规 模达 47.7EFLOPS,预计到 2026 年通用算力规模将达到 111.3EFLOPS。2021- 2026 年期间,预计中国通用算力规模年复合增长率为 18.5%。

1.2 AI 芯片是提供算力的基础,国内市场 22-24 年增速有 望超 40%

AI 包括人工智能芯片、服务器、计算架构、算法及应用等方面,本文主要关 注算力层面,即 AI 芯片和服务器。1)全球市场:全球人工智能技术发展逐渐成熟,数字化基础设施不断建设完 善,推动全球人工智能芯片市场高速增长。IDC 全球范围调研显示,人工智能芯片 搭载率(attach rate)将持续增高。根据 Tractica、寒武纪招股书相关数据,全球人工智能芯片 2022 年市场规模预计约 395 亿美金,预计到 2025 年将达到 726 亿美金,年复合增长率达到 22%。

2)国内市场:22-24 年复合增速有望达到 46%。随着大数据的发展和计算 能力的提升,根据寒武纪招股书,2022 年中国人工智能芯片市场规模预计达 368 亿元,预计 2024 年市场规模将达到 785 亿元,复合增速有望达到 46%。

AI 服务器市场保持快速发展:国内 2021 年市场规模超 300 亿元,增速近 70%。1)全球市场:根据 IDC 发布的《全球人工智能市场半年度追踪报告》显示, 2021 年全球人工智能服务器市场规模达 156.3 亿美元,约合人民币 1045 亿元, 全球年度人工智能服务器市场首次突破千亿元人民币,同比 2020 年增速达 39%。其中,浪潮信息、戴尔、HPE 分别以 20.9%、13.0%、9.2%的市占率位列前三,三家厂商总市场份额占比达 43.1%。人工智能服务器市场预计将继续高速增长, 预计 2026 年全球人工智能服务器市场规模将达到 347.1 亿美元,五年复合增长 率为 17.3%。2)国内市场:根据 IDC 数据,2021 年中国人工智能服务器市场规模达到 59.2 亿美元,与 2020 年相比增长 68.2%,其中,浪潮信息、新华三、宁畅、安擎、华 为等诸多中国厂商正加速推动人工智能基础设施产品的优化更新。预计到 2026 年, 中国人工智能服务器市场规模将达到 123.4 亿美元。从工作负载角度而言:企业将把精力更多从人工智能训练转移到人工智能推 理工作负载上,根据 IDC 数据,2021 年中国数据中心用于推理的服务器的市场份 额占比已经过半,达到 57.6%,预计到 2026 年,用于推理的工作负载将达到 62.2%。

2 昇腾生态羽翼渐丰,芯片扛旗者初露锋芒

2.1 昇腾 AI 软硬件平台,构建智能世界基石

全栈 AI 软硬产品,覆盖“端边云”。昇腾计算产业凭借着以昇腾 AI 处理器为 核心,通过系列硬件和基础软件构建全栈 AI 计算基础设施,为各行各业赋能。在 硬件方面,包括模块、标卡、小站、服务器、集群等产品形态;在软件层面,包括 异构计算架构、AI 框架、应用使能、全流程开发工具链等产品。

2.1.1 硬件是 AI 体系的基础,提供强大计算能力

基于达芬奇架构的两颗“芯”。2018 年 10 月,代号为 310 和 910 的昇腾处 理器系列产品推出。1)昇腾 310 处理器:本质上是人工智能片上系统,主要应用 于边缘计算产品和移动端设备等低功耗的领域。该芯片采用 12nm 制造工艺,最 大功耗仅为 8W,半精度(FP16)算力可达 8TFLOPS,整数精度(INT8)算力可 达 16TOPS,同时还集成了 16 通道全高清视频解码器。2)昇腾 910 处理器:该 芯片计算密度大,领先全球,相比于同时代的英伟达 Tesla V100 GPU 还要高出 一倍,其主要应用于云端,可以为深度学习的训练算法提供强大算力。在算力方面, 昇腾 910 表现非常出色,半精度(FP16)算力可达 320TFLOPS,整数精度(INT8) 算力可达 640TOPS,功耗只有 310W,同时采用了 7nm 先进工艺进程,支持 128 通道全高清视频解码。从算力上看,昇腾 910 和英伟达 A100 性能基本上相当。

行业性能领先的服务器。昇腾 AI 服务器具有超强算力,适用于中心侧 AI 推 理以及深度学习模型开发和训练场景。1)Atlas 800 推理服务器(型号:3000):具有高算力和高能效特点。最大可支持 8 个 Atlas 300I/V Pro,提供强大的实时 推理能力,广泛应用于中心侧 AI 推理场景。2)Atlas 800 推理服务器(型号:3010):具有灵活配置,适配多项负载特点。最大可支持 7 个 Atlas 300I/V Pro, 广泛应用于中心侧 AI 推理场景。3)Atlas 800 训练服务器(型号:9000):具 有高算力密度等特点。拥有 4 颗鲲鹏 920 芯片,广泛应用于深度学习模型开发和 训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。4)Atlas 800 训练服务器(型号:9010):具有高算力密度等特点。可提供 2.24PFLOPS FP16 算力,广泛应用于深度学习模型开发和训练。5)Atals 800T A2 训练服务器:具有高速带宽等特点。双向互联带宽达 392GB/s,广泛应用于深 度学习模型开发和训练。6)Atlas 500 Pro 智能边缘服务器:具有易于部署维护 和支持云边协同等特点。最大支持 3 张 Atlas 300I/V Pro 推理卡,单卡功耗仅 72W,发挥鲲鹏架构多核、低功耗优势,在边缘场景中广泛部署。

华为昇腾超强算力推理+训练标卡。训练及推理标卡融合“通用处理器、AI Core、编解码”于一体,需要安装到服务器上,通过服务器提供运算和模型,为数 据中心提供强劲算力。1)推理卡:包括 Atlas 300V 视频解析卡、Atlas 300V Pro 视频解析卡、Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡。其中,Atlas 300I Duo 推理卡在配置下可以输出整数精度(INT8)达到 280TOPS,半精度(FP16) 算力达到 140TOPS。2)训练卡:主要以 Atlas 300T Pro 训练卡(型号:9000)、 Atlas 300T A2 训练卡为主,可广泛应用于智慧城市、智慧交通、智慧园区、智慧 金融等诸多 AI 行业场景。

性能领先的训练集群。华为昇腾面向人工智能计算中心等重算力场景,构筑性 能领先的训练集群,目前主要包含 Atlas 900 PoD(型号:9000)、Atlas 900 A2 PoD、Atlas 900 AI 集群三种产品,广泛应用于深度学习模型开发和训练。1)Atlas 900 PoD(型号:9000):可提供 20.4PFLOPS FP16 算力,能效比最高可达 20.4 PFLOOPS/46 kW,搭载 32 颗超强算力的鲲鹏 920 处理器,全节点 100G 网络互 联,可实现高效加速应用。2)Atlas 900 A2 PoD:提供 25.6/24PFLOPS FP16 算力,最大可拓展至 3.2EFLOPS,全节点 200G 网络互联,能效比可达 25.6 PFLOPS/47.5kW,具有极致算力密度、极高 A 级能效、极简交付部署等特点。3) Atlas 900 AI:其总算力达到 256P~1024P FLOPS FP16,相当于 50 万台高性 能 PC 的计算能力,让人类更高效地探索宇宙奥秘、预测天气、勘探石油,加速自 动驾驶的商用进程。其他华为昇腾超高算力集成产品。1)开发者套件:Atlas 200I DK A2 开发者 套件开发板集成了昇腾 310B 处理器,半精度为 4 TFLOPS@FP16,整数精度可达 8 TOPS@INT8,功耗为 24W。可以直接为开发者提供运算和模型等,能满足视 频图像分析、自然语言处理、机器人等多个领域的需求。2)智能小站:Atlas 500 AI 边缘推理小站算力可达 10 TFLOPS@FP16 或 20 TOPS@INT8,在有盘配置情 况下,功耗为 44.5W,无盘配置时,功耗 32.3W。可独立部署,易于维护和支持 云边协同。3)模块:Altas 200 AI 加速模块仅有半张信用卡大小,却能提供 22TOPS的 INT8 算力。具有在边端侧实现人脸识别、图像分类等功能,因此广泛应用于智 能摄像机、机器人、无人机等边端侧 AI 场景。

2.1.2 软件释放硬件性能,推动 AI 生态繁荣

华为针对 AI 场景,设计了异构计算架构 CANN、AI 计算框架 MindSpore 和 第三方适配以及全流程开发工具链 MindStudio。本文主要关注 CANN、 MindSpore 和 MindStudio。CANN 是一种异构计算架构,功能类似英伟达 CUDA。CANN 位于计算资源 层和应用层之间,即芯片使能层,实现了在高性能计算硬件和 AI 应用之间架起一 座桥梁。部署在昇腾服务器,包含统一的编程语言、统一网络构图接口、高性能计 算引擎以及算子库。通过 AscendCL 对外提供 Device 管理、Context 管理、Stream 管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等 API,帮助 开发者实现在 CANN 平台上进行深度学习推理计算、图像预处理、单算子加速计 算。在离线推理场景和训练场景都有应用。

CANN 释放 AI 硬件的极致性能,其高性能算子库和调优引擎,支撑快速部署 神经网络。深度学习框架构建的模型是由一个个计算单元组成,这些计算单元被称 为算子,对应着特定的计算逻辑,构成了加速神经网络的基础和核心。CANN 支 持超过 1400 个高性能算子,并提供 900 多种优选模型,并且覆盖了 80%的 DSL 算子,其 DSL 算子相比业界其他的产品,提升了 70%开发效率。正是这些丰富的 算子,筑起了澎湃的算力源泉。此外,CANN 还提供了新一代智能调优工具 AOE, 取代了繁琐的手动优化操作,降低了调优的门槛,并提高了调优的效率。以 ResNet50 网络为例,使用 AOE 进行调优的效率比上一代工具提升了一倍以上,并且性能提升超过 100%。在 CANN 6.0 版本下,模型迁移成功率可达 90%。

CANN 在各领域深受认可。1)在学术领域方面:2022 年 3 月,基于 CANN 的 AI 论文 PLGAN 强势上榜 2022 CVPR,5 月荣获“软件行业示范案例”,12 月, 在第八届中国国际“互联网+”大学生创新创业大赛中,“基于昇腾算力及 CANN 的创新应用”突破“互联网+”国赛金奖。2)在科研领域方面:分子动力学模拟 服务在 CANN 的助力下成功商用,AI 预测性能达到现有产品的 1.5+倍,可预测 规模较传统方法提升 10000+倍,为光伏材料、新能源电池、半导体材料研究带来 巨大的商业应用价值。此外,昇腾 AI 平台端到端使能蛋白质结构预测基于 CANN 进行多维度性能优化,使得 AI 预测效率较 Baseline 提升 2+倍,同时具备长序列 推理能力,2022 年底已支持 3800+长度的蛋白质氨基酸序列,达到业界领先水 平。MindSpore 是华为推出的支持云边端灵活部署的深度学习框架。人工智能领 域的发展,离不开深度学习框架。从 2012 年以前的 Torch、OpenNN 等原始深 度学习框架的发布,到后面形成了 TensorFlow 和 PyTorch 双头垄断,再到现在 中国国产框架有了一席之地,深度学习框架市场新品更新不断。2020 年,华为研 制的 MindSpore 正式开源,和 TensorFlow、PyTorch、飞桨等框架共同为人工 智能领域发力。

MindSpore 帮助开发者孵化出各种 AI 创新算法和应用,大幅提升效率。在 2018 年“华为全联接大会“上提出了人工智能面临的十大挑战,其中提到长部署 周期,高开发成本、高技术门槛等问题,为了应对这些问题,昇腾 MindSpore 专 注于实现开发友好、运行高效、全场景按需协同三大目标,以有效降低开发门槛。一般而言,开发深度学习软件框架能够把程序员从烦琐细致的具体编程工作中解 放出来,从而将主要精力集中在人工智能算法的调优和改进上。昇思 MindSpore 作为新一代全场景 AI 框架,亦是如此,同时具有图算融合、分布式并行、企业安 全可信等功能,能够实现模型的训练-推理-全场景部署。

MindSpore 易用性和性能全国领先。根据 Omdia 发布的 2023 年《中国人工智能框架市场调研报告》可知,有 40%的开发者将“易用性”作为选择框架的 首选因素,35%的开发者将”性能“作为选择框架的首选因素。其易用性是指产品被 用户使用时,能够被用户理解、学习、使用和吸引用户的能力,易用性是产品的基 本自然属性,标志着最终产的可用性和成熟度。MindSpore 在易学习低门槛、易 开发高效率、问题快速闭环三方面,提升易用性,并且成立了易用性 SIG。《中国 人工智能框架市场调研报告》中提到,在国外的端到端框架中,开发者认为 TensorFlow,PyTorch 的易用性更好,而本土框架昇思 MindSpore 和飞桨 PaddlePaddle 在易用性方面紧随其后。在端到端人工智能框架性能方面, MindSpore 以 13%的占比排名第三。

MindSpore 在全球 AI 框架使用率方面处于第一梯队。根据 Omdia 的调研 数据,在社区活跃度方面,MindSpore 以 11%的占比,排名第四;在中国开发者 心中,MindSpore 在国产框架中认知度排第一,全球框架中认知度排第三。在人 工智能框架使用率方面,TensorFlow、PyTorch、昇思 MindSpore 和飞桨合计 占了 86%的市场份额,其中,MindSpore 以 11%的占比在全球框架里排名第三, 逆势进入了 AI 框架的第一梯队。

MindSpore 在国内市场广受认可。昇思 MindSpore 与超过 200 所高校和科 研机构展开了创新合作,截至 2022 年,获得了超过 800 家企业的昇思技术认证, 涵盖了制造、金融、电信运营商等国家重要领域。此外,昇思 MindSpore 在 Gitee AI 开源项目中综合排名第一,软件下载速度排名第一,已经超过 370 万次下载总 量。

提供全流程开发的工具链 MindStudio。开发者可以利用 MindStudio 提供 的简单易用的开发工具,高效地完成端到端开发,让开发者能够在安装部署、模型 训练、模型推理、算子开发、应用开发、调试调优和应用部署全流程中一站式完成, 无需切换不同的工具,从而显著降低了开发门槛。MindStudio 支持训练、推理场 景。1)训练场景:MindStudio(昇腾训练加速工具)利用独有的算法,使训练速 度提升 25%。2)推理场景:MindStudio(昇腾模型压缩工具)利用独有的智能 算法,加速推理进程,可大致提速 47%。

2.2 打造开发者生态,提供一站式服务


文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年8月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 2023年房地产行业竞争格局趋势研究报告

  2. 2023年全国新房市场报告

  3. 2023年青年置业报告

  4. 房地产行业城中村改造专题报告:城改大有可为,战略高度定位

  5. 2023年建材建筑行业专题报告

  6. 2023年中国房地产精装修暨家装生态白皮书

  7. 2023年家居行业消费传奇系列报告

  8. 2023住小帮家居家装洞察白皮书

    ▼长按2秒识别二维码关注我们

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 国务院常务会议:加快推进新型工业化

  2. 事关网暴,最高法、最高检、公安部正式发布!

  3. 做好“关门”准备!美政府面临停摆风险

  4. 战争意味着产业::战争,通胀,经济与中美俄欧的地缘博弈

  5. “你这瓜保熟吗?” 演员孙红雷提起诉讼,全国首例

  6. 回顾海航集团破产始末!

▼长按2秒识别二维码关注我们
公众号 :就业与创业
点击下方可看
  1. 许家印身家缩水90%;核酸大王张核子进军预制菜;存量首套住房贷款利率今起下调

  2. 董宇辉央视专访视频被喷上热搜后,任正非的一句大实话让人醍醐灌顶…

  3. 官方通报:多名主播被批捕!

  4. 已经是事业单位在编人员,还有考公务员的必要吗?

▼长按2秒识别二维码关注我们


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存