查看原文
其他

GPU行业研究报告:AI与自动驾驶打造GPU强力增长引擎

(报告出品:川财证券)

一、 数字经济、AI、智能驾驶视角下看算力需求

1.1 演变趋势:从通用计算到智能计算,从分散独立到云网边协同

宏观角度下,数字经济建设及人工智能发展掀起了新一代算力革命,算力基建成为国家 数字化转型和经济发展的重要竞争策略。从 1964 年戈登·摩尔提出著名的摩尔定律后, CPU 性能的发展便遵循这一规律,但目前数字经济与人工智能的高速发展,基于 CPU 的摩尔定律已经失效,如何突破“算力墙”,满足新时代各种算力需求,成为各国主要 的竞争焦点。

微观角度下,算力形式逐渐由通用计算过渡为高性能计算,从分散独立的端计算向云网 边协同计算演变。当前,常见的高性能计算可以分为科学、工程计算与智能计算;算力 资源服务可以分为云计算、混合计算及算力网络。1)科学、工程计算。这类计算主要利用超级计算机实现并行计算,是一种算法优化和 硬件集群结合的计算模式。高性能计算由于具有较高的性能、效率及计算精度,可以广 泛的用于大规模复杂科学计算,比如工程模拟仿真、航空航天、地震预测等,同时也能 支持人工智能、智慧城市等新兴领域。2)智能计算。智能计算以智能芯片为计算算力底座,可以较好的满足 AI 领域模型训练 所需的智能运算需求,因此用于支持专一的人工智能应用场景。基于智能计算搭建的人 工智能计算中心,通过将各种交叉技术集成,广泛的应用于智能语音处理、机器视觉、 自然语言(文本)处理等不用的领域。3)云计算、混合计算、算力网络属于新型算力资源服务模式。云计算通过 World Wide Web(万维网)向用户提供包括服务器、存储、数据库等在内的各项计算服务,因为万维网以网页为核心,因此云计算主要面向消费互联网;而算力网络主要以算法及算力协 同为核心,通过协同联动云计算、边缘计算、端计算及通信网络,能够实现对复杂计算 任务的分解及高效调度。

1.2 战略地位:算力属于基础设施建设,是智能时代发展的物理承载

整体架构层面,算法、算力及数据是实现人工智能的三要素,其中算力是构筑智能时 代的物理基础。人工智能离不开算力、算法及数据,其发展需要在建立在庞大的数据 集、优秀的深度学习算法及强大的计算能力基础之上,而算力作为底层基础设施,是 开启智能时代的关键因素,其核心于智能芯片的技术进步。

实际发展层面,全球数据量正以指数级速度增长,“算力荒”问题日益凸显。据 IDC 数据 显示,2018 年至 2019 年全球大数据存储量分别为 33Z B、41 ZB,而 2020 年全球数据 量达到了 60 ZB,同比增长 46%;庞大的数据集必然依赖强大的数据处理能力,进而要 求宏观算力快速发展,NTCysd 预计 2021-2028 年全球算力规模将以超过 40%的速度增 长,2028 年将达到 7510 EFlops。

1.3 应用驱动:数字经济搭建整体框架,AI 大模型、智能驾驶持续拉升

市场方面,数字经济建设、AI 大模型、智能驾驶成为开启智能时代的确定性研究方向。其中,数字经济建设搭建数字化布局整体框架,并提供政策支持;AI 大模型及智能驾驶 率先落地,成为拉动算力需求的核心驱动力。

1)全球正加快数字经济建设,算力发展成为主要战略竞争点之一。目前,全球正处于 经济数字化转型阶段,据中国信通院发布的《全球数字经济白皮书》显示,数字经济已 经成为各国发展 GDP 的核心战略,具体数据来看,2020 年全球 47 个国家数字经济增 加值达到 32.6 万亿美元,占 GDP 比重为 43.7%,同比名义增长 3%。此外,数字经济 已经成为我国稳增长促转型的重要引擎,出台多项政策支持算力发展,截至 2022 年我 国数字经济规模已达 50.2 亿元,数字基础设施规模能级大幅提升,在用数据中心算例 总规模超 180 EFlops,位居世界第二。

2)AI 大模型的快速扩张是算力需求的关键驱动力。由于 AI 大模型通常需要在大规模 无标注的数据集上进行重复的训练,因此相比于传统的小模型在应用场景上更具有普 适性。但与此同时,数据集的快速增长以及模型不断迭代优化使得 AI 大模型尺寸快速 膨胀,GPU 算力也遵循着同样的增长规律。据 OpenAI 数据显示,GPT-3 175B 相比 于 GPT-3 Small,总计算力(Flops)及参数量增长了约 1400 倍;而据 Semianalysis 最新分析指出,GPT-4 模型尺寸进一步扩张,在其 120 层模型中总共包含了 1.8 万亿参 数,约 GPT-3 175B 参数量的 10 倍。

3)汽车智能化功能升级,智能驾驶将贡献算力需求的全新增量。汽车正逐渐步入智能 化时代,传感器数量的增加及交互能力的提升,将带来数据的几何式增长,这必然要求 车端拥有强大的数据分析和处理能力。据华经产业研究院预测,2025 年我国 L3、L5 级别智能驾驶渗透率将分别达到 14%、1%,到 2030 年两者将分别达到 40%、12%。而 L3 级别及以上智能驾驶汽车,不仅需要处理人机交互等指令,还需要与外界环境、云数 据中心进行交互。据分析,L3、L5 级别智能驾驶算力需求将分别达到 30-60 TOPS、 100T OPS,未来随着智能驾驶汽车渗透率的提升,将会持续带动智能驾驶市场整体算 力需求的增加,预计 2025、2030 年智能驾驶市场算力需求达到 1.9 万、19 万 TOPS, 2021-2025 CAGR 达 112%。

1.4 优化路径:提升芯片性能及创新存算架构是研究主流

系统算力主要受处理器性能与数据传输能力影响,当数据处理能力与传输能力不匹配时,计算能力由两者中较低者决定。处理性能主要与指令复杂程度、频率、并行度有 关,一般来说,指令越复杂、计算频率越高、并行程度越大,处理器性能就越好;而 数据传输的能力与处理器内部存算架构有关,在计算机体系里,根据访问延迟及容量 大小将存储结构分为寄存器、缓存、内存、外存与远程存储,而这种存算分离的架构 形式,通常使得数据传输成为限制系统算力的因素。

1)指令的复杂程度。指令系统是连接计算机软件和硬件的桥梁,一般来说,指令的复 杂程度于处理器运算性能有关,指令越复杂,其性能就越好。典型的处理器平台大致可 以分为 CPU、协处理器、GPU、FPGA、DSA、ASIC,其中 CPU 为通用软件平台,支 持包括整形计算类、浮点类、数据传输类、控制类等在内的通用指令,而其余处理器为 硬件加速平台,用于执行各类复杂指令。

2)计算频率。一般来说,处理器计算的速度于频率呈现正相关关系,计算频率越高,速 度越快。以 CPU 为例,执行一条指令需要依次经过取址、译码、地址生成、取操作数、 执行、写回阶段,每个阶段需要消耗一个时钟周期,上个阶段执行完毕后才会进入到下 个阶段。在此基础上,时钟周期的设定便取决于各阶段用时最大者,而提高时钟频率大 致有两种方法:一是通过超流水线架构提高处理器主频,通过增加多级流水从而细化每 个阶段;一是通过优化工艺技术降低各阶段逻辑门处理延迟。

3)并行度。并行度是指在计算机体系中,指令并行执行的最大数目,并行度越大,意味 着系统能够同时处理更多指令,其运算速度越快。常用的并行设计包括指令并行、处理 器核并行、芯片级并行及服务器并行。

4)数据传输能力。数据传输能力并不直接影响处理器性能,但复杂的存储分层结构会 使得系统功耗、延迟及访问宽带增加,从而限制算力的提升。优秀的计算系统应使得处 理器性能与数据传输能力尽可能匹配,以减少“木桶效应”对于算力的限制。目前,数 据传输能力的优化方向主要包括近存计算及存算一体化架构。

二、 算力需求视角下看GPU发展的必然趋势

2.1 性能:GPU 技术发展迅速,高并发计算能力契合算力需求

1)横向比较,GPU 较 CPU 而言,更符合深度学习算法的高度并行计算需求。一方面,CPU 性能提升已达到瓶颈,与高速增长的算力需求脱节。CPU 作为第一代高 效计算平台,目前无论从不管是从架构/微架构设计、工艺、多核并行等各种角度出发, 其性能都难以提升,2016 年之后,CPU 性能每年提升仅 3.5%。随着数字经济、AI 大 模型、智能驾驶等算力需求的推动,CPU 性能已无法满足上层软件算力需求。

另一方面,GPU 较 CPU 具备更多的算术逻辑单元、控制单元与内存缓存,其 SIMD 架 构与深度学习算法需求更吻合。CPU 为线程级并行的 MIMD 架构,其核心少但性能强,可以用来处理复杂的控制逻辑、预测分支、乱序执行、多级流水等,而 GPU 为数据级 并行的 SIMD 架构,其核心多但性能弱,用于优化具有简单控制逻辑的数据并行任务。而神经网络算法数据要求量大,并行计算程度高,与 GPU 高并行计算能力、高内存带 宽相适配。神经网络的训练环节需要处理大量的数据,并且其结构非常统一,每一层成 千上万个相同的人工神经元都在执行相同的计算操作,具有高效并行计算能力与内存带 宽的 GPU,不仅能够更快的完成数据的读取与写入,还能实行多条指令并行计算。

2)纵向比较,GPU 架构技术仍在演进,其高性能计算与智能计算能力不断优化

GPU 最早作为显卡的核心零部件,专用于图形渲染及处理。GPU(Graphic Processing Unit),即图形处理单元,英伟达公司在 1999 年发布 GeForce 256 图形处理芯片时首 先提出 GPU 的概念,GeForce 256 作为专门负责计算机图形显示的计算机零部件,通 过 T&L 及其他多项技术引擎,减少了显卡对于 CPU 的依赖。GPU 组成中通常包含一 个显存、一个主频、一个 VRAM、一个显存速率以及一个显存位宽。

GPU 架构迭代频繁,已从从专用图形处理器发展为高效的通用计算平台,向外拓展人 工智能计算及高性能计算领域。当 GPU 引入可编程特性,将图形硬件的流水线作为流 处理器来解释,基于 GPU 的通用计算也开始出现,即 GPGPU。英伟达产品在 2008-2022 年内,架构迭代调整了 8 次,其在 2010 年推出具有完整 GPU 架构的 Fermi,在 2017 年 Volta 架构中首次推出 Tensor 内核以支持深度学习算法,而 目前 Hopper 架构的 GPU 已广泛的应用于 AI 大模型训练与推理环节。

英伟达 Tensor 核心持续升级,智能计算及高性能计算能力得到不断优化,已成为 AI 模 型推理的关键张量核心。英伟达 Tensor 核心最初在 Volta 架构上推出,在后续推出的 Turing、Ampere、Hopper 上不断优化,Tensor 核心能够加速矩阵运算,大幅增加浮点 计算吞吐量。具体来看,拥有 Tensor 核心的 V100 相比于 P100 其混合精度运算速度提 高了 9 倍,而英伟达推出的第四代 Tensor 核心其 FP8 性能较 Ampere FP6 提高 16 倍, 而在 AI 大型语言模型推理方面,性能比 Ampere 高出 30 倍。

2.2 灵活性:GPU 可编程优势明显,通用灵活性适配 AI 应用端拓展

GPU 拥有相对较优的性能及灵活性。常用的计算平台包括 CPU、FPGA、GPU、DSA 以及 ASIC,一般情况下随着芯片性能的提升,其灵活性会逐渐下降。CPU 为软件加速 平台,通过标准化的指令集使得 CPU 平台的硬件实现与软件编程完全解耦,灵活性最 高;ASIC 为专用集成电路,是一种为专门目的而设计的集成电路,不支持硬件编程, 灵活性最差。

1)ASIC、DSA 设计成本高、周期长,其灵活性难以满足应用层及宏架构趋势的需求。DSA 与 ASIC 属于专用领域定制类型芯片,其中 ASIC 属于完全定制性化芯片,其晶体 管根据算法定制,流片量产后算法便不可编辑;DSA 在 ASIC 基础上回调,保留一定编 程能力,但其功能覆盖的领域成具有较大的局限性。ASIC 与 DSA 的通用性是限制其应 用的关键因素。首先,通用性限制了 ASIC 与 DSA 的应用领域,与芯片高企的研发成本相矛盾。据估 计,5nm 制程的芯片研发成本已经超 5 亿美元,高企的研发成本需要具有充分量产能力 芯片来摊薄,而 ASIC 与 DSA 芯片均为面向特定领域专用芯片,不同领域则面临重新 设计的问题,尤其是在 AI 应用领域,ASIC 与 DSA 的研发周期和成本并不能满足其 AI 应用及算法迭代优化的速度。

其次,专用性使得 ASIC 与 DSA 芯片与算力融合的宏架构趋势相矛盾。数字经济的建 设需用云、网、边各部分资源协同融合,从而组成庞大的算力网络,然而不同计算引擎、 平台、设备以及数据中心的芯片应用场景具有较大的差异,这使得 DSA、ASIC 芯片难 以成为数字经济时代的整体解决方案。

2)CUDA、OpenCL 技术持续为 GPU 赋能,GPU 性能提升潜力大、应用拓展力强。一方面,CUDA 生态为 GPU 提供各种数据接口(API)、算法库与工具、跨平台支持以 及大规模集群计算支持,CUDA 使得开发人员能够使用流行的编程语言对英伟达 GPU 进行编程,同时还集成包括 TensorFlow、PyTorch 和 MXNet 在内的所有深度学习框架;另一方面,随着深度学习算法和模型的收敛,GPU 可以通过对算法进行手工优化实现 资源的高效调度,充分释放出硬件的性能,每一代 CUDA 升级都会带来约 10-20%的性 能提升。

三、 GPU市场:供给推动市场,技术及产能是核心驱动力

3.1 需求端:移动端兜底,自动驾驶及数据中心建设贡献增量

(本文仅供参考,不代表我们的任何投资建议)

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年8月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 2023快手鞋服箱包行业数据报告

  2. 2023洞洞鞋营销观察数据报告

  3. 抖音电商女鞋市场洞察行业分析报告

  4. 晾晒衣架行业趋势发展白皮书

  5. 2023天猫服饰行业春夏趋势白皮书

  6. 2023防晒衣消费趋势洞察

  7. 2023纺织服装行业研究报告

  8. 2023女性内衣行业消费趋势研究报告

    ▼长按2秒识别二维码关注我们

《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 还钱!国家高层也看不下去了

  2. 段永平:假装会投资很危险

  3. 如何秒懂近期的这些利好消息?

  4. 新一轮国企深化改革提升行动,多家央企负责人发声!

  5. 日本突发!270人中毒,紧急停业!1200亿资金大撤退,什么信号?20000人大罢工,拜登最新发声

  6. 美国经济的“蛋蛋”,在哪里?

▼长按2秒识别二维码关注我们
公众号 :就业与创业
点击下方可看
  1. 太突然!知名公司注销、解散!这句广告词你一定听过

  2. 暴雷房企的地产人,还能跳去哪儿?

  3. 青年女教师举报山师大博导性侵,如何避免高校职场打压?

  4. 员工离职经济补偿金一览表(2023年最新版)


▼长按2秒识别二维码关注我们




继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存