查看原文
其他

专用域架构(DSA)与计算的未来

常华Andy Andy730 2024-03-16

Source: Mena Issler, Domain-specific architectures and the future of compute,July 18, 2023

半导体工艺技术创新长期以来的持续发展趋势正在减缓。经过几十年对摩尔定律的显著遵从性,即半导体晶圆上的晶体管密度大约每两年翻一倍,但是在过去几年中,晶体管的扩展速度明显放缓,与摩尔定律预测相比慢了大约十倍。登纳德缩放定律(Dennard Scaling)预测随着晶体管密度的增加,每单位芯片面积的功耗保持不变,但实际上也失效了,导致大型数据中心和其它高性能计算环境需要更复杂的冷却解决方案。

对半导体工艺创新放缓的架构应对

面对半导体工艺创新的减速,著名计算机架构师John Hennessy和David Patterson在2018年的图灵演讲中提出,工艺技术创新的减缓将逐渐增加对架构创新的动力——即设计集成电路以执行计算任务的方式。他们认为通用计算架构(例如CPU)的固有低效性将开始向(或被)为特定计算任务优化的架构所取代或补充,这种架构也被称为专用域架构(Domain-Specific Architectures,DSA)。

与此同时,随着计算和数字化技术广泛应用于云计算(AI和高性能计算)、网络、边缘计算、物联网和自动驾驶等各个应用领域,高度专用域计算工作负载正在扩展,这为DSA提供了提供有意义的性能优势的机会。大型语言模型(Large Language Model,LLM)作为生成式AI的核心引擎,通过ChatGPT等应用在AI工作负载中提供进一步的专业化,并可能导致进一步的硬件专业化。

针对专用域架构(DSA),即为特定应用领域开发的硬件和软件,商业潜力是巨大的。例如,GPU和张量处理单元(Tensor Processing Units,TPU)已经在数据中心获得了显著的市场份额,在AI工作负载(学习和推理)等受益于高并行度的工作负载中,他们的性能超过了CPU。性能提升可能非常显著,工作负载特定的加速通常为15到50倍。在汽车领域,一些领先供应商提供定制解决方案,提供所需的低延迟、高性能推理,以安全地支持日益增长的自动驾驶水平。

随着DSA扩展到其它应用领域,我们预计到2026年,DSA的收入将达到约900亿美元(全球半导体市场的约10%到15%),而2022年的收入约为400亿美元。因此,我们看到了对专用域设计初创公司的风险投资流入显著增加。在过去十年中,已累计有约150家初创企业获得了180亿美元的资金支持,而在之前的十年里,硬件投资被忽视,更多地偏向于软件。

半导体产业链中的企业、计算系统制造商以及计算解决方案的最终用户应该做好准备,充分利用这一趋势,而不是措手不及。

支持DSA商业可行性的关键因素正逐渐成熟

以往,除了受益于摩尔定律的巨大助力外,CPU还受益于大规模经济效益,以抵消竞争专用域芯片(Domain-Specific Chip)的理论优势。专用域芯片由于其特异性而面临较小的需求量,并可能需要专门的软件才能高效部署。芯片越昂贵(由芯片尺寸、复杂性和工艺技术节点决定),应用领域就需要更大规模的需求来证明采用专用域架构的必要性。推动专用域架构的颠覆潜力的是以下五个重要因素,他们正在共同努力缩小通用目的和专用域设计之间的经济差距:

1.通过晶圆代工厂获得成熟和领先的半导体技术制造能力

晶圆代工厂——专注于半导体制造服务的公司——已经在全球半导体制造中占据越来越大的份额,因为他们可以汇聚需求并实现规模效益,以抵消生产现代半导体的不断上升的成本。(领先半导体制造厂或称“晶圆厂”的成本超过100亿美元。)晶圆代工厂不仅在不同技术节点上稳步获得制造市场份额,而且他们还提供了采用最先进技术节点的机会,这是过去一直由集成器件制造商掌握的优势。因此,任何一家拥有针对专用域设计的优越想法的初创企业都可以迅速获得最先进的制造能力,无需投资一分钱在制造能力上。

2.通过成熟的云平台快速进入市场

专门针对企业、AI或HPC工作负载的卓越DSA供应商不一定需要开发自己的进入市场的基础设施。他们可以依赖成熟的云服务提供商(CSP)生态系统,这些CSP提供计算作为一种服务。如果他们能向CSP和其客户群体证明他们的DSA在特定工作负载下提供了卓越的计算性能(按照性价比和每瓦计算性能),那么他们的硬件解决方案可以被集成到CSP数据中心基础设施中,并作为硬件服务提供给计算周期的最终用户。

3.丰富的开源和许可知识产权(IP)库用于加速DSA设计

尽管专用域架构(DSA)按定义是为专用域工作负载而设计的,但这并不意味着DSA设计者在设计电路时必须从零开始。可许可的指令集架构(Instruction Set Architectures,ISA),如Arm和x86,以及开源ISA(例如RISC-V),使芯片设计变得民主化,并提供了丰富的构建模块和即用型设计组件。他们还允许访问相应的编译器和应用级软件解决方案生态系统。选择这些不同生态系统作为基础将在软件堆栈成熟度、成本和专用域硬件性能之间进行权衡。

4.支持DSA芯片片上异构集成的2D和3D芯片封装的进展

越来越多的领先计算设备不再由单一芯片组成。随着高性能芯片变得越来越大,工艺技术变得更昂贵且更难以实现高工艺产量,领先厂商采取了一种分散策略,构建芯片片而不是单个大型单片。这些芯片片可能在自己的工艺技术上进行优化,并用于自己的功能,然后在先进的封装中进行集成。过去芯片封装只包含一个芯片,而先进封装允许在单个封装中以2D甚至3D的形式对数十个芯片进行异构集成。这种技术趋势对专注于DSA芯片片的企业非常有利,因为这些芯片片现在可以集成到先进封装中,从而实现与其它计算、通信、存储和模拟组件之间的高带宽和低延迟连接。

5.物理层创新推动新型DSA的发展

对于物理计算层面而言,CMOS之外的选择,例如光子学、神经形态和量子架构,有望为专用域计算需求提供特定优势,如能源效率、可塑性、特定任务速度和特定NP难问题的线性缩放。随着这些物理层解决方案的成熟,将会开辟新的DSA类别。

为了充分发挥DSA的价值,需要在技术堆栈的各个方面进行进一步的创新

从技术堆栈的各个层面,从物理层到应用级工作负载管理,需要进一步的创新来推动DSA的可行性和商业成功。

在物理和电路层面,开源生态系统(例如Arm和RISC-V)需要进一步发展,以在这些构建模块上支持完整的DSA软件堆栈。没有高效的软件堆栈,许多硬件级性能优势将无法转化为实际的工作负载加速。

在系统级封装(System-in-Package,SiP)层面,需要标准化芯片片间接口,以实现DSA的经济和普遍集成。行业联盟(如Universal Chiplet Interconnect Express,UCIe)已经开始形成,以定义这些标准。此外,在美国,CHIPS法案和DARPA(国防高级研究计划局)认识到实现先进封装的协同开发平台是一个重要的投资领域,并通过激励措施来促进其发展。

在操作系统和编译器层面,更高级的编译器需要有效地考虑单个封装中可能存在多个指令集架构(ISA)的潜在共存。

在数据中心层面,需要先进的虚拟化程序和编排器来优化地协调不同DSA计算实例中的工作负载容器,并在整个数据中心内平衡利用率,以向最终客户的应用程序提供DSA级别的优势。此外,云服务提供商将开发工具来支持他们的最终客户了解硬件实例的最佳配置,以满足其特定的计算需求,避免计算资源的低效部署。

半导体价值链上的企业和最终用户应该为DSA驱动的颠覆做好准备

DSA可能会在整个半导体价值链上激活颠覆。以下是为其做好准备的方法:

半导体企业:为价值链颠覆做好准备

材料供应商应该了解先进封装技术的影响(例如,对2D和3D集成的基础构成形成的新型基板材料的需求,以及对当前基板材料的热机械稳定性的需求),以及新的物理层范式对前端和后端材料流的影响。

前端工具制造商将希望参与支持DSA集成的先进封装和异构集成热潮,这将需要与前端制造类似的精确定义和对齐。

晶圆代工厂将需要准备迎接对较小批量和更多专用域芯片和Chiplet的需求,并找到有效和经济地支持较小玩家的方式。此外,对非先进封装和新物理层解决方案(如光子学)的支持将变得越来越重要,因为功能将被拆分为任务优化的Chiplet。

芯片设计公司需要拥有能够全面考虑专用域工作负载性能的人才,从门级布局和硬件架构设计选择到软件堆栈和工作负载管理,以充分利用DSA的架构优化。

电子设计自动化(EDA)和硬件IP公司需要应对两个挑战。首先是如何调整他们的商业模式,以支持可能没有足够财力购买昂贵前期许可证的较小DSA颠覆者。其次是如何将他们的IP、设计和仿真套件从芯片级扩展到SiP级,以支持在多个Chiplet和ISA之间进行系统级、多物理学(逻辑、电气、热学、光学和机械学)EDA,同时实现以前仅在芯片级别见到的带宽和延迟。

计算消费者:使用优化的DSA,并投资于专业知识,充分发挥其优势

云服务提供商(CSP)已经认识到工作负载特定的芯片架构的价值,这一点可以通过他们越来越多地采用GPU以及推出面向数据中心硬件实例的自主芯片设计得到证明。随着设计初创企业继续针对AI和高性能计算等应用案例的工作负载特异性,CSP将希望密切关注新兴的成功者,以便可能支持并推动他们扩展规模。

企业客户需要了解DSA在其特定工作负载中的优势。将计算基础设施移入公有云的好处将会不断增加,因为CSP可以大规模提供DSA的访问,通过聚合对专门硬件实例的需求并高效管理工作负载的部署。然而,企业应该掌握或保留如何最好地利用这些硬件实例的专业知识,要深入了解如何优化特定的工作负载和云硬件实例配置,以提供最大的总拥有成本优势。

专用域的原始设备制造商(如物联网和边缘设备制造商、网络设备供应商、汽车制造商和区块链平台)将希望深入了解其专用域的计算需求和工作负载的发展,而不是依赖于通用计算进展。他们还希望熟悉存在的架构选项,以满足芯片设计方面的能源、成本、占地面积和性能需求。这可能需要他们超越传统的供应链结构:例如,汽车原始设备制造商可能需要直接寻找和与DSA初创企业合作,而不是依赖于一、二级供应商来获取所有最新的洞察。

摩尔定律推动了计算行业的持久发展,在通用计算方面带来了数十年的性能提升,大大减少了对工作负载特异性投资的需求。随着晶体管密度增长放缓,DSA将越来越多地获得专用域的性能优势,并对价值链参与者及其客户带来重大颠覆。


---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存