查看原文
其他

发射全新架构“火箭”,英特尔两年“登月”

包永刚 芯基建 2022-12-30


用AMD超越的方式,英特尔开始反击。

 作者 |包永刚 

本周四,英特尔架构日用长达近两个半小时的时间介绍了其在架构创新以及相关新产品方面的进展。英特尔高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri说:“架构是硬件和软件的‘炼金术’。”

2016年,AMD发布全新CPU微架构ZEN,帮助其在桌面CPU市场几年间迅速接近甚至超越英特尔。今天,英特尔发布了全新的CPU架构和两个核心,将移动SoC中已广泛应用的CPU大小核(BIG.LITTLE)架构率先引入桌面级CPU中。

英特尔在升级“看家”产品CPU的同时,也带来了独立GPU更详细的信息。特别值得关注的是,英特尔首次展示了耗时近两年,堪比登月难度创新后的产品Ponte Vecchio GPU,包含1000亿个晶体管,这是英特尔迄今为止最高的计算密度产品,能提供业界最顶级的AI性能。

不止于此,英特尔还进一步介绍了全新的基础设施处理器(IPU)。

从CPU到GPU再到IPU,每一个新的架构和产品都是其XPU架构战略的体现,也用实际产品证明了芯片异构的时代,软件优先的重要性。无论如何,英特尔全新的CPU值得消费者期待,而其GPU以及IPU,也将成为竞争对手重点关注的产品。

4年处理能力提升1000倍

AI、元宇宙、AR,都需要超高性能的处理器。每一位追求创新的客户都给英特尔一个问题,到2025,英特尔能让我们的工作负载处理能力有1000x(千倍级)的提升吗?

“这个要求只给了我们4年时间,而1000倍可是摩尔定律的5次方。” Raja说,“为了在2025年满足1000x(千倍级)提升的需求,我们要在每个技术领域,实现至少4倍左右的摩尔定律提升,这些领域包括制程工艺、封装、内存和互连,架构是将它们与软件结合起来的‘炼金术’。这些技术的集合可以作为乘法因子,与4倍的提升相结合,就能提供处理繁重的工作负载所需的千倍提升,这同时例证了为何如今是成为架构师的大好时代。”

2019年,两位图灵奖得主 John L. Hennessy 和 David A. Patterson发表长报告展望,未来的十年将是计算机体系架构领域的“新的黄金十年”。

已经准备好先进制程(Intel7、Intel4、Intel3、Intel20A,以及外部代工厂),先进封装技术(EMIB、Foveros),内存(傲腾)和互联技术的英特尔,处理能力可以像火箭一样跃升吗?

这需要先看英特尔的看家本领——CPU。

要以大小核的方法,夺回CPU领先优势

“我们的首要目标是,打造世界上极高能效的x86 CPU内核。与此同时大幅缩小芯片尺寸,以便多核工作负载可以根据需要,使用尽可能多的内核进行拓展。我们还希望提供更宽的频率范围,以满足更高需求的工作负载。”英特尔院士,英特尔x86能效核的首席架构师Stephen Robinson介绍,

“基于全新的微架构,全新的CPU内核在多核性能方面实现了突破,首款产品是Alder Lake。”

Alder Lake是英特尔首个性能混合架构,采用Intel7制程,搭载两款新一代x86内核以及智能英特尔硬件线程调度器。

先看能效核,也叫E-Core。与英特尔迄今为止最多产的CPU微架构Skylake相比,其可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。如果看吞吐量,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。

实际上,英特尔是利用各种技术,在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能,具体的功能包括:

  • 拥有5000个条目的分支目标缓存区,实现更准确的分支预测

  • 64KB指令缓存,在不耗费内存子系统功率的情况下保存可用指令

  • 英特尔的首款按需指令长度解码器,可生成预解码信息

  • 英特尔的簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令

  • 后端宽度(Wide Back End)具备5组宽度分配(Five-wide allocation)和8组宽度引退、256个乱序窗口入口和17个执行端口

  • 支持英特尔®控制流强制技术和英特尔®虚拟化技术重定向保护等功能

  • 实现了AVX指令集以及支持整数人工智能操作的新扩展

再看性能核,也叫P-Core,这是英特尔迄今为止性能最高的CPU内核,它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。

更宽、更深、更智能的性能核架构具体的体现是:

  • 更宽:解码器由4个增至6个,6µop 缓存增至8µop,分配由5路增至6路,执行端口由10个增至12个

  • 更深:更大的物理寄存器文件(physical register files),拥有512条目的重排序缓冲区

  • 更智能:提高了分支预测准确度,降低了有效的一级时延,优化了二级的全写入预测带宽

与第11代酷睿架构(Cypress Cove内核)相比,在相同频率下,性能核在一系列工作负载上平均提升了约19%。

拥有AI硬件加速器是英特尔CPU独有的功能,这一特性在性能核上进一步通过软件结合硬件来提升。凭借英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,AI加速可以提升约8倍(每个内核每周期可进行2048次int8运算)。AMX可是用过软件的方法,由此就不难理解英特尔一直强调软件优先的原因。

“能效核并不意味着性能就低,只是其优化的方向与性能核不同。”英特尔研究院副总裁、英特尔中国研究院院长宋继强告诉雷锋网。

拥有了不同的内核,就像是拥有了更多武器,能够充分发挥武器的杀伤力才是高手称霸的关键。所以,英特尔开发了独特的硬件线程调度器,能够从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。

“英特尔硬件线程调度器与其它调度器一个非常大的区别就是动态、智能地分配工作负载,在合适的时间把合适的线程分配给合适的内核,同时还与操作系统无缝配合。”宋继强指出。

全新性能混合Alder Lake架构CPU由于采用了单一、高度可扩展的SoC架构,这就让其可以支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备。

全新的性能核微架构也会用于利润丰厚的数据中心CPU市场,也就是下一代英特尔至强可扩展处理器,代号Sapphire Rapids,其核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。

可见,AMD用Zen赶超英特尔,如今英特尔要用Alder Lake反超。这也让我们更期待今年底将会出货的搭载Alder Lake CPU的PC产品。同样,英特尔捍卫其在服务器CPU市场的领导力,代号Sapphire Rapids的下一代至强可扩展处理器也非常重要。

再入独立GPU市场,挑战登月级难度

相比看家本领的CPU产品,英特尔过去两次挑战独立GPU市场,都以失败告终。再一次进入独立GPU市场的英特尔面临的是更大的挑战。

“我们面临的是将近持续十年之久的问题。英特尔在吞吐量计算密度和对高带宽内存的支持方面都落后。这两者都是 HPC和AI的基本指标,也是GPU架构的基石。”Raja给出了图表展示英特尔与业界领先水平的差距。

Raja还同时说,“当2017年GPU架构开始为AI数据类型的矩阵处理添加特殊引擎时,问题变得更糟。我们真的很想尽快缩小这个差距,所以我们需要一个堪比登月难度的创新产品。”

今天英特尔架构日上,详细介绍的全新的独立显卡微架构Xe HPG,采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。基于全新独立显卡微架构Xe HPG的首款产品是Alchemist,Alchemist SoC能够提供出色的可扩展性和计算效率,并拥有以下关键架构特征:

  • 多达8个具有固定功能的渲染切片,专为DirectX 12 Ultimate设计

  • 全新Xe内核,拥有16个矢量引擎和16个矩阵引擎(被称为XMX,即Xe Matrix eXtension)、高速缓存和共享内部显存

  • 支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光线追踪单元

  • 通过架构、逻辑设计、电路设计、制程工艺技术和软件优化,相比Xe LP微架构实现1.5倍的频率提升和1.5倍的每瓦性能提升1

  • 使用台积电的N6制程节点(通常叫做台积电6nm)上进行制造

与全新的CPU微架构一样,英特尔全新的GPU微架构也采用了软件优先设计的方法。

“英特尔很早就与开发者、API 和领先的游戏引擎厂商展开合作,共同为游戏发烧友设计英特尔新款独立GPU。这款全新可扩展Xe HPG架构,采用了软件优先的设计方法,从而为游戏玩家和创作者带来高性能表现并减少画面卡顿。” 英特尔CEO 帕特·基辛格表示。

雷锋网了解到,英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,使计算密集型游戏的吞吐量提高了15%(至多80%),游戏加载时间缩短了25%。同样能体现软件优先的特性是XeSS。

XeSS与CPU中的AMX一样可以进行AI加速,利用Alchemist的内置XMX AI加速,带来了一种可实现高性能和高保真视觉的全新升频技术,让那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。

从正在试产阶段的Alchemist  SoC的演示视频可以看到,包括真实游戏展示,虚幻引擎5测试良好。想要用上英特尔全新的Alchemist GPU,最早一批要到2022年第一季度上市,错过了圣诞季的消费热潮,不知能否赶上春节。

除了确定性较高的Alchemist,英特尔还规划了Battlemage、Celestial和Druid 的消费级独立GPU产品,英特尔还为这一系列产品推出了全新的品牌名称锐炫。

但最能展现英特尔在独立、高性能GPU市场决心的产品还是基于Xe HPC微架构的Ponte Vecchio,这是英特尔迄今为止最复杂的SoC,包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。

“不到两年前,我分享了我们为Ponte Vecchio设定的目标。看到这样非凡的芯片工程以及雄心勃勃的软件计划在我们的实验室内成为现实,这对于我们来说是令人难以置信的时刻。对于我们来说,这已经不再是似乎不可能的登月难度的创新产品。”Raja同时也表示,

“整个项目尚未成功,我们还有很多工作要做。但是,我们迫不及待地希望大家加入我们的旅程,在明年初把这个架构带给所有客户。”

之所以说Ponte Vecchio的难度堪比登月,是因为要设计这样一款产品难在从无到有,面对的是新的SOC架构、新的IP 架构、新的内存架构、新的I/O架构、新的封装技术、新的供电技术、新的互连、新的信号完整性技术、新的可靠性方法、全新的软件、以及新的验证方法。

“保守地说,Ponte Vecchio是我在30年的芯片开发生涯中开发的最复杂的芯片。实际上,我甚至不确定把它称为芯片是否准确,它是包含诸多芯片的集合。”英特尔Ponte Vecchio首席架构师Masooma Bhaiwala感叹。

架构日上,Masooma Bhaiwala英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。基于Ponte Vecchio的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。

雷锋网了解到,基础单元是Ponte Vecchio的连接组织,它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。Xe 链路单元提供了GPU之间的连接,支持每单元8个链路,该单元已被添加到“极光”(Aurora)百亿亿次级超级计算机的扩展解决方案中。

异构时代的IPU

IPU(基础设施处理器)是CPU和GPU之外,英特尔架构日的第三个重要产品。英特尔在不久前提出IPU的概念,这一产品的目标是使云和通信服务提供商减少在中央处理器(CPU)方面的开销。

英特尔数据平台事业部首席技术官Guido Appenzeller介绍,英特尔认识到单一产品无法满足所有需求,因此对其IPU架构进行了更深入的研究,并推出了以下IPU家族的新成员。目前的IPU基本上使用两类架构:一类是专用ASIC IPU;一类是基于FPGA的IPU。

基于FPGA的IPU能快速实施新协议,应对不断变化的要求或新协议。例如,在这些FPGA上实现未公开的专有协议。专用ASIC IPU可以实现性能和效率的最大化。

“两者实际上都不同于经典的SmartNIC,后者缺乏执行基础设施控制面的能力。对于不同类型的基础设施加速,没有适用所有情况的方案。因此,英特尔将继续投资于这两类IPU以及SmartNIC。”Guido Appenzeller同时表示。

Mount Evans是英特尔的首个ASIC IPU。据悉,这是英特尔与一家一流的云服务提供商共同设计和开发的,融合了多代FPGA SmartNIC的经验。

“接下来将迎来两款基FPGA的IPU新产品,分别面向云(Oak Springs Canyon)和通信(Arrow Creek)市场。” Guido Appenzeller介绍,

Oaks Springs Canyon是基于FPGA的IPU,采用了英特尔的Agilex FPGA 和至强D片上系统。还采用了英特尔开放式FPGA开发堆栈(英特尔OFS),这是一个可扩展、开源软硬件基础设施堆栈,能够满足新兴云服务提供商对于部署100GB工作负载的需求。Oak Springs Canyon还包括一个加固的加密模块,以线速性能保护所有基础设施流量、存储和网络。

Arrow Creek是一个加速开发平台,基于Agilex FPGA和e810 100GB以太网控制器。它源自英特尔PAC-N3000,后者目前已经被全球各地的顶级通信服务提供商所采用,Arrow Creek将帮助电信运营商提供灵活的加速工作负载。

成就异构芯片时代——oneAPI

“在软件领域,要开启堪比登月难度的创新计划。我们需要一个编程框架,让软件开发者在编程时无需考虑不同的CPU和加速器组合,很多人认为这是不可能的任务,我们创造了oneAPI,让开发者能够摆脱专有语言和编程模型。”Raja说,

“oneAPI行业计划提供了一个开放、基于标准、跨架构、跨矢量的统一软件堆栈。这个行业规范的第一个版本已于去年9月发布,其中规定了一个通用硬件抽象层、数据并行编程语言以及全面的高性能函数库,涉及数学、深度学习、数据分析和视频处理领域。

目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI库。oneAPI工具包拥有超过20万次单独安装,市场上部署的300多个应用程序采用了 oneAPI的统一编程模型。

据悉,临时的oneAPI 1.1版已经在5月发布,增加了面向深度学习工作负载和高级光线追踪函数库的全新图形接口。预计oneAPI1.1正式版将在今年末之前完成。

写在最后

从CPU到GPU再到IPU,从微架构到封装、存储、互联再到软件,从六大技术支柱到异构再到软件优先。英特尔正在用全新的产品组合,技术路线和策略面对AI和5G时代的竞争。

接下来的市场竞争格局的变化,难以准确预测。但英特尔有勇气说出自己在技术上的巨大挑战,以及宣布IDM 2.0,都释放出积极的信号,一个更加开放的英特尔正在积极拥抱新的市场和竞争。

往期推荐

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存