查看原文
其他

2020英特尔架构日:多维创新诚意满满、未来可期

九月 知IN 2023-02-06


本文作者:九月

本文转载自太平洋电脑网


近日,英特尔一年一度的架构日再次到来。而此次架构日上,英特尔可谓诚意满满,不仅带来了Xe显卡的更多消息,也从工艺架构封装异构计算软件等多个维度展示了英特尔一年来的创新成果。显然,即便经历了外界的种种质疑,英特尔在这次架构日上所展示的技术和成果仍旧足以令行业侧目。


10nm的最佳拍档——SuperFin


早在22nm时代,英特尔就率先采用了FinFET 3D晶体管技术,通过在垂直方向上布置晶体管来减少芯片面积,并取得了非常好的效果。时至今日,FinFET及其改进版已伴随英特尔走过了7年多的时间。虽然英特尔曾宣称,FinFET将延续至5nm时代,但伴随英特尔半导体制造工艺进展的加速,全新的晶体管技术已经箭在弦上。


在下一代10nm芯片Tiger Lake上,英特尔将应用全新的半导体技术SuperFIN


10nm SuperFin技术实现了英特尔增强型FinFET晶体管Super MIM(Metal-Insulator-Metal)电容器的结合。



SuperMIM超级电容能够提供5倍的容量,并将电容的通孔电阻降低30%。而在栅极处,英特尔则使用了全新的HI-K介质。相对于之前的介质,新的HI-K介质厚度仅有几个埃(一种厚度单位,1埃=0.1nm);英特尔将采用新HI-K介质构成的栅极称为“超级晶格”。


作为SuperFIN的另一大组成部分,改进FinFET包含了三处进化:提供更高流动性的晶体管Gate工艺;增加了Gate之间的间距,可以承载更高的驱动电压;改进的晶体管源极和漏级,能够降低电阻、增加应变。


当然,两种技术组合之后最直观的效果便是能够增加晶体管自身的性能。按照英特尔的计算,相对于目前14nm上使用的改进版FinFET,新的SuperFIN能够提升晶体管性能17%左右。


同时,英特尔还规划了改进版的SuperFIN技术,但并未公布其具体应用时间。


先进封装技术

开启SoC的更多可能


在2019年的封装技术展示中,英特尔对外介绍了Foveros 3D封装技术。他能够在横向和纵向两个维度允许晶片(Die)进行堆叠。



在实际应用中,随着晶片性能和功耗的提升,晶片上也必须安装更多的触点。而当芯片开始进行3D堆叠,在很多情况下,上层晶片能够用于安装触点的面积也将被极大压缩。显然,提升触点的密度并提升单个触点所能承载的电流将改善这一问题。


而这正是Intel Hybrid Bonding技术的关键所在。


相对于目前正在使用的Foveros技术,新的Hybrid Bonding能够将触点兼具从50微米降低至10微米,由此,触点密度也将从400每平方毫米直接提升至10000每平方毫米。


配合ODI、Co-EMIB等技术,3D封装的SoC将在能效、内部互联性能和扩展性等方面登上一个新的台阶。


除了10纳米和SuperFIN……


对于9月初即将发布的Tiger Lake,英特尔也在本次的架构日上进行了更详尽的说明。


除了将采用10nm工艺和SuperFin晶体管技术之外,Tiger Lake最大的特色在于使用了专为前两者适配的Willow Cove核心架构


Willow Cove使用了重新设计的缓存架构,并将其引入到更大的非相容1.25MB MLC中,并通过英特尔控制流强制技术(Control Flow Enforcement Technology)增强了安全性。


当然,抛开这些比较玄妙的用词,英特尔还给出了比较直观的对比。


相对于目前的Sunny Cove微架构,新的Willow Cove能够以更低的驱动电压达到相同的频率


另外,Willow Cove还能够提供更大的频率和电压动态范围。换句话说,就是更高和更低的睿频上下限,进而适应不同的工作场景,进一步提升笔记本的能效(是的,Tiger Lake是一款面向移动领域的处理器产品,而且分为能效版和性能版,对应了目前的低压处理器和标压处理器)。


此外,Willow Cove还有一大堆的新特性:


Xe图形架构–具有高达96个执行单元(EUs),每瓦性能效率显著提高


电源管理–一致性结构中的自主动态电压频率调整(DVFS),提高了全集成电压稳压器(FIVR)效率


结构和内存–一致性结构带宽增加2倍,约86GB/s内存带宽,经验证的LP4x-4267、DDR4-3200;LP5-5400架构功能 


高斯网络加速器GNA 2.0专用IP,用于低功耗神经推理计算,减轻CPU处理。运行音频噪音抑制工作负载情况下,采用GNA推理计算的CPU利用率比不采用GNA的CPU低20%


IO–集成TB4/USB4,CPU上集成PCIe Gen 4,用于低延迟、高带宽设备对内存的访问


显示–高达 64GB/s的同步传输带宽用于支持多个高分辨率显示器。到内存的专用结构路径,以保持服务质量  


IPU6–多达6个传感器,具有4K 30帧视频、27MP像素图像;最高4K90帧和42MP像素图像架构功能


Xe图形架构

AI时代英特尔的大杀器


2019年HPC大会,英特尔首次对外谈及了Xe图形架构。而相对于十多年前的LarraBee,这次英特尔信心满满、志在必得。



英特尔共规划了4种Xe核心,分别是集成于CPU内的Xe LP,面向低功耗市场;以独立显卡存在的Xe HPG,面向主流游戏市场;以计算卡形式存在的Xe HP,面向数据中心及AI市场;面向HPC市场的Xe HPC。


所有的Xe系列细分产品都基于上图这套基础架构,面向不同市场的产品则通过这一架构的不断复制和堆叠来进行性能扩展。当然,这就会用到前面提到的各类封装技术。(这里不得不为英特尔的配色点个赞,架构示意图看起来非常的“豪横”)


基础的Xe LP架构包含6个SubSlice(相当于NVIDIA架构中的SM),每个SubSlice包含16个EU(相当于NVIDIA架构中的Core)并配备一组独立的L1数据缓存。这样一个基础的Xe LP Slice架构便包含了96个EU单元。而整个Slice则共享16MB L3缓存。



96个EU单元每时钟周期可以提供1536次浮点运算;6个SAMPLER每时钟周期则可以处理48个纹理贴图;3组像素backend(每两组SubSlice共用一组像素backend)每时钟周期则可以处理24个像素。


EU内部架构


从架构的形态来看,Xe与目前主流的GPU设计思路非常相似,采用大型EU单元和流水线架构;并以此为核心布置各类功能性Engine。



在AI性能上,新的Xe GPU显然针对常用的FP16/8和Int16/8进行了特别优化,能够随数据精度的降低而线性增长。当然,在消费类应用中,英特尔也针对游戏、影音等应用进行了众多细节上的优化。



通过Slice架构的不断堆叠,英特尔可以满足不同应用场景对异构算力的需求。而这张幻灯片则表明了不同数量堆叠所用到的封装技术。最高级的4 Slice堆叠会用到2.5D封装技术Co-EMIB和Foveros。


显然,即FPGA之后,英特尔芯片堆叠技术已经日臻成熟,并开始能够在更广泛的商用市场中进行产品化部署。按照英特尔的说法,这是业界首个多区块、高可扩展性的高性能架构


另外,面向AI市场的Xe HP将首先上线英特尔的DevCloud,届时开发者可以注册并上线体验。


数据中心市场

Ice Lake千呼万唤


Ice Lake基于10nm工艺制造,预期将于2020年底推出。


按照英特尔在架构日上的展示:


Ice Lake产品将在跨工作负载的吞吐量和响应能力方面提供强劲性能。它将带来一系列技术,包括全内存加密、PCIe Gen 4、8个内存通道等,以及可加快密码运算速度的增强指令集。Ice Lake系列中也会推出针对网络存储和物联网的变体。


而在Ice Lake之后则是全新的Sapphire Rapids,DDR5、PCI-E 5.0和英特尔主导的Compute Express Link总线都会出现。


Sapphire Rapids是英特尔基于增强型SuperFin技术的下一代至强可扩展处理器,将提供领先的行业标准技术,包括DDR5、PCIe Gen 5、Compute Express Link 1.1等。Sapphire Rapids将是美国阿贡国家实验室“极光”超级计算机系统(Aurora Exascale)中使用的CPU,它将延续英特尔的内置人工智能加速策略,使用一种名为先进的矩阵扩展(AMX)的新加速器。Sapphire Rapids预计将于2021年下半年开始首批生产发货。


One API即将迎来Gold版


随着GPU、FPGA、ASIC、eASIC等产品线的成果逐渐丰富,英特尔的计算产品线也越来越长,而架构之间的差异也很大。


为了弥补异构计算所带来的算力调用复杂问题,英特尔提出了one API计划,计划利用统一的API和开发环境来让开发者轻松调用各类计算资源,把程序员从“一次开发,到处调试”的深渊中解放出来。当然,这也能够让用户在训练和推理阶段使用不同的架构来完成,进一步降低AI应用所需的资金成本。


在此次架构日上,英特尔表示,产品化的one API将于今年晚些时候面市,而且,上市即是Gold版本。


与Xe HP相同,one API的Gold版将首先上线Intel DevCloud。届时开发者可以在其中体验Xe HP和one API组合的威力。


小芯片,大未来


EPYC的成功带火了ChipLets概念。而现在,英特尔则更进一步。




这两张幻灯片清晰的展示了英特尔的想法——将SoC的细粒度进一步提升;将以前按照功能性来组合的思路转变为按照IP来进行组合。英特尔将这一设计思路称为——分解设计法。


相对于过去的芯片整体设计思路,分解设计法的好处很明显——可以提升芯片设计的效率,降低产品化时间,并且能够有效减少复杂设计所带来的Bug问题。


当然,这样的大量晶片堆叠需要更好的片上互联和堆叠技术。但在看到了英特尔的Fevoros、EMIB、Co-EMIB、IDO和Hybrid Bonding等技术逐渐走向成熟之后,这些问题应该都“不是事儿”。


见微知著,英特尔的大计划


除了上述的重点内容之外,英特尔在六大支柱方面均有不同程度的创新。2020架构日,英特尔的创新看点众多,足见诚意满满。


见微知著,在更宏观的层面英特尔向市场传达的信息相当明确:


半导体行业的竞争从来都不是单独的制程或架构之争,它是涉及诸多方面的体系竞争。而如果从更宏观的场景应用来看,这还需要涉及内存存储、互联、软件和安全等层面,对体系整体的性能体验、完整性、扩展性和先进性都有更高的要求。


而英特尔在架构日的一系列宣讲也证明,英特尔是目前行业中唯一有能力提供上述全部技术及产品解决方案的厂商。多个维度相互配合所产生的体系优势绝非其他挑战者单点突破所能比拟的。


而对于从to C到to B的全体用户来说,最终的产品或解决方案就是这一体系创新的结果。


所以,从这一维度来看,英特尔在当下及可预见的未来仍将是行业的主导。


在此次架构日上,英特尔首席架构师Raja表示:惠及每个人百亿亿次级计算能力时代正在到来。


而从英特尔2020架构日来看,这一未来将是异构的、体系化的、软硬融合的。


本文仅代表媒体观点

文中图片等素材的版权归其所有者拥有




相关资讯








点赞还是在看?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存