查看原文
其他

突破算力瓶颈:异构计算和异构集成是两大方向

连于慧 问芯Voice 2022-10-22


日前,由中国计算机学会(CCF)主办的“2022中国计算机学会芯片大会”中,英特尔中国研究院院长宋继强分享许多半导体前沿技术。谈到半导体两大趋势:突破算力瓶颈,以及墙算力同时要能控制功耗,宋继强分享了英特尔对异构计算和异构集成两大技术方向的看法。

是突破算力瓶颈,通过不同的方式解决多样化数据的计算有效性; 第二,在提升算力的时候,还需要考虑到绿色计算,不能用很耗能的计算方式去解决问题,要想如何以能量优化的方式去解决未来的数据处理。

宋继强指出,如果把数字经济的基础设施看成一个底座,如何更好地分配算力,进行调度以应对不同的应用,以及对延时、计算量、并发、不同加速类型、数据类型的要求,实际上是构成了一个很复杂的算力网络。

中国近年来提出把计算和网络融合起来,“东数西算”工程的推进是很重要的大方向。从技术方面来看,其实它就是在构造一个以能源、计算能效性为优先综合布局的新型算力网。

东部的数据量很大,包括游戏、智慧城市、智能驾驶、交通等有非常多数据产生和使用。还有很多地区能效比高,很多自然能源可以使用,适合建立建数据中心。这个概念在上面看是一张算力网,通过网络把它连接起来,当中的底层技术非常复杂,因为网络有延迟,很多应用根据数据处理和应用的需求对延迟的敏感度不太一样。

对于数据处理,无论是算力还是网络构造,都很有独特的要求。从数据量和质来看,传统的单一计算架构肯定会碰到性能和功耗的瓶颈。因此,我们要朝两方面迈进:第一,是突破算力瓶颈,通过不同的方式解决多样化数据的计算有效性; 第二,在提升算力的时候,还需要考虑到绿色计算,不能用很耗能的计算方式去解决问题,要想如何以能量优化的方式去解决未来的数据处理。

解决上述问题,异构计算和异构集成是未来的两大方向。

何为异构计算?就是用不同的架构处理不同类型的数据,真正做到“用好的工具解决好的问题”。

何为异构集成?是以更好的集成组合方式,把不同工艺下优化好的模块更好地集成到未来的解决方案当中,从而更加高效地处理复杂计算。

在“解决问题”的这个思路下,首先我们要能够在硬件的架构布局上“全面发展”,对不同的数据有不同的处理器架构,比如说CPU、GPU、IPU、FPGA、AI加速器,它们各自针对不同种类的数据流,包括数据处理的不同特点,可以进行定制。

再者,把不同架构组装起来后,就需要有人根据应用的要求进行编程,释放硬件的功能,把它调度好,这就需要有一个对应的很好的软件框架,英特尔的oneAPI就在构造一个完整的异构计算体系,目的是未来写一个软件,只需要让应用者指定它的功能,而不需要非常明确地指定哪些部分运行在CPU上,哪些部分运行在GPU上,哪些部分运行在AI加速器上。通过底层的软件功能模块和工具链,就可以把下面具体的实现分布在不同的硬件上,硬件发生变化,下面具体的实现也发生相应变化,但是上面的软件开发代码是不用变的。

英特尔在这一领域有非常全面的硬件架构布局,包括CPU、GPU、IPU、FPGA、AI加速器等领域都有很成熟的产品,在网络上可盖的领域很全面的,从终端侧,到边缘,再到服务器,都有不同级别的硬件对它们进行加速。


软件框架也非常重要,必须具有开放性,因为我们现在不知道未来会有哪些新兴硬件种类出现,但是我们要去构造一个能让未来和现在的硬件都能很好地去工作的统一框架。

首先,最底层是硬件的抽象层,定义一些统一的描述方法,称之为Level Zero,它可以把不同架构的硬件,以及来自不同厂商的硬件,都用统一的方式向上层开发人员给出一种描述,比如硬件如何被调用,有哪些功能,以及做不同工作的时候的延时和性能。

再上面是底层高性能库,针对不同常用的计算内核分别做了相应的优化,这个优化一方面会针对这些计算负载的种类去做算法级的优化,同时会根据所面向的硬件种类进行优化,比如说oneMKL,它在CPU、GPU和AI加速器上运行的库是不一样的。

同时oneAPI也提供不同的语言,比如说DPC++、SYCL语言,都可以支持做并行编程,这两层是oneAPI主要的工作。

目前oneAPI在全球都开始做开放式的合作,有很多企业、初创公司、研究机构加入,在中国,英特尔去年也和中科院计算所建立了中国首个oneAPI卓越中心。



当我们有了不同种类架构的芯片,有一些架构的硬件可以被很好的整合到同一制程下面的SoC里面去,而有一些是会成为不同的芯片,但是我们仍希望把它统一在同一个系统里,因此需要异构集成,也就是先进的封装工艺。

先进的封装工艺可以把不同制程节点的芯片封装在一个大的封装里,同时利用先进封装带来的尺寸、带宽、功耗的优势,让它们不会像原来板级封装一样有很大的延迟和带宽降低,还有可能造成面积、成本达不到要求。

实现这种异构集成,英特尔目前有两项做的比较好的技术:

第一,EMIB(嵌入式多芯片互连桥接):这是2.5D封装技术。在这个技术框架下,把在平面上集成起来的芯片做很好的连接,可以把它们之间的凸点间距有效降低到50微米以下,未来有可能继续降低到45微米、30几微米这个层面。

第二,Foveros:要提高整个封装集成的密度,仅靠2.5D封装是不够的,需要往3D封装的方向发展。 Foveros可以把不同计算的芯粒在垂直层面上进行封装,通过更高级的封装层面的微缩技术,把封装凸点的间距降到36微米,未来可继续降到20几微米和10微米以下。这样一来,封装层级的连线密度就已经非常高了,并且速度也可以逐步接近在芯片里面连线的速率。


Foveros Omni和Foveros Direct就是英特尔在3D封装上未来会使用的两种技术。 Foveros Omni是比较典型的,在上面是一个大的芯片,底下是几个小芯片的时候,可以用一种通用的方法把不同芯片之间互连的接触点间距微缩到25微米,同时还可以通过这种在边上的比较粗的铜柱,直接给上层芯片供电,和EMIB相比有接近4倍的密度提升。

Foveros Direct技术是通过一种更高级的不需要焊料、直接让铜对铜键合的技术,实现更低电阻的互连,进一步缩小凸点之间的间距,达到10微米以下。在3D堆叠的时候就可以把整个互连的密度直接提升到新的数量级。

把异构计算和异构集成的技术整合在一个产品里面,Ponte Vecchio是一个很好的例子。

Ponte Vecchio是英特尔目前在高性能计算GPU领域最复杂的SoC,当中共用了来自5个不同制程节点的47种不同晶片,有来自英特尔自己的,也有来自于台积电的。

同时,在水平层面上用EMIB技术封装,也在垂直方向上用Foveros技术进行封装集成。通过这样的构造做出了专门给高性能计算机的计算系统,当中包括了至强处理器和专门的基于Xe架构的Ponte Vecchio GPU,目前用于极光超级计算机。

下一代旗舰级数据中心GPU,则叫Rialto Bridge,它里面小的芯片采用了更新的制程节点,在封装上也会采用最新的封装技术。不同芯片之间互相合作,通过oneAPI编程实现它的计算功能。

针对推进摩尔定律,如何在制程、器件的级别上做创新,宋继强也分享他的观点。

制程工艺方面,首先工具很重要。英特尔率先使用下一代基于高数值孔径的极紫外光刻机(EUV),可进一步降低整个制程工艺的复杂度,提高良率,易于将光刻的特征线宽降低下来。

在Intel 20A节点的时候,会开始产品化地使用RibbonFET这一新的晶体管结构。可进一步降低在平面上看到的晶体管所占面积,同时因为RibbonFET是用一个门去驱动好多个纳米带,可以有更快的驱动速度,驱动电流的强度也会较之前更好。

在给晶体管供电的层面,也会在Intel 20A通过PowerVia技术实现底部给所有上层的功能逻辑部件供电,把供电层和逻辑层完全分开,可以更有效地使用金属层,对绕线和能量消耗的减少而言都有很大的提高。

宋继强也分享,未来四年英特尔会有5个节点的演进。今年英特尔已经在大量出货Intel 7;下半年还会有Intel 4的产品开始使用EUV;Intel 3是明年产品化,在生产过程当中会更大量的使用EUV;进入2024年,上半年是Intel 20A,下半年会有Intel 18A。

CMOS晶体管3D堆叠层面,英特尔也持续投入研究,更将成果直接贡献到GAA的RibbonFET产品技术当中,通过堆叠CMOS晶体管能够实现30%~50%的微缩。

在晶体管层面上继续做微缩有很多方法,像是使用一些新的材料,例如到Intel 20A、Intel 18A之后,选择新的材料做它的接触层、构造一些沟道可以进一步提升晶体管的效能。

同时,基于硅的CMOS基础上,还可以进一步叠加新的晶体管材料和结构,给硅晶体管注入新的功能。比如说下图左侧,它展现的是增强模式的高K氮化镓晶体管和硅的FinFET晶体管组合起来之后,可以提供更好的电源管理技术。这也是非常重要的一部分技术,把三代半导体和硅基的第二代半导体很好的组合起来,去产生新的晶体管层级的结构创新。

还有一些全新的利用量子效应做的一些器件,下图左侧采用的是磁电加上电子自旋轨道,把这两种器件很好地组合在一起,构造出了MESO的逻辑器件。此前磁电自旋电子器件比较多的是用在存储上,而英特尔的研究进一步把这种器件应用在逻辑计算上,这是一个非常重要的突破。


另外,未来神经拟态计算也是非常重要的一个方向,因为现在做AI大部分是依靠GPUCPU或者是带有非常多矩阵运算的加速器,耗还是非常大的。而神经拟态计算一个很大的好处是它可以在算法层级和硬件结构设计层级上完全突破现在这种靠堆乘加器的方式来提供算力的模式,而是模拟人类神经元的形式去构造其中底层的计算单元,且大部分是存算一体化。

构造出这种芯片,再通过脉冲神经网络的方式编程,实现人工智能的算法。通过这样的方式,通常可以达到能效比千倍级的提升,也就是说做同样一个人工智能任务,用神经拟态计算消耗的能量与传统上用CPU或者GPU相比减少了一千倍以上,所以这是非常值得关注的。

英特尔的Loihi就是这个方向上代表性的实验芯片,现在已经发展到了Loihi 2Loihi 2是在Intel 4制程工艺上生产出来的,速度较上一代提升10倍,单个芯片里的神经元数量也提升了8倍。所以现在单芯片的神经元数量可以达到100万,原来是13万,且面积缩小50%



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存