查看原文
其他

Innolink Chiplet赋能国产高性能GPU

伍江华 IP与SoC设计 2022-04-29

本文来源:芯动科技

作者:伍江华



不同于CPU市场的百家争鸣,GPU市场一直处于英伟达和AMD两家独大的状态。伴随着贸易战的升级,海量的AI应用、游戏、云服务等领域急需一款高性能的国产GPU来填补市场的空白。


这两年国产GPU的赛道热闹非凡,但是一直没有真正高性能的GPU实际投入市场,终于,在大家望眼欲穿之际,中国一站式IP和芯片定制领军企业芯动科技于2021年11月率先发布了国内第一款高性能GPU-风华1号。


这款高性能GPU用实际的参数和演示令人颇感兴奋,其中B卡涉及的Chiplet技术更是吸引了市场的眼球。



风华1号GPU发布


风华1号采用了Chiplet技术实现性能翻倍


公开的数据显示,B型卡通过Innolink Chiplet技术,将两颗GPU联级,实现性能翻倍。


在发布会上,芯动表示Innolink是自主研发的Chiplet的标准通信协议,在摩尔定律趋近失效、先进工艺的成本高昂的市场状况下,开拓出了新的技术路线,为高性能计算、5G、元宇宙、云游戏、云服务等应用提供异构集成的基础连接技术。


在本文中,让我们来揭开Innolink Chiplet黑科技的神秘面纱,详细探讨Chiplet技术能给我们带来怎样的惊喜。


1.Chiplet的发展趋势


需求,永远是最好的技术发展推动力!


简单来讲,Chiplet就是将芯片的各个功能模块像乐高积木一样拆分开来,再根据需要组织拼接在一起,具有灵活、成本低的特点。


早在2000年IBM就提出了集成电路Chiplet技术的概念,但是Chiplet作为新的异质集成(heterogeneous integration )技术的一部分,在当时并没有掀起太大的波澜。毕竟在那个年代,摩尔定律稳定延续,各个晶圆厂在制程发展上一日千里,将SoC的各个功能模块,放在同一个晶片(monolithic)上是划算且高效的。


IBM System z10 Multi-Chip Module


直到2014年左右,最先进的晶圆制造工艺到达16/14nm时,急剧上升的制造成本和设计难度,让Chiplet技术看起来越发诱人。一个新的28nm节点的SoC开发成本达到了5千万美元左右,小功能的迭代也达到了2千万美元左右,5/7nm的SoC成本更是达到了3-4亿美元。这样高昂的成本,别说初创公司,对于芯片巨头来说也是难以承受的,于是探索Chiplet技术来延续摩尔定律成为了业界的共识。


引用AMD的数据,随着工艺的发展,成本剧增


  2014年 海思与台积电合作推出了自己第一款Chiplet产品,使用了台积电的CoWoS技术。

  2015年 Marvell推出了Chiplet架构智能手机处理器Mochi。

  2017年 AMD推出 EPYC系列采用Chiplet技术实现对Intel的弯道超车。


AMD EPYC 处理器成功实现了集成最高达64x核的高性能服务器芯片


AMD在EPYC和Ryzen系列处理器上取得了巨大的成功,将Chiplet技术推向了行业的风口,一时间各个芯片巨头纷纷大力投入Chiplet的相关技术实现。


英特尔为了应对AMD的挑战,于2018年将 EMIB(嵌入式多硅片)技术升级为逻辑晶圆 3D 堆叠技术Foveros。英特尔的EMIB(Embedded Die interconnect bridge)技术提供了Chiplet所需要的高性能连接带宽。


3D-Foveros结构图


Intel Agilex-EMIB结构图


Intel Lakefield系列Hybrid技术采用了3D-Foveros的封装结构,以及FPGA系列主流产品Stratix和Agilex


与AMD水平布局Chiplet不同,Intel采用了垂直和水平相结合的Chiplet连接结构-3D Foveros。Intel作为IDM拥有自己的晶圆厂,在Chiplet封装的多样性和迭代上更有优势。借助这些优势,Intel 推出了EMIB、HBM 的3D 封装、AIB 的总线、Foveros、CXL 等一系列异构集成技术。


2.Chiplet的HBM形式


HBM(High bandwidth memory)也是Chiplet异构集成技术的一种,用于存储芯片堆叠互联的技术,将存储晶片和处理器die一起连接封装在一起,实现高速的内存数据交换。


HBM的DRAM Die叠加


3D/2.5D的模型


DRAM Die像叠积木一样垒起来,两种形式称为3D/2.5D封装技术。


2015年AMD发布首款采用HBM堆栈显存的最新旗舰显卡Fury -X,堆叠8GB显存。



GPU/CPU通过interposer连接异构存储单元,降低了系统的latency延时,减少PCB的空间和成本,提高运行性能



显卡的小巧和紧凑得益于HBM的显存堆叠技术缩减芯片面积


HBM常用于高密度的内存单元堆叠,比如DRAM和Nand存储的结构,这两种垂直设计,硅片虽然堆叠在一起,但是并不会直接相连,而是通过wirebond或者通孔(Silicon Vias-TSVs)连接到底层基板上。


三星的Nand Die堆叠连接


全球的主流内存厂家都在采用堆叠技术增加存储的密度,包含三星、美光、海力士、长鑫存储、长江存储等等都有各自的HBM实现产品。


近年来高性能计算、人工智能、自动驾驶,、云游戏等应用,推动了高并发、高带宽的计算需求。HBM正是在这样的需求推动下飞速发展,HBM2定义可以实现每个封装高达256GB/s的内存带宽(DRAM堆栈),JEDEC提出最新的HBM2E规范,最高可以实现每堆栈461GB/s的带宽。


HBM与处理器混合异构集成封装是很多高性能计算产品的主流设计


3.Chiplets的优势和面临的挑战


前面介绍了Chiplet在市场上的应用和发展趋势,接下来,我们就Chiplet技术的主要优点和面临的挑战来展开论述。


3.1有效提高良品率,降低成本


我们举个例子,通过计算来直观展现,Chiplet是如何提高良品率的。12寸晶圆直径为300mm,假设坏品率为0.1/cm²,按以下2种方案划分:


按整颗360mm²/die可以切割出150颗


划分成4xchiplet(99mm²/die)可以切割出622颗


4xchiplet示意图


chiplet数量在晶圆制程的良品率变化


12英寸的晶圆,将原360mm²/die划分变成4xChiplet(99mm²/die)之后,良品率从15%提升到了37%,实现翻倍。虽然4-Chiplets的设计会增加10%左右的损耗,但是良品率的大大提升,仍然有效地降低了整体成本。


原理很简单,晶圆的坏点分布比例是一样的,当die的面积越小,数量越多,分母就越大,坏品率就越低。


3.2 IP模块chiplet划分,灵活复用,降低开发周期和成本


Heterogenous integration -将功能模块分离到性价比最合适的Chiplet上


模块化的开发思路,将单晶片(Monolithic)的IP功能模块分离(Disaggregate )到Chiplet上,注意上图中CPU核的Chiplet是7nm的,而IO是14nm制程工艺,如果有存储模块可能是17nm或者更低的工艺。


在一颗复杂的SoC里,并不是所有的模块都适用于先进工艺的设计。一般来讲晶体管密度较高的CPU/GPU计算单元选用先进的5/7/12nm的生产工艺,但先进工艺的晶片对模拟电路IO功能却并不友好(电压幅值太低),低速的通信接口比如I2C、UART、USB2.0等用28/40nm的便宜工艺都够用了,杀鸡不用宰牛刀。


Chiplet将功能模块分离开了,像乐高积木一样,重构一个SoC不再需要重头开始设计,一些现成的Chiplet模块可以实现即插即用的效果,有效地降低了开发的周期和成本。



而且异构集成Chiplet,可以将缺陷的Chiplet/die/芯粒灵活剔除掉,以往的单晶片Monolithic只要有一个小部分坏了,那整颗晶片die就算是废品了,而Chiplet的结构可以将缺陷部分筛除掉,避免了这样牵一发而动全身的风险。


总而言之,将SoC分解Chiplet实现,高性能运算部分使用先进工艺,模拟的、低速的模块划分到低工艺的晶片上实现,既节省了成本,降低了开发周期,又匹配了各自的性能发挥。


3.3 Chiplet技术发展面临的挑战


毫无疑问,Chiplet技术有着巨大的优势和发展潜力,各个头部芯片公司的Chiplet产品发布与迭代也展现了其发展趋势。当然,我们仍然要看到Chiplet技术发展面临的挑战,总结经验、评估风险才能把握发力方向,走得更远更扎实。


封装技术的考验


Muti-chip(let)异构封装的发展


当前Chiplet的需求来源于高性能计算,人工智能的复杂SoC模块分解,对速度和信号完整性有着极高的要求,传统的SiP(System in Packaging, 系统级封装)仍然需要加强工艺的优化。


半导体头部的制造商如Intel、TSMC、三星以及封测代工(OSAT)等都推出了各种Chiplet 2.5D/3D封装方案来满足市场的需求。


Intel推出EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多核心互联桥接)和3D-Foveros。


TSMC推出了整合芯片系统(SoIC)、InFo(Fanout)和CoWoS系列。


三星也发布了2.5/3D封装技术I-Cube(2.5D)/X-Cube(3D)。X-Cube,通过TSV硅穿孔技术将不同芯片die包含内存SRAM,逻辑运算等堆叠,节省空间面积。


当前市场主流的高端FPGA、CPU、GPU芯片大量采用了2.5D封装技术。


Interposer 实现了内存,Chiplet等各个模块的连接


Chiplet的互联标准


既然单晶片的Soc切割成不同的Chiplet芯粒,以提供重用复用,异构集成芯片可能会包含不同制程甚至不同厂家提供的chiplet,统一的接口是保证信息交互的重要保证。


 Marvell的异构Chiplet芯片Mochi采用了Kandou协议。

 NVIDIA有GPU的高速互联NV Link方案。

 Intel 推出了EMIB(Embedded Die interconnect bridge)接口。

 TSMC和Arm合作推出了LIPINCON协议。

 AMD采用Infinity Fabrie总线互联技术。


各家芯片厂商有各自的协议,仅仅在自己内部实现了Chiplet互联,但是随着市场的发展与需求的推动,必然会出现不同厂商Chiplet的互联的应用。统一的标准接口则是行业发展的基础,各种组织和行业协会自然而然开始了标准化工作。


DARPA(美国国防部高级研究计划局)推出“CHIPS(Common Heterogeneous Integration and IP Reuse Strategies)”计划,该项目希望通过模块化和可重用方案降低国防技术研发的成本,其成员包含了波音、Cadence、Intel、洛克希德·马丁、美光、Synopsys等行业领头羊。


2018年7家公司成立ODSA(Open Domain-Specific Architecture)组织,研究制定Chiplet开放标准、推动Chiplet产业发展。


2019年,Intel联合阿里巴巴、思科、戴尔、Facebook、Google、HPE、华为和微软成立Compute Express Link(CXL)开放合作联盟,实现CPU与GPU、FPGA等专用加速器之间的高速、高效互连。


2020年全球硬科技创新大会上,芯动科技CEO敖海和中科院院士姚期智、紫光存储CEO任奇伟等共同启动了Chiplet产业联盟。


芯动科技CEO敖海表示,Chiplet技术对当前突破AI和CPU/GPU等大型计算芯片的算力瓶颈具有重要战略意义,是解决我国高质量发展进程中晶圆工艺“卡脖子”难题的关键技术之一。作为国内一站式IP和芯片定制领军企业,芯动科技已推出了国产自主标准的INNOLINK Chiplet和HBM2E等先进IP,支持高性能CPU/GPU/NPU芯片的异构实现。在贸易战和国产化的大背景下,芯动科技为Chiplet的标准化贡献和IP解决方案,显得尤为重要。



4.Innolink™ Chiplet 一站式解决方案


芯动的IP目录丰富有大量的场景验证实现


芯动科技是成立于2006年的老牌IP技术厂商,有着16年的技术迭代,超过200+次的流片纪录,60亿颗授权量产芯片,超过10亿颗的高端定制soc量产,先进工艺包含5/7/12nm等。在高性能计算/多媒体&汽车电子/IoT物联网等领域,芯动解决方案具有国际先进水平,涵盖DDR5/4、LPDDR5/4、GDDR6X/6、HBM2e/3、Chiplet、56G/32G SerDes(含PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、HDMI2.1、ADC/DAC、智能图像处理器GPU和多媒体处理内核等多种技术。


这些高速接口主要应用在高性能计算、5G通信、自动驾驶、人工智能、大数据存储、云计算、高性能图像媒体处理等领域,芯动的Chiplet解决方案有着实际的需求支撑和迭代基础。


Innolink Chiplet有3种连接方式


Innolink包含Chiplet die-to-die (D2D), chip-to-chip (C2C), board-to-board (B2B) and package-to-package (P2P)等多种连接需求。


Innolink Chiplet具有自主知识产权,填补了国内的异构集成技术空白,打破了国外核心技术垄断,成功应用于国产GPU及其他高性能计算芯片,为国产高性能芯片的发展提供了一条新的道路。


结语


Chiplet发展需要整个半导体产业链的协同分工,从芯片设计、EDA工具、晶圆制造到封装测试,需要统一的标准和工艺升级,这需要时间探索和协作,不断地迭代前进。


一项技术发展的最大动力还是来源于需求的推动,在摩尔定律趋于失效的情况下,高性能计算、人工智能、云服务、云游戏等需求仍然在爆炸式的增长,单晶片(Monolithic)的SoC已经逐渐不能满足性能和成本的要求,市场需求会推动Chiplet产业的快速发展。


在贸易战的背景下,国产自主可控、可以持续迭代和发展的Chiplet技术显得尤为重要,这让我们保持了在高性能芯片领域的先进性。


芯动科技推出的“风华1号”作为国产第一款高性能GPU,采用Chiplet技术提升了性能和带宽,成为国产芯片里走在最前列的异构集成设计的实践者,期待芯动在Chiplet、GDDR6、HBM2E、SerDes等先进IP的积累和发展,持续赋能Chiplet产业,缩短设计周期、降低设计成本,加快实现国产芯片自主可控!


本文内容仅代表作者观点,不代表平台观点。

如有任何异议,欢迎联系我们。

如有侵权,请联系删除。


往期精彩回顾




2021年的第一场雪!英特尔2020年Q4财报解读



用于高速互联的D2D Serdes接口中的PAM-4 技术(应用篇)


博文速递:Metal Width Variation


三大EDA厂商谈Chiplet封装实现难题


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存