专家解读:新兴存储技术的扩展趋势(PPT)
新兴存储技术已经在多个领域得到广泛应用,不仅作为独立芯片存在,还嵌入到SoC中,逐渐替代了已经成熟的技术,包括SRAM、NOR闪存和DRAM。在这次网络研讨会中,SNIA CMSI会员和领先专家Tom Coughlin(Coughlin Associates/IEEE主席)以及Jim Handy(Objective Analysis)将深入探讨MRAM、ReRAM、FRAM、PCM等新型存储技术的最新进展,详细解释这些技术的发展时间、方式和原因,以及它们的成功将如何影响半导体和资本设备市场。
Jim Handy, Objective Analysis
Tom Coughlin, Coughlin Associates
Arthur Sainio, SMART Modular
内容概要(问答)
持久性内存最终能否达到目前DRAM的速度?
持久性内存已经在达到DRAM速度方面取得了进展,特别是铁电技术展示了快速的周期。虽然CXL协议可能存在限制,但在读取速度方面与DRAM相媲美。对于MRAM和阻变RAM,写入速度可能达到DRAM水平。其他技术如自旋轨道扭矩和电压控制磁各向异性承诺更高性能和低功耗。总体而言,持久性内存在不久的将来有望达到DRAM速度。
新兴内存之间的协议和兼容性是否类似于DDR4和DDR5?若不相似,采用这些新技术的可能性是否较低?
这是一个逻辑问题。内存技术与总线之间的紧密程度并非固定,目前多数新技术采用简单的NOR闪存或SRAM接口。未来,它们可能转向DDR接口,尤其对于不需要刷新的新兴内存技术。CXL协议的特殊之处在于,它能够处理不同接口的设备,使它们在交换网络中无差异。因此,将新兴技术纳入CXL协议取决于CXL控制器设计者的责任。尽管初期可能只有少数公司提供特定接口的CXL控制器,但随着时间推移,这些技术可能逐渐成为主流。此外,CXL可能内部包含不同层次的内存体系,包括处理器或加速器,为降低数据传输功耗提供有趣的机会。
新兴内存技术采用按字节寻址,而NAND则基于块。按字节寻址的新兴内存是否可能最终替代NAND?
这是一个成本问题。新兴内存技术按字节寻址,与NAND相比,成本是关键因素。技术上,它们具有接口灵活性和原地写入的优势,但能否在成本和产量上达到与NAND相当仍是一个问题。
HBM的趋势及其对与GPU协同使用的影响是什么?
预计新兴内存技术不会在短期内采用HBM接口,因为HBM基于DRAM,而未来可能会转向其他内存技术。HBM涉及芯片堆叠,成本高昂,目前主要用于将大量内存放置在处理器附近,对GPU等有一定应用。新兴内存技术在不需要刷新的情况下运作,这消耗的电力较少,可能提高性能。尽管新兴内存技术可能在某些小众领域发挥作用,但在早期和主流DRAM市场中,DRAM不太可能被取代。
对于ReRAM企业,考虑成本和速度等因素至关重要。新兴内存技术要在市场上取得成功,需要具备哪些最基本的关键特征?
成功的新兴内存技术需要着重推出产品,而不仅仅是生产芯片,最好能被其他公司采用。在嵌入式市场中广泛应用新兴内存IP可能是建立其市场份额的有效途径。随着制造和体积逐渐增加,可能会出现低成本、大容量的独立内存。
对于可组合内存、内存池化和CXL的问题,对接口和与内存池化的关联有什么建议?
CXL,特别是CXL 3.0,明确强调了内存池化的重要性。这在内存领域的发展中扮演关键角色,使内存能够更高效地分配,不直接绑定到特定的服务器CPU。随着未来可能扩展到CXL池内的其他内存技术和加速器,内存池化将有更大的发展空间,无论是新兴内存还是传统内存。
分子基技术(如DNA)是否在未来几年内能替代半导体内存?
分子内存技术(如DNA)目前仍处于早期阶段,但一些人对其发展有激进计划。初期应用可能不在高性能内存领域,尤其对于DNA,其存储密度和通过基因组过程制作内容的能力在特定应用中具吸引力。当前重点是降低成本,但这是可能的。然而,与高性能内存竞争类似,需要快速扩展规模和成本竞争。DNA技术面临不同的挑战,需要在速度较慢的情况下降低成本。在未来,新的发现可能改变局面,但目前我们还不知道如何制造出快速的分子内存。
未来高密度内存对非负载存储处理元素(如AI加速器)的影响如何?在模型规模持续增大和能量密度日益重要的环境下,新兴内存是否能蓬勃发展?
系统在内存需求不断增长的环境中都会蓬勃发展,尤其是在快速变化的AI领域。近期,Apple提出了减少大型语言模型数据量的方法,通过忽略对结果无影响的数据,加速发展,可能减少对内存的需求。CXL允许混合内存类型,同时将领域专用处理器放置在内存附近,降低能耗。新兴计算模型和处理器技术,如神经网络和自旋电子器件,可能对计算发展产生更大影响,不仅仅局限于内存应用。因此,未来的内存需求可能受到多种技术和模型变革的影响。
---【以下为正文】---
Tom Coughlin
新兴存储技术如今已广泛应用于多个领域,不仅作为独立芯片存在,还嵌入到SoC中,逐步替代了静态随机访问存储器、NOR闪存和DRAM等传统技术。
Jim Handy
在本次网络研讨会中,我们将深入探讨MRAM、ReRAM、FRAM、PCM等新型内存技术的最新发展,解释为何、如何以及何时这些技术将蓬勃发展,以及它们的成功将如何影响半导体和资本设备市场。此外,我们还将阐述它们将如何改变计算机体系结构,为听众提供深刻的见解,了解必须采取哪些步骤才能紧随市场趋势,从而使公司受益。
Tom Coughlin
我们将以对新兴内存市场现状的概述开始,包括MRAM、阻变RAM、铁电RAM和相变存储器的现状以及谁在制造什么。随后,我们将简要讨论业务的发展方向,然后涉及其对芯片和系统的影响。系统将迎来最大的变革,因为这些技术提供了计算方式的根本性变革,同时也允许摩尔定律在制程小于28纳米的系统上继续生产嵌入式内存。最后,我们将详细说明SNIA会员和其它相关人员必须采取什么措施来跟上这些新技术,或更好地说,如何在竞争对手甚至理解发生了什么之前将其推向市场。在这个过程中,您将经常听到我们提到的新报告,《新兴存储技术的拓展》。该报告提供了有关技术、市场、经济和参与者方面的丰富而详细的信息,展示了成功所需以及这些技术在未来十年内可能会如何展开,不仅作为独立市场,还作为影响制造这些技术的半导体生产设备市场的因素。
让我们从头开始,深入讨论领先的新兴内存技术的现状。我们将提供有关这些技术基础更详细演示的链接。希望那些追求比演示更深刻理解的人可以在我们的报告中找到更多信息。
现在,让我们仔细研究四种领先的技术,即MRAM(磁阻式随机存储器,MagNetsolresistive RAM)、ReRAM(电阻式随机存储器,Resistive RAM)、FeRAM(铁电式随机存储器,Ferroelectric RAM)和PCM(相变存储器,Phase-Change Memory),探讨它们目前的状况以及由谁在进行制造。在我们的报告中,新兴内存类型繁多,我们将其分为五种基本类型,包括MRAM、相变存储器、铁电存储器、阻变RAM和其它,我们对每种类型进行了详细介绍。在每个主要类别中,都有多个子类型,所有这些都在报告中有详尽说明。
一些内存类型并非适用于先进的工艺节点,而其它一些则更为适用。对于某些内存类型的新版本研究提供了替代老对手的优势。这些技术仍在不断研发中,报告对每一种都进行了充分深入的解释,使读者能够理解它们相对于其它技术的独特优势。然而,报告强调,这些多种内存类型可以共存于主要市场,其中一两种可能会脱颖而出,其余则可能逐渐淡出历史舞台。我们将很快解释,目前还为时尚早,无法确定哪种类型将占主导地位,但有两个因素将决定这一点。首先是成本,无论哪种技术成本最低都将脱颖而出,这一直是内存市场的本质。第二是规模经济,只有产量足够大,成本才能降低。这带来了一个鸡生蛋的问题:要实现高产量,技术必须具备低成本。成本只有通过大规模生产才能降低。这种困境导致了当前的局面,其中NAND闪存和DRAM两者都以大规模生产为基础,目前比任何这些新兴技术都更为经济,即使新兴技术可能能够生产比NAND或DRAM更小的芯片。
有这么多种内存类型,每一种在某个方面都占据优势。但我没有提到的是,它们都是持久性的,而在主内存中使用的DRAM和Cache内存中使用的静态RAM,以及组成CPU内部寄存器的触发器,都是易失性内存,它们在电源中断时失去内容。虽然所有现代软件都是围绕这种尴尬的情况编写的,未来不一定会一直如此。由于我们将在本演示中解释的原因,软件甚至计算机体系结构将发生重大变化,以充分利用持久性,因为基本经济原理将其深入推入计算机中。但我们不能过于急功近利,让我们首先深入了解这四种不同新兴内存类型的发展情况,以及之前图表中每种内存类型的最新进展。
首先,我们来讨论MRAM,即磁性随机存取存储器。该技术已经在独立产品的大规模生产中运行了十多年,并得到了主要晶圆厂的支持。MRAM被广泛应用作嵌入式内存,取代了28纳米以下的CMOS逻辑工艺中的NOR闪存。尽管NOR闪存在先进的28纳米以下工艺中与薄膜晶体管一同存在,但台积电、三星和其它全球晶圆厂都在制造不支持NOR闪存的CMOS逻辑晶圆工艺上投入制造嵌入式MRAM。
值得关注的是,台积电、三星等厂商正在制造基于MRAM的晶圆,并已广泛发货给客户。在这个领域,有两家公司特别引人注目,分别是NXP和Netsol。NXP选择将MRAM应用于新一代汽车微处理器,因为他们认为这种技术在汽车应用中的高温环境和焊接回流等具有挑战性的制造过程中表现出色。此外,MRAM在极端温度下表现特别稳健。
另一家备受关注的公司是韩国初创公司Netsol,他们借助三星的MRAM晶圆工艺生产独立的MRAM芯片,与市场领导者Everspin竞争。Everspin目前的产品是在90纳米工艺上制造的,而Netsol的MRAM基于三星的28纳米工艺,未来计划迁移到三星的14纳米工艺,这将为Netsol提供制造成本的优势。
同时,市场领导者Everspin继续生产既有旋转隧道磁阻MRAM又有较老的切换模式部件,与NOR闪存和电池供电的SRAM竞争。该公司的营收逐渐增长,每季度约为1300万美元。
新参与者Avalanche将MRAM用于太空应用,其在高辐射环境中的表现优于DRAM和闪存。相对于NAND和NOR闪存以及静态随机访问存储器,在高辐射环境中,MRAM表现更为出色,不会发生位损失。
电阻式RAM,ReRAM,也得到了台积电、三星和全球晶圆厂的支持。经过一系列的收购和重组,Adesto Technology推出了独立的CBRAM版本,目前由全球晶圆厂掌握,并已准备好向嵌入式内存和SoC出货另一种阻变RAM技术。此外,以色列初创公司Weebit Nano在阻变RAM技术方面取得了良好的进展,该公司的位单元声称采用标准二氧化硅制造,而与CEA-Leti公司合作开发基于硫化物的选择器。Weebit Nano正在追求嵌入式阻变RAM,并与SkyWater合作向公众提供此技术。公司的目标是生产独立的阻变RAM,与已建立的内存进行竞争。
多年来,Panasonic一直在生产使用氧空位型阻变RAM的微处理器。随着Panasonic将其半导体业务出售给Winbond,后者将该业务分拆为Nuvoton,成为该产品线的所有者。
我们听说在中国对阻变RAM表现出了相当大的兴趣,而在去年12月在旧金山举行的IEEE IEDM大会上,阻变RAM演示的激增突显了这种兴趣水平。这可能与近期对AI和阻变RAM的兴趣水平增加有关,因为阻变RAM具有产生廉价神经内存芯片的潜力。
相变存储器,又称为PCM,经历了漫长的历史,曾引起行业的广泛关注,然后逐渐淡出视野。事实上,早在1970年,它就以Gordon Moore展示的256位存储器芯片的形式首次亮相。然后的几年中,它没有取得太多进展,直到2006年,英特尔和三星开始推出用于取代NOR闪存的芯片,而ST微电子也推出了基于相变存储器的微控制器。尽管英特尔和三星的产品后来停产,但英特尔在2015年重新推出了这项技术,命名为3D XPoint存储器,后来更名为Optane。尽管Optane在其短暂的寿命内发货量较其它新兴存储技术高,但由于基本市场经济和缺乏广泛接受,最终还是停产了。ST微电子仍在生产基于相变存储器的微控制器,主要应用于汽车市场,类似于前一张幻灯片中提到的NXP的产品。
FRAM或铁电存储器有一个特点,即它不仅是最古老的新兴存储器,也是整个行业中最古老的存储器芯片,其起源可以追溯到1952年。尽管该芯片从未商业化生产,但它却推动了一些在亿万单位中出货的东亚铁路票卡中使用的技术,使得FRAM不仅是最古老的新兴存储器,也是产量最高的零件。早期的FRAM材料PZT和SBT存在问题,因为它们可能污染半导体工厂,并且无法缩小到当前的工艺水平。在2011年,德累斯顿的研究人员发现,氧化铪,一种常用的半导体材料,如果掺杂了锆,可以用作铁电层。这推动了FRAM在紧凑工艺几何下的复苏。去年12月,美光能够展示一种基于半氧化铪的32Gbit的NVDRAM,而两年前,SK hynix在同一会议上展示了一种基于半氧化铪的8Gbit的FRAM,通过在业界标准的15纳米DRAM的电容器结构中层状放置半氧化铪。这些公告为FRAM在未来带来了新的希望。
尽管所有这些技术看起来很有前途,受到了广泛关注,但它们的经济因素往往被忽视。为了在市场中确立自身地位,这些技术必须达到成本和性能目标,以适应内存存储层次结构。稍后,Jim将通过图形形式展示这一点。基本理念是,它们必须比下一个更快的技术更便宜,同时比下一个更便宜的技术更快,尤其是如果它们要用于非小众应用。Optane是一个很好的例子,尽管具有明显的劣势,即作为一种专有产品,需要定价为高价商品,虽然我们估计英特尔可能因此损失了多达100亿美元,但市场规模仍不足以产生规模经济效应,这种损失无法阻止。
对于嵌入式存储器而言,情况有所不同,因为在小工艺几何中,没有更好的替代方案。NOR闪存无法在FinFET工艺中生产,因此嵌入式内存必须使用新兴存储器在28纳米以下的工艺节点。SRAM也面临类似的问题,其缩小速度不如它陪伴的逻辑。随着工艺节点从14到10到7到5再到3甚至更小,它变得越来越不具吸引力。
我们预计未来几年将看到新兴技术不仅取代NOR闪存,还将侵入SRAM。因此,可以合理地预期,随着新兴内存取代越来越多的晶圆上的NOR闪存,这样做的成本将降低,而新兴内存将成为相对于更慢的SRAM而言更具吸引力的替代方案。随着应用程序的增加,SRAM替代技术将改进,更快的SRAM将被淘汰,导致晶圆产量增加。
然而,在某一点上,这些晶圆的成本将降低到足够低,以使具有竞争成本结构的独立新兴内存芯片崛起。该报告在更多细节上进行了深入探讨。请注意,我没有指出哪种新兴内存技术将替代NOR然后SRAM,然后走向独立内存的领域,现在说还为时过早,可能需要几年时间。
现有内存将被替代的这一过程将看起来类似于这样,这只是从报告中直接摘取的一个概念图。底部轴显示工艺技术,向后运行,因为这样看起来像是一个时间序列,图表的右侧是较小几何的最新工艺,垂直轴表示使用底部工艺的一定数量位的相对成本。如果NOR在180纳米工艺下每MB的成本是100美元,那么在65纳米下它应该约为10美元,以此类推。
新兴内存可以实现规模化,而现有技术在某一点达到极限,比如在这种情况下,NOR闪存就会受到限制,但是使用新兴技术构建的晶圆比那些建立在经过时间考验的技术上的晶圆更昂贵,因此在图表的左侧,倾斜的闪存线仍然低于新技术的线,在图表中间附近的点附近,当闪存达到规模极限时,每MB的价格突然停止下降,无论过程节点是什么,但是新技术继续随着缩小的过程节点而下降,在几个过程节点内,晶圆成本的差异不再存在,新技术变成了两者中更便宜的那个,这是市场转向新技术的时刻。嵌入式NOR扩展性在28纳米处停止,而MRAM和电阻式RAM已经开始替代28纳米以下的NOR闪存。这实际上在约10年前发生在NAND闪存上,当平面NAND停止在15纳米处扩展时,3D NAND是更昂贵的新技术,而其成本降至低于15纳米平面NAND的成本几年后,在NOR闪存和SRAM的情况下,新兴内存有望做同样的事情。
现在,让我把演示交给Jim,接下来的几张幻灯片由他来介绍。Jim,你可以开始了。
Jim Handy
我们已经谈了很多关于技术,如果我们看一下市场,新兴内存将如何推出呢?
如果我们接受Tom刚刚提出的论点,替代NOR闪存的冲动将推动嵌入式内存新技术的广泛接受,一旦这达到重要的销量并且成本随后降低,那么慢速SRAM将是下一个被替代的,随着新兴内存过程的改进,更快的SRAM将被取代,这将是一种相对缓慢的过渡,将所有嵌入式内存逐步转移到一些新技术上,在一个较长的时间段内,就像图上显示的那样,到底是哪种技术呢?正如Tom之前提到的,现在选择赢家还为时过早,这将有助于降低成本,制造新兴内存技术的晶圆的成本将更加经济,最终使其成为独立内存的替代品变得有趣。
由于DRAM的电容器正在面临缩小的困境,可以合理地预期DRAM将是下一个被替代的,我们将这一点标记在2030年初,尽管这还远非确定。有趣的一点是我们在报告中提到,英特尔在2020年展示了一款使用半DM氧化铁电层和3D NAND生产技术制造的3D DRAM研究车辆,如果它能够转化为量产工艺,将是推动DRAM成本降低的重大进展,尽管现在还不清楚市场将会怎样发展。
中间的NAND条更难预测,很难看到3D NAND何时会结束,或者NAND闪存何时会失去持续的成本下降能力。就在2012年,SanDisk告诉我们,只会有三代3D NAND之后,新技术将完全取代平面NAND闪存,虽然他们没有说,但看起来那三代分别是24层、32层和48层芯片,我们现在已经远远超过这个范围,当前生产层次已超过200,并且已经公开了超过500层的研究,还有谈论1000层设备的可能。考虑到这一点,以及Tom之前展示的扩展性幻灯片对3D NAND不适用,很难找到一个充分的理由来解释为什么3D NAND会被替代,即使我们在这张图上放上了它。
我不会详细讲解此幻灯片上的内容点,但我们列出了新兴存储器可能取得突破的四个领域。等等,这将是嵌入式存储器,如MRAM和Ambiq Apollo 4处理器,显示在左上角的CXL,它可以使用任何速度的持久性内存,由左下角的三星CXL模块表示,以及用于缓存和芯片的缓存。在右上方显示的是IBM的FlashCore模块,这是一款于2018年推出的SSD,已经使用了Everspin MRAM作为缓存。这些都是新兴存储器可以并将在其中留下印记的领域。
这张图是从我们的《新兴存储器报告》中摘取的,展示了我们对独立新兴存储器PB销售的10年预测。虽然底部的黄线标记为MRAM,但我们实际上不知道哪种技术将在这场竞赛中脱颖而出,我们展示的是PB,因为这种度量在图表中的呈现更为合理,而不是收入。大多数听众已经知道,大宗存储器收入(DRAM和NAND闪存)会出现剧烈的收入波动,从内存收入的图表中很难得出什么结论,而PB的出货量则讲述了一个非常引人入胜的故事。
请注意,此图表的垂直轴是对数轴,每条线代表一个数量级,在这种图表格式中,稳定的增长表现为一条直线,而不是更传统的线性图表中所见的“曲棍球杆”形状。这种格式还允许我们在同一图表上显示所有三种技术。如果我们使用线性图表,NAND闪存线会显示出来,而DRAM和MRAM线则会紧贴底轴,很难分辨。
真正的要点是DRAM是一个成熟的市场,以约每年10%的速度适度增长,而NAND闪存更大,增长速度略高于DRAM,但新兴存储器技术的增长速度明显快于其它两者。新兴存储器在2021年初大约是DRAM的百万分之一,到2033年底的规模将约为DRAM的1/115,与NAND闪存相比,它在开始时是1/1000万,在2033年仍然小于1/1000。MRAM或其它新兴存储器技术将取得令人瞩目的增长,但到我们10年的预测期结束时,其PB出货量仍将相对较小。
新兴存储器将如何影响半导体市场,对SNIA成员和其它系统架构师来说更重要的是,它对系统架构的影响会是什么?很高兴你问到了,已经有了持久性在存储层次结构的底端,是慢速且便宜的部分,而新兴存储器取代嵌入式SRAM,用于处理器缓存存储器的技术。持久性将位于顶端,即最昂贵且速度最快的层次,如快速缓存甚至寄存器,但介于慢速存储和处理器缓存之间的层次将需要一段时间才能变得持久,因为DRAM非常便宜,DRAM将陷入困境,尽管目前不清楚这将对层次结构或甚至安全性产生何种影响,因为这是一个全新的概念,随着过渡的发生,将会涌现出一些考虑因素,正如我们之前提到的,并且正如我们在报告中详细说明的,现在还为时过早,无法确定哪种内存技术将替代DRAM,几年前,似乎英特尔的Optane可能会做到这一点,但随着其取消,竞争再次激烈。无论发生什么,都将在计算机架构中引起重要的变化,那些能够预见到这种变化并看到它开始并采取行动来利用它的人将是成功者。
让我们以更直观的方式来看待这一现象,以更好地理解。在这里,我们展示了一个内存存储层次结构图,许多演讲者使用金字塔形状,但金字塔形状很差地解释了实际发生的事情。此图绘制了成本与性能之间的关系。它是抽象的,所以不要仔细试图推导出数字,成本和性能都在对数轴上绘制。如果我们没有这样做,右上角的L1球形将主导图表,所有其它球形都会变成微小的东西堆叠在彼此上面的左下角。它讲述的故事是不同技术如何适应内存存储层次结构。
任何用于计算机的内存或存储技术都必须满足Tom之前提到的两个简单规则,即它必须比下一个更便宜的技术更快,而且它必须比下一个更快的技术更便宜。如果它不能做到这一点,它就不适用于内存存储层次结构,并且不会被大量使用。两种最便宜的技术是磁带和磁盘,其中磁带比磁盘更便宜但更慢,磁盘比磁带更昂贵但更快。
接下来是NAND闪存 SSD,这是一个相对较新的加入,比HDD更昂贵但更快,比下一个球形更慢和更便宜,因此它适合得很好。此图上的下一个球形是3D XPoint Optane,比NAND闪存更快,但比DRAM更慢和更便宜。Optane在现有硬件方案中遇到了问题,必须有一个不同的硬件接口来解决这个问题,尽管CXL才刚刚开始获得认可,但它承诺帮助推动新兴存储器技术的销售,正如我们将在后面的幻灯片中看到的那样。
到目前为止,我们一直在谈论存储,它历史上是通过中断机制(也称为上下文切换)与系统通信的,一切比这更快的都是内存,处理器期望从中获得即时结果。大量代码已围绕这些假设编写,以及存储是持久的,而内存则不是,这些假设变得陈旧了,随着目前正在发生的内存存储层次结构的变化。
下一个阶段是DRAM,它不是持久的,并且比SSD快得多。它在CXL接口上也比任何东西都更快,但它的成本也更高。在此之后,我们有多达三四层的缓存内存,每一层都比下一个更快的缓存级别更便宜,比下一个更慢的级别更快。即使在超过这个图表之后,我们还有处理器寄存器本身,它们是最快的数据存储方式,也是最昂贵的。
随着时间的推移,所有这些技术都有可能变得持久,因为新兴内存技术将替代每一层以考虑成本。现在,Tom将回来将一切联系在一起。
Tom Coughlin
正如Jim指出的那样,持久性正在传播到存储和内存层次结构的每个层次。那么,您能采取什么措施来利用这一点呢?
到目前为止,我们已经提供了关于技术的大量信息,但现在是时候为SNIA会员和其它人制定一个行动计划了。
首先,我们的受众需要意识到这种变化是真实的,并且正在迅速朝着我们的方向发展,就像一辆嘈杂的蒸汽火车。行业领导者已经在努力推动这些轮子的运动,英特尔花费了相当大的一笔钱,试图让Optane起飞,并导致了几个新标准的制定以及对内存和存储层次结构的新思考方式的产生,如果没有这种推动,持久性内存的一些基础已经很好地建立起来,所以我们已经完成了其中的一部分。
此外,美光最近透露,他们已经制造了至少研究样品,采用了最先进的32Gbit密度的NVDRAM,基于铁电技术。尽管目前还不清楚我们是否会很快在生产中看到这一部分,但这也可能为计算带来新的思考。
再次,Optane存在问题,因为它比DRAM内存更慢,其写入速度比读取速度更慢。这是英特尔和其它行业领导者一直努力推动CXL进入市场的原因之一。CXL可以支持任何类型的内存,无论是快速的还是慢速的,易失性的还是持久性的,具有或没有平衡的读取和写入,因此它应该极大地帮助新兴内存技术进入主流计算。
最后,正如我们之前提到的,扩展性不仅是NOR闪存的问题,对于SRAM来说也是个问题,这将导致缓存甚至寄存器开始使用新兴内存技术,这将为所有这些技术带来持久性。这种持久性将需要被管理和被利用以提高计算吞吐量和可靠性。
行业需要为内存层次结构的新层次的持久性的到来创造支持。SNIA的非易失性内存编程模型是迈出的巨大一步,但需要支持其它层次,尤其是缓存和寄存器。这将作为对SNIA模型的完善而来。最后,持久性数据比易失性内存中的数据更容易受到威胁。想象一下一个充满敏感数据的缓存内存,如果处理器被丢弃,这些数据会落入错误的手中。需要建立标准,以确保持久性内存中的数据的安全性,无论这些数据可能已记录在何处。
硬件领域已经遵循了SNIA设定的标准,使得在系统中添加新兴存储器类型变得更加容易。而DDR始终是一种仅支持DRAM的标准,这是Intel在引入其DDR-T Optane持久性内存模块时必须克服的。CXL使用一种事务协议,允许任何速度的存储器与处理器进行通信,与PCIe协议不同,后者也支持事务,而CXL支持传输的最小单位为64字节,无需使用中断,防止接触开关减缓处理器访问存储器的速度。由于不再需要完全统一的内存速度,与DDR不同,存储器可以具有较慢的写入和读取速度,并且慢速和快速存储器可以在同一处理器总线上共存。这非常适应新兴存储器,因为它们大多数都比DRAM慢,而且写入速度较慢。CXL还支持在内存空间中的持久性。CXL最初是在Optane充分发展时定义的,因此自然而然地CXL是为像Optane这样的存储器而指定的。正如我们在报告中所示,行业有充分的理由期望这种方法在以后的某个时候能够融入一些新兴存储技术,假设其发挥了重要作用,那么这种存储器很可能会是CXL连接的。
与此同时,我们预计会看到一些充满冒险精神的新方法,如三星最近推出的内存语义SSD,采用了不同的名称CXL内存模块混合体或CMM DH。虽然这与CXL附加的持久性内存相去甚远,但它有助于系统架构师和软件设计师为未来的持久性内存CXL模块铺平道路。
总的来说,CXL使将新兴内存纳入系统变得更容易,因为CXL基本上将内存类型隐藏在处理器之前。CXL对持久性的支持不仅有助于内存语义SSD,而且还有助于新兴内存,因为它们都是持久性的。这是否有助于加速新兴内存的采用?我们认为是相当有可能的。
CXL预计将在未来几年内大量出货,计算机可以使用CXL附加内存来节省固定DRAM的资本支出和电力以及冷却方面的运营费用。这对于超大规模数据中心来说将非常重要,因为这些公司已经是CXL的大量用户,从DRAM迁移到CXL附加的新兴内存对它们来说将是一小步,这将导致广泛使用持久性。
应用程序代码甚至无需知道它使用的内存是CXL附加的还是本地DDR DRAM,这将由虚拟化管理器来管理。虽然虚拟化管理器需要进行修改,但这些修改已经在进行中。已经编写用于持久性的代码也应该能够在不进行太多更改的情况下使用CXL附加的持久性内存,尽管应用程序不需要更改,但许多应用程序将进行修改以充分利用CXL附加的持久和挥发内存以加速其性能。所有这些最终将渗透到其它类型的计算机中,包括本地服务器和个人计算机,但这需要一些时间。
让我们深入更难的话题。要充分利用这些变革,你需要做些什么?应用程序开发人员应该从早期开始考虑持久性如何改进其代码。操作系统和操作系统开发人员需要确保正确的平台已经就绪,以允许应用程序员做到这一点。
正如我们之前提到的,硬件开发人员将需要考虑邪恶分子可以使用持久性的所有不良方法,以便可以制定方法来阻止这些攻击。最终用户应该承担起思考持久性如何帮助和危害他们的任务,并开始评估供应商提供的支持。
最后,像SNIA这样的标准组织将需要确保建立足够的标准,以在内存和存储层次结构的所有级别提供无缝的持久性支持,然后培训所有这些级别的技术人员了解这些标准和技术本身的运作和交织方式。这是计算领域令人兴奋的时刻。
最终本讲座有三个简单的信息:
新兴内存并没有消退到背景中,而是准备导入新的应用,包括持久性内存、持久性缓存甚至是持久性寄存器。 其次,CXL硬件接口将消除向单个服务器或服务器池添加任何速度的精确内存所面临的挑战,而在操作系统级别广泛支持持久性的管理,但目前很少有应用程序利用它,因此还有很多工作要做来利用这种新的强大功能。 最后,新兴内存需要业界所有人的支持,这是一项可以极大改进当前计算能力的技术,但如果短期内不得到支持,它将需要更长时间才能够得到很好的确立。如果我们能够早点开始思考如何利用这些内存,每个人都会受益。
-----
持久性内存最终能否达到目前DRAM的速度?
目前看来,持久性内存已经达到了DRAM的速度。SK hynix和Micron已经展示了铁电技术,这是一种非常快速的技术,具有非常迅速的周期。因此,选择这个方向是合理的。然而,由于CXL中的一些限制,这可能并不是最大的问题。因为CXL是一种事务性协议,所以读取速度可能与DRAM速度相媲美。对于MRAM和阻变RAM,写入速度可能会达到DRAM速度。
实际上,有一些技术,如自旋轨道扭矩和电压控制磁各向异性,承诺更高的性能,同时也具有低的功耗。
对于MRAM技术来说,大多数应用可能更注重读取性能,因此读取可能是关注的重点。不过看起来我们确实会达到那个水平。
-----
关于协议以及这些新兴内存之间的兼容性,它们的运作方式是否类似于DDR4和DDR5?如果不是,那么这些技术被采用的可能性是否较低?
这是一个纯粹的逻辑问题。问题的核心在于,内存技术与各种总线之间并没有天生的紧密耦合,这就是为什么当前多数新科技采用NOR闪存或SRAM接口的原因,因为它们相对简单。然而,未来它们可能会转向DDR接口。有一些特殊情况,由于新兴的内存技术不需要刷新,所以总体上它们也能使用DDR接口。CXL的特别之处在于,你可以在CXL的另一侧放置任何你想要的、带有任何接口的东西,而CXL会消除它们之间的差异,使它们在CXL交换网络的背后得以隐藏。
因此,将责任转嫁给CXL控制器的设计者,以确保这些新兴技术,无论是MRAM还是其他技术,都能够在CXL协议的支持下被采纳。
我对此并不感到意外,Arthur在智能模块工作,他们是大型CXL模块提供商,我相信他对CXL的了解比我更深入。但我预期初期可能会有几家公司,只有少数公司能提供带有某种专用接口的CXL控制器,无论是用于MRAM还是阻变RAM等,然后最终它们将逐渐进入主流。
CXL的另一个有趣之处可能是我们甚至可能看到CXL本身内部存在不同层次的内存体系,其中还包括特定域的处理器或靠近内存执行操作的加速器。因此,这里也存在着非常有趣的机会。如果能够在内存附近进行处理,就可以减少数据传输量,为计算系统节省大量功耗。
-----
新兴的内存技术都是按字节寻址的,而NAND是基于块的。那么,你认为这些按字节寻址的新兴内存最终会取代NAND吗?
这是一个成本问题,这也是Tom和我在这个演示中强调的重点。如果成本与NAND闪存相当,那么我们无法真正地取代它。然而,在接口方面,NAND接口相当笨拙。与之相反,这些新兴技术都具备字节接口,而且它们还支持原地写入,无需预擦除的块来进行写入。从技术角度来看,这是一个巨大的优势。现在的问题在于,它们能否降低成本并提高产量。
-----
HBM的趋势及其对与GPU协同使用的影响是什么?
实际上,今天的讲座不是关于HBM的,今天主要关注的是新兴的内存技术。我们并不期望在不久的将来会看到新兴内存技术采用HBM接口,因为HBM是基于DRAM的。正如我在幻灯片中所展示的,DRAM可能会在未来经历转变,转向另一种新兴的内存技术。然而,这个时间点可能是在2020年代初,或者更晚。而且,即使HBM最终转向新兴的内存技术,这个过程也可能需要很长的时间。
HBM涉及到芯片的堆叠,目前它是一种成本高昂的工艺,主要是为了将大量的内存放置在处理器附近。在NVIDIA等公司的应用中,HBM可以在这些芯片技术中起到一定的作用。比如,对于GPU来说,这是一个完全不同的领域,也将使用新兴的内存技术。芯片技术是其中的一个方面,虽然我们在这个演示中没有过多讨论,但这是新兴内存可能发挥作用的另一个领域。
我想强调使用新兴内存的另一个优势,即它不需要刷新。没有一种新兴的内存技术需要刷新,而我认为DRAM刷新消耗的电力比实际数据访问要多。因此,如果能够消除刷新操作,可能能够堆叠更多的芯片,从而获得更高的性能。但我仍然认为,在HBM的早期阶段和后来的主流DRAM市场中,DRAM不会被替代。
虽然进行所有这些刷新可能会导致相当多的潜在发热。这也可能在封装应用中发挥作用。因此,在其中可能存在一些小众领域,这可能是新兴内存首次用于这类应用的方式,前提是性能足够好。
-----
对于像Spin Memory和Crossbar这样的公司,以及拥有ReRAM技术的公司,它们都在考虑成本和速度等因素。但新兴内存技术需要具备哪些最基本的关键特征,或者说为了在市场上取得所需的动力,它们需要什么呢?
有趣的是,您提到了Spin Memory和CrossBar这两家公司,但事实上,Spin Memory已经倒闭,而CrossBar也尚未推出产品。因此,我认为推出产品是至关重要的。当然,这并不是说它们必须独立生产SRAM芯片或新兴内存芯片,而是需要让自己的技术被那些正在推出产品的公司所采用。
在嵌入式市场上,我们可以看到新兴内存IP得到广泛应用,这是建立新兴内存体积的良好途径。随着对制造这些内存的熟练程度和体积的逐渐增加,我们有可能会迎来低成本、大容量的独立内存的出现。
-----
有关可组合内存、内存池化和CXL的问题,您想对接口和与内存池化的关联提出一些建议吗?
CXL,特别是CXL 3.0,明确强调了内存池化的重要性。内存池化在内存领域的发展中扮演着至关重要的角色,这也是CXL可能得到广泛应用的原因之一。它使您能够分配内存,这些内存并不直接绑定到特定的服务器CPU,因此可以更高效地使用这些内存。此外,之前也提到过,目前主要的内存类型是DRAM和NAND闪存,但未来可能会扩展到CXL池内的其他内存技术,以及加速器,例如特定域处理器,这些都可以在内存附近执行某些操作。因此,无论是新兴内存还是传统内存,在内存池化方面都有很大的发展空间。
-----
关于分子基技术,如DNA等,是否能在未来几年作为半导体内存的替代品出现?
首先,这些分子内存技术还处于相对早期的阶段,但有些人对它们的发展制定了相当激进的计划。我认为这些分子内存的初始市场并不在高性能内存应用中。特别是对于DNA来说,其存储的潜在密度以及通过使用基因组过程制作大量内容的能力,使它在特定应用中具有很大吸引力。
目前在这些领域,我们主要看到的是这些技术由于其性能特性而寻求进入市场的较低部分。为了做到这一点,它必须非常注重成本,但这些可能性确实存在。然而,与新兴高性能内存一样,如果无法快速扩展规模并降低成本到足够竞争的水平,那么它可能无法在这些领域竞争。因此,它面临着一些不同的挑战,但在市场的不同部分面临着相似的挑战。
正如之前的演示中Tom所提到的,以及在我展示球形图表时涉及到的一点是,要使某种技术适应计算存储层次结构,它必须比下一个更快的技术更便宜,同时比下一个更便宜的技术更快。然而,DNA技术并不是一种非常快速的技术,因此这自然而然地要求它在成本上非常便宜才能推广,使其进入了与我们在这里讨论的新兴内存非常不同的领域。
当然,另一方面,你永远不知道未来会有什么新的发现,但目前我们还不知道如何制造出快速的分子内存,就是这样。
-----
对于未来的高密度内存,您认为它将如何影响非负载存储处理元素(如AI加速器)?随着模型规模的持续增大和能量密度的日益重要,新兴内存是否能在这种环境下蓬勃发展?
任何处于对内存需求不断增长的环境中的系统都会蓬勃发展,就像目前的AI一样。然而,AI正在经历快速变化,不仅在参数数量上,还涉及所使用的模型。最近,我阅读了Apple发表的一篇论文。他们找到了一种方法,将大型语言模型的数据量减少到iBook可容纳的大小,并取得了令人满意的性能。通过忽略对结果无影响的数据,他们成功地加速了发展。如果这种方式得以持续并推向极致,可能根本不需要那么多内存。当然,如果内存免费,那么大量内存的存在只是在于其是否比当前更便宜。
这里有三件修需要注意的事情。首先,CXL不仅允许混合内存类型,还能将领域专用处理器置于内存附近。这些处理器或许能处理模型部分,降低能耗。第二,存在与传统计算模型不同的计算模型。除了量子计算,还有一种称为神经网络的技术,将内存用作矩阵乘法器。这些新兴技术可用于AI应用。此外,处理本身也在变化。目前基于电流,但正在研究无电流的自旋器件。它利用电子自旋传输数据,避免电阻发热,使处理器更凉爽、节能。因此,新兴内存的不同技术中隐藏的东西可能对计算发展产生更大的影响,而非仅限于内存应用本身。
当谈及自旋电子器件时,请注意我强调的是逻辑,而不是自旋内存。我在谈论使用自旋而非电流的逻辑。这是关于电荷自旋,而非电流。
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)