一种新型DRAM
机器学习 (ML) 是人工智能 (AI) 的一个子集,已成为我们生活中不可或缺的一部分。它使我们能够使用深度神经网络算法等技术从数据中学习和推理。机器学习可以实现图像分类和语言建模等数据密集型任务,从而催生许多新的应用程序。
机器学习的过程分为两个阶段。首先是训练阶段,通过将信息存储和标记为权重来开发智能——这是通常在云中执行的计算密集型操作。在此阶段,机器学习算法将输入给定的数据集。权重被优化,直到神经网络能够以所需的准确度进行预测。
在第二阶段(称为推理)中,机器使用第一阶段存储的智能来处理以前未见过的数据。推理的主要运算是权重矩阵(weight matrix)和输入向量的矩阵向量乘法(matrix-vector multiplications)。例如,当模型经过图像分类训练时,输入向量包含未知图像的像素。
权重矩阵包含可以识别图像的所有不同参数,并在训练阶段存储为权重。对于大型且复杂的问题,该矩阵被组织成不同的层。输入数据通过神经网络“转发”以计算输出:对图像中包含的内容的预测,例如猫、人、汽车。
在技术方面,输入和权重通常存储在传统存储器中,并提取到处理单元以执行乘法。对于复杂的问题,需要移动大量数据,从而影响能效和速度,并留下大量碳足迹。
然而,如果(部分)计算工作可以在内存本身中完成,则可以避免大部分数据流量。当以节能的方式实现时,这种内存计算减少了推理对云的依赖,大大改善了延迟和能耗。
模拟内存计算的通用架构
与传统的内存操作不同,内存计算不会以单个内存元素的粒度进行。相反,它是在一组存储设备上执行的累积操作,利用阵列级组织、外围电路和控制逻辑。常见步骤是乘法累加运算 (MAC),它计算两个数字的乘积并将该乘积添加到累加器中。
虽然内存计算可以数字方式执行,但这项工作的重点是使用实际电流或电荷值的模拟实现。与数字内存计算相比,模拟内存计算 (AiMC:Analog in-memory computing ) 具有多项优势。如果可以进行多级编程,则每个单元可以更轻松地表示权重和输入中的多位信息,从而减少存储设备的数量。此外,根据基尔霍夫电路定律,使用电荷或电流提供了一种几乎自然的 MAC 运算方式。
图 1 IMW 2023 上展示了 AiMC 多向量乘法的一般概念。来源:imec
在通用 AiMC 架构中,首先使用激活线(activation lines )上的数模转换器 (DAC) 将来自输入(或来自前一层)的激活信号转换为模拟信号(图 1 )。然后将模拟激活 (act i ) 与权重 (w ij )相乘并存储在存储单元数组中。每个单元将 w ij .act i作为电流或电荷贡献给求和线。在求和线上,输出是所有贡献的总和。然后输出被转换为数字值。后处理后,结果被传输到下一层或缓冲存储器。
寻找合适的存储技术
如今,大多数基于AiMC 的机器学习系统都依赖于传统的静态随机存取存储器 (SRAM) 技术。但事实证明,基于 SRAM 的解决方案价格昂贵、耗电量大,并且难以扩展到更大的计算密度。为了克服这些问题,人工智能社区正在研究替代内存技术。
在 2019 年 ISSCC 和 IEDM 会议上,imec 提出了针对节能推理应用的不同存储器件技术的基准研究。该分析将电路设计与技术选项和要求联系起来,预计每秒每瓦 (TOPS/W) 10,000 万亿次操作的能效,这超出了最先进数字实现的效率。研究人员将high cell 电阻或 low cell电流、低变化和small cell面积确定为关键参数。
这些规范限制了最流行的单元类型的使用,包括自旋扭矩转移磁性 RAM (STT-MRAM) 和电阻 RAM (ReRAM)。电阻型存储器将权重存储为电导,并将激活编码为电压电平。电阻式存储器的问题之一是激活线和求和线上都会出现 IR 或电压降,从而影响输出。
此外,需要选择器器件来优化阵列内的单元访问,从而增加单元面积并增加电压分配的挑战。相变存储器(PCM 或 PCRAM)也受到类似问题的限制。对于自旋轨道扭矩 MRAM (SOT-MRAM),开关器件所需的高电流和单元的低开/关比是一个优势,但不一定是阻碍因素。
在所有研究的内存技术中,imec 研究人员确定基于氧化铟镓锌 (IGZO) 的 2 晶体管 1 电容器 (2T1C) 器件是 AiMC 最有前途的候选技术。2T1C 单元最初是为 DRAM 应用提出的,与 AiMC 应用中的 SRAM 相比,它具有两个主要优势。
首先,它可以显著降低待机功耗。其次,IGZO 晶体管可以在芯片的后段生产线 (BEOL) 中进行加工,它们可以堆叠在位于前段生产线 (FEOL) 的外围电路的顶部。这样,构建存储器阵列就不需要 FEOL 占用空间。此外,IGZO 技术还允许将多个cell堆叠在一起,从而实现更密集的阵列。
设计基于 IGZO 的 2T1C 器件
在 2023 年国际内存研讨会 (IMW) 上,imec 研究人员解决了剩余的挑战:优化增益单元的保留时间、探索多级编程的可能性以及在阵列配置中演示 MAC 操作。
权重矩阵中的每个存储单元均由一个电容器和两个 IGZO 晶体管组成。一个晶体管用作写入晶体管,用于将权重编程为连接到第二个晶体管的栅极的(存储节点)电容器上的电压。第二晶体管被设计为读取晶体管并充当电流源元件,从而允许非破坏性读取。
通过读取晶体管的电流取决于激活输入和存储在存储节点电容器中的权重。因此,该电流自然代表乘法运算的输出 (w ij .act i )。由于与存储电荷流相比,读出电流被放大,因此 2T1C 单元也称为“增益单元”。
图 2原理图显示了 2T1C DRAM 增益单元。
来源:imec
为了适合节能 MAC 操作,该单元的三个关键组件需要满足一些目标规格:长保留时间、低关断电流和合适的导通电流。
增益单元( gain cell)的保留时间决定了单元(cell)可以保留编程权重(programmed weight)的时间。保留时间越长,刷新单元的频率就越低,从而有利于功耗。此外,多电平操作需要较长的保留时间,以确保能够在存储节点电容器上存储不同的电压电平。
存储节点电容由外部电容器、读取晶体管的栅极氧化层电容和寄生电容决定。编程权重可能会因泄漏电流而改变。这对外部电容器和 IGZO 晶体管的漏电流提出了要求,要求后者具有低关断电流。
读晶体管和写晶体管的主要区别在于电流目标。虽然读取晶体管需要低导通电流来限制 IR 压降,但写入晶体管的导通电流必须足够高,以便在合理的写入时间内对权重进行编程(> 1 µA/µm)。
图 3 IMW 2023 上展示了写入(左)和读取(右)晶体管的堆栈示意图。来源:imec
基于 IGZO 的非晶晶体管和电容器经过精心设计,可满足不同的标准,并采用 300 毫米晶圆制造。所提出的解决方案与 CMOS 和 BEOL 兼容,制造存储器阵列不需要 FEOL 占用空间。
写晶体管的高导通电流和低截止电流是通过采用具有氧隧道模块和升高的源极/漏极接触的后栅极配置以及使用相对较厚的栅极电介质(15 nm)来实现的。读取晶体管具有更薄的 IGZO 沟道 (5 nm) 和更薄的栅极电介质 (5 nm)。对于外部电容器,研究人员采用了 9 nm 厚的 Al 2 O 3基金属-绝缘体-金属 (MIM) 电容器。
实验演示
由于读取和写入晶体管的设计不同,因此它们可以理想地集成在不同层上,利用 IGZO 晶体管的 3D 可堆叠性并促进更密集的阵列。然而,为了获得 MAC 操作的概念验证,实现类似设计(写入晶体管的设计)的读取和写入晶体管就足够了。
首先,测量单个 2T1C 电池的保留时间和截止电流。实验表明,保留时间高达 130 秒,中值关断电流低至 1.5×10 -19 A/μm——源于 IGZO 通道材料的低带隙。
图 4多个器件的存储节点电压 (V SN ) 的演变用于估计保持电流和关断电流,如 IMW 2023 所示。来源:imec
为了演示多级操作,不同的设备被编程为不同的权重级别,并监控存储节点电压的演变。即使在 400 秒后,仍然可以观察到不同的电压水平,显示出单单元多级编程的能力。
接下来,2T1C 增益单元已在 2×2 阵列配置中实现,以验证 MAC 操作。研究人员观察到,当激活同一激活线上的两个单元时,求和线上的读取电流增加——电容器节点上存储的权重相等。这个电流几乎等于单独激活每个细胞后获得的电流之和。
结果已扩展到 4×2 阵列。在另一组实验中,当改变存储的权重或激活时,观察到求和线电流的变化。这些测量结果表明,具有 IGZO 的 2T1C 增益单元可以成功用于机器学习应用中的矩阵向量乘法。
图 5 IMW 2023 上展示了存储节点编程为不同权重的 2×2 阵列的多级 MAC 操作。来源:imec
从2T1C到2T0C
对于 2T1C 单元,通过优化晶体管和外部电容器分别实现低截止电流和高电容,实现了高保留时间。但imec 在 (3D) DRAM 应用框架中开展的早期工作证明,在无电容器实现(2T0C 增益单元)中也可以获得较长的保留时间。
由于 IGZO 晶体管具有超低关断电流,即使仅使用读取晶体管的栅极堆叠作为存储电容器,也能实现长时间保持。省去外部电容器有一些显着的优点。它降低了成本,并且由于电容器占用了相当大的面积,因此占用空间甚至更小。在 IEDM 2021 上,imec 展示了一种基于 IGZO 的 2T0C DRAM 单元,其保留时间超过 103秒,这是由于 IGZO 晶体管的关断电流非常低。
最近,imec研究人员进一步将基于IGZO的2T0C器件的保留时间提高到> 4.5小时,并实现了< 3×10 -21 A/μm的截止电流——有史以来报道的2T0C器件的最低值。这些结果的关键是使用不同的技术对 2T0C 器件的有源模块进行图案化。
研究人员使用反应离子蚀刻(RIE)代替离子束蚀刻(IBE)。RIE 被证明可以消除 IBE 引起的金属再沉积,从而抑制外在泄漏路径并延长保留时间。RIE 技术的另一个优点是能够以非常小的尺寸(低于 100 nm)进行图案化,从而进一步减少面积消耗。结果在 VLSI 2023 会议上公布。
由于保持力的提高,研究人员还表现出了存储节点电压的出色稳定性,这表明机器学习应用的模拟行为良好。他们成功证明了单单元 2T0C 器件上的多级编程和 2×2 阵列中的 MAC 操作。
图 6上面显示的是用于 MAC 操作的 2×2 2T0C 阵列 (a),在本例中,单元 1 和 3 首先单独激活 (b)。当两者都被激活时,两个电流在 SUM 线上相加,如 VLSI 2023 所示。来源:imec
用于 ML 推理的增益单元
基于 IGZO 的 2T1C 和 2T0C 增益单元为 AiMC 显示出优异的特性,因此可用于完成机器学习应用的推理阶段。在这些应用中,它们在能源效率和计算密度方面优于传统的基于 SRAM 的技术,尤其是在面积效率方面表现出色的 2T0C 单元。
该研究展示了进行多级 MAC 操作的能力,进一步为该技术的工业应用成熟铺平了道路。
参考文献
https://www.planetanalog.com/dram-for-energy-and-area-efficient-analog-in-memory-computing/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3559期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!