目前多家公司都在开发网络边缘系统的AI芯片,本文作者详细分析AI边缘芯片遇到的问题和挑战,并给出一些新的内存技术解决方案。
目前多家公司都在开发网络边缘系统的AI芯片,然而供应商在处理结点和内存选择上面临着各种各样的难题,这些难题还会因应用而异。例如网络边缘类的产品涉及汽车、无人机、监控摄像头、智能扬声器乃至企业服务器。所有这些应用都包含运行机器学习算法的低功耗芯片。尽管这些芯片的许多组件与其他数字芯片并无二样,但主要区别在于这些芯片的大部分处理都是在内存中,或是在内存附近进行的。 鉴于这一点,AI边缘芯片的制造商都在为下一代设备评估不同类型的内存。每种类型的内存都有自己的难题。在许多情况下芯片使用的都是成熟的工艺,而非最先进的技术,但它们本身也必须采用低功耗架构。 AI芯片有时也称为深度学习加速器或处理器,在经过优化后,可以使用机器学习来处理系统中的各种工作负载。机器学习是AI的子集,它利用神经网络处理数据并识别模式,匹配某些模式,并了解其中哪些属性很重要。 这些芯片面向整个计算应用领域,但是这些设计直接存在明显的差异。例如,为云开发的芯片通常基于高级流程,并且设计和制造成本很高。同时,边缘设备包括为汽车市场开发的芯片,以及无人机、监控摄像头、智能手机、智能门铃和语音助手。在这一广泛的领域中,每个应用都有不同的要求。例如,智能手机芯片与智能门铃的芯片截然不同。 对于许多边缘产品而言,它们的目标是开发具有刚好够用的计算能力的低功耗设备。“这类的产品无法承受300瓦的GPU。对于许多这类应用来说,即使是30瓦的GPU也太大了。”The Linley Group首席分析师Linley Gwennap表示,“但是,设备制造商仍然希望制作出一些复杂的设备。这就需要比微控制器更强大的AI功能。你需要功能强大,但又不会耗尽电池或成本过高的芯片,尤其是在消费类应用程序中。因此,你必须考虑一些颇为激进的新解决方案。”一方面,大多数边缘设备都不需要昂贵的高级节点芯片,因为它们太昂贵了。当然也有例外。此外,许多AI边缘芯片都在内存内或在内存附近处理功能,这样做可以用更少的功耗来加速系统。供应商们正在考虑各种内存方法,并为将来的芯片探索新的方法:- 使用NOR存储器,或一种名为模拟内存计算的新技术。
- 使用相变化存储器、MRAM、ReRAM和其他下一代存储器,AI边缘芯片已开始广泛采用这些存储器。
机器学习问世已经几十年了。然而我们的系统没有足够的能力来运行这些算法。近年来,由于GPU和其他芯片以及机器生成的算法的出现,机器学习开始蓬勃发展。 “从1990年代开始,机器学习才开始得到了应用,”D2S首席执行官Aki Fujimura说,“但随着GPU的出现,近年来情况发生了变化。GPU推进了深度学习的应用,因为如今我们的计算能力加强了。”这些设备以及其他设备的目标是处理神经网络中的算法,其本质是计算矩阵乘积并求和。首先将数据矩阵加载到网络中。然后,每个元素乘以预先定好的权重,并将结果传递到网络的下一层,再乘以一组新的权重。重复几次这个步骤后,得出的结果就是有关数据的结论。 机器学习已在许多行业中得到应用,其中在半导体行业中,已经出现了几十个机器学习芯片供应商。许多都是为云开发芯片的公司。这些系统的芯片旨在加速Web搜索、语言翻译以及其他应用程序。根据Linley Group的数据,2019年这些设备的市场规模超过了30亿美元。此外,市场上还涌现了几十个AI边缘芯片供应商,例如Ambient、BrainChip、GreenWaves、Flex Logix、Mythic、Syntiant等。预计到2024年,总共将有16亿台边缘设备配备深度学习加速器。AI边缘芯片可使用8位计算来运行机器学习算法。“你可以在同一个地方生成、使用和处理数据。这有很大的优点:我们都会面临电池寿命的问题。如果可以不用开互联网的连接,而是在本地进行AI处理,那就可以节省大量电量。响应性也很重要,还有可靠性,以及最终也要保证隐私。”Syntiant首席执行官Kurt Busch说,“在深度学习中,最大的问题就在于内存访问。电池和性能的瓶颈最终都会落在内存上。其次,并行处理。在深度学习中,我可以并行进行数百万次乘法和累加,并通过并行处理有效地线性缩放。” AI边缘芯片有不同的要求。例如,智能手机集成了领先的应用处理器。但其他边缘产品(比如门铃、监控摄像头和扬声器等)则并非如此。UMC业务开发副总裁Walter Ng表示:“边缘设备的解决方案涉及经济的问题。它必须对成本非常敏感。整体目的是具有竞争力的成本、低功耗以及简化的计算分布。”此外,还有其他因素需要考虑。许多AI边缘芯片供应商都需要在40nm左右的成熟节点上交付产品。目前这一工艺很理想,成本并不昂贵。但展望未来,供应商希望以低功耗获得更高的性能。下一个节点是28nm,这也很成熟而且很便宜。最近,制造厂商已经引入了各种22nm的工艺,这是28nm的扩展。 22nm比28nm略快,但是价格高。大多数供应商都不会迁移到16nm/14nm的finFET,因为太贵了。 迁移到下一个节点不是一个简单的决定。“如今许多客户及其应用都在40nm上。” Ng说,“当着眼于下一个节点路线图时,他们是否会满意,并在28nm上获得最佳性价比?还是说22nm看起来比28nm更具吸引力,能提供更多好处?这是许多人都在考虑的因素。”在传统系统中,内存层次结构很简单。为此,我们将SRAM集成到可以访问常用程序的高速缓存处理器。用于主内存的DRAM是独立的,位于内存模块中。在大多数系统中,数据会在内存和处理器之间来回移动。但是这种交换会导致等待时间和功耗的增加,有时也称为“内存墙”,而且这个问题会随着数据量的增加而变得越来越严重。 因此,在内存内或内存附近进行计算,就非常适合解决这个问题。内存内计算可以将需要处理的任务放到内存中,而内存附近计算可以使用距离处理逻辑最近的内存。 并非所有芯片都使用内存计算。但是,AI边缘芯片供应商正在使用这些方法来打破内存墙。他们还从云上转移了一些处理功能。去年,Syntiant推出了第一款产品“神经决策处理器”,该处理器将神经网络体系结构集成到了一个小巧的低功耗芯片中。这个40nm的音频设备还集成了具有112KB RAM的Arm Cortex-M0处理器。Syntiant基于SRAM的存储器,将其体系结构归类为围绕内存的计算。该芯片背后的想法是让语音成为系统中的主要接口。亚马逊的Alexa就是一个很好的在线语音界面的例子。 “语音是下一代的界面。”Syntiant的Busch说,“我们专门构建了这些解决方案,为所有电池供电的设备(小到助听器到,大到笔记本电脑或智能扬声器)增加了长期在线的语音接口。” Syntiant正在开发新设备,并在研究不同的存储器类型。“我们正在研究一些新兴的内存技术,例如MRAM和ReRAM,主要是为了提高存储密度。”Syntiant首席科学家Jeremy Holleman说,“首先是读取时的耗电,其次待机时的耗电也是一件大事,因为对于大型模型,最终的内存都会很大。但是,也许你只需要在给定实例上对进行较小一部分的计算。在不使用存储单元时,降低耗电的能力非常关键。” 目前不需要高级流程。“在可预见的将来,先进节点的泄漏对于超低功耗应用来说太高了。” Syntiant的Busch说,“边缘设备经常无所事事。与数据中心中的设备相反,一旦开机就需要处理计算,而且你也希望它一直运转。但边缘设备经常在等待事情的发生。因此,你需要非常低的功耗,而高级节点并不擅长于此。”如今,大多数AI芯片都依赖内置的SRAM,速度很快。“但是,无论采用哪种技术,使用SRAM在独立的数字边缘处理器中安装数百万级的芯片都是非常昂贵的。”Cypress IP业务部设计总监Vineet Kumar Agrawal表示,“从DRAM获取数据的代价比从内部SRAM获取数据的代价高500倍。”同时,许多AI边缘芯片供应商正在使用或寻找另一种内存类型:NOR。NOR是一种非易失性闪存,用于独立和嵌入式应用程序中。NOR通常用于代码存储。 NOR技术成熟,但需要在每个节点上都增加额外且昂贵的屏蔽步骤。而且很难将NOR的规模扩展到28nm/22nm以上。不过,有些公司正在使用当今的NOR闪存,开发一种称为模拟内存计算的技术。这些设备大多数是从40nm节点开始的。 “看看传统的数字AI架构功耗的两个主要来源都是计算:乘法和加法。然后,其次是将数据从内存移至计算单元,然后再移回去。”Linley Group的Gwennap解释说,“人们的尝试都是在解决这两个问题。他们将计算直接放入存储电路中,因此数据就不必移动太远。他们没有使用传统的数字乘法器,而是使用了模拟技术,让电流能够通过可变电阻运行。然后使用欧姆定律来计算电流和电阻的乘积。”在内存内的模拟技术有望降低功耗。但是,并非所有的NOR都是一样的。例如,某些NOR技术基于浮栅体系结构。 Microchip使用基于NOR的浮栅方法,开发了一种用于机器学习的内存内模拟计算架构。该技术集成了乘法累加(multiply-accumulate,MAC)处理引擎。 “采用这种方法,用户无需将模型参数或权重存储在SRAM或外部DRAM中。”Microchip SST部门嵌入式存储器产品开发总监Vipin Tiwari表示,“将输入数据提供给阵列进行MAC计算。这样做可以消除MAC计算中的存储瓶颈,因为计算是在存储权重的地方完成的。”还有其他NOR的方法。例如,Cypress长期以来一直在提供另一种称为SONOS的嵌入式NOR闪存技术。SONOS基于电荷陷阱闪存,是一种双晶体管技术,可以通过从氮化物层添加或去除电荷来改变阈值电压,它适用于28nm以下的各种节点。 SONOS经过优化后可以作为机器学习的嵌入式存储器。“两个SONOS多位嵌入式非易失性存储单元最多可以替代8个SRAM单元,即48个晶体管。这非常有效,而且你还可以将功率效率和吞吐量提高50-100倍。”Cypress的Agrawal说,“SONOS使用高度线性和低功率的隧穿工艺进行编程,该工艺能够通过高度控制来瞄准Vts,从而产生纳安级比特单元电流水平。这与使用热电子的浮栅相反,在浮栅中你无法控制流入电池的电流量。另外,你的电池电流要高得多。”由于NOR无法扩展到28nm/22nm以上,因此AI边缘芯片供应商正在研究几种下一代存储器类型,例如相变存储器(PCM)、STT-MRAM、ReRAM等。对于AI而言,这些存储器还运行带有神经网络的机器学习应用程序。 这些存储器很有吸引力,因为它们将SRAM的速度和闪存的非易失性结合在一起,具有无限的耐久性。但是,由于新存储器使用复杂的材料和切换方案来存储数据,因此它们的开发时间更长。 “半导体制造商从基于电荷的存储器(SRAM、NOR)迁移到电阻性存储器(ReRAM,PCM)时面临新的挑战,”KLA过程控制解决方案亚洲地区总监Masami Aoki说,“这些新兴的存储器由新元素组成,需要精确控制材料性能和新的缺陷控制策略,才能确保性能均匀性和可靠性,特别是对于大规模集成而言。”长期以来,英特尔一直在发售3D XPoint,这是一种PCM。美光公司也出售PCM。非易失性存储器PCM通过更改材料的状态来存储数据,比具有更好耐久性的闪存快。 PCM是一项具有挑战性的技术,尽管供应商已解决了这些问题。“使用3D XPoint相变存储器,硫族物对环境条件和过程化学反应异常敏感。”Lam Research执行副总裁兼首席技术官Rick Gottscho表示,“处理所有这些问题的技术策略多种多样。”PCM也是AI的目标。2018年,IBM发表了一篇关于使用PCM处理8位精度内存乘法技术的论文。尽管还没有人批量销售产品,但是IBM和其他公司仍在为AI边缘应用程序开发PCM。 STT-MRAM也在发售中,它具有SRAM的速度和闪存的非易失性以及无限的耐用性。它利用电子自旋的磁性在芯片中提供非易失性。STT-MRAM是嵌入式应用的理想选择,旨在取代22nm及更高波长的NOR。“看看新的内存,MRAM是低密度(小于1Gb)的最佳选择。MRAM是最好的嵌入式内存。它比NOR更好,尽管你可以在28nm或更大的芯片上采用NOR。NOR添加了12个以上的蒙版,因此从成本、密度和性能的角度来看,MRAM是嵌入式的首选。”MKW Ventures Consulting负责人Mark Webb说。但是,一些专家认为,MRAM仅支持两个级别,因此不适合内存计算。有些人则有不同的看法。Imec杰出的技术人员Diederik Verkest说:“一个MRAM设备确实只能存储一个位。但是,在内存计算中,重要的是要了解存储设备和计算单元之间的差异。计算单元执行存储的权重和输入激活的乘法。在最佳情况下,计算单元内部的存储设备可以存储多个重量级别。但是,可以使用多个存储设备制作存储权重的计算单元。如果使用3级权重(则权重可以为-1、0、1),则可以使用两个存储设备,并且计算单元将由两个存储设备以及围绕该存储单元的一些模拟电路组成,用以计算乘积重量值和激活。因此,MRAM设备可以在计算单元内部使用,存储多级权重并构建内存计算解决方案。”ReRAM是另一种选择。与闪存相比,该技术具有更低的读取延迟和更快的写入性能。ReRAM将电压施加到材料堆栈上,从而导致电阻变化,并将数据记录在内存中。在最近的IEDM会议上,Leti发表了一篇论文,介绍了有关有关使用模拟和ReRAM技术开发集成脉冲神经网络(Spiking Neural Network,SNN)的芯片技术。130nm测试芯片的每个峰值功耗为3.6pJ,一台使用28nm FD-SOI的研发设备。SNN与传统的神经网络不同。Linley Group的Gwennap表示:“它不会有任何耗电,除非输入发生变化。因此,从理论上讲,如果你的监控摄像头正对着你的前院,那么它就是理想的选择。除非有人走过去,否则一切都不会改变。”Leti的SNN设备是边缘的理想选择。Leti的研究工程师Alexandre Valentian说:“到底边缘是什么意思,还有待观察,但是我可以说ReRAM和SNN是特别针对端点设备而定制的。ReRAM和脉冲编码非常适合,因为这种编码策略简化了内存计算。不需要在输入端使用DAC(如矩阵矢量乘法),它可以简化输出端的ADC(位数更少),或者如果神经元是模拟的,则最终将其完全删除。”然而,ReRAM很难开发。只有少数几个零件可用。“在我们看来,理论上 ReRAM适合于1T1R设计(嵌入式),以及将来使用合适的交叉点选择器的1TnR。难点在于,过去两年中实际产品的开发非常缓慢。我们认为,这是由于存储元素本身的保留问题和干扰(相对于循环)。这些问题需要解决,我们需要具有64Mbit嵌入式和1Gbit交叉点的产品。” MKW的Webb说。总而言之,在下一代存储器中,哪一类更适合于AI边缘应用尚无共识。业界继续探索当前和未来的选择。 例如,Imec最近在评估了几种选择后,使用名为AiMC的模拟内存计算架构启用10000TOPS/W矩阵矢量乘法器。Imec评估了三个选择:SOT-MRAM、IGZO DRAM和投影PCM。自旋轨道扭矩MRAM(Spin-orbit torque MRAM,SOT-MRAM)是下一代的MRAM。而氧化铟镓锌(indium gallium zinc oxide,缩写:IGZO)是一种新型的晶体结构。 Imec的Verkest表示,“存储DNN的权重的设备有很多种。这些设备使用不同的机制来存储权重值(磁性、电阻、电容),并采用AiMC阵列的不同实现。”目前尚不清楚哪种当前或下一代内存技术是赢家。也许所有技术都拥有一席之地。SRAM、NOR和其他常规存储器也有用武之地。但数十家AI芯片供应商的空间不大。目前已有重大动荡的迹象,大型公司开始收购创业公司。与所有新的芯片部门一样,有些公司将取得成功,有些将被收购,而有些将失败。原文链接:https://semiengineering.com/memory-issues-for-ai-edge-chips/【END】