查看原文
其他

乱战中的AI芯片,创新与隐患谁更突出?

畅秋 半导体行业观察 2021-02-13


当下,边缘侧AI应用需求越来越迫切,带动着相应的AI推理芯片向前发展。所谓边缘侧AI,是指在端侧设备本身,而不是在云端或大型数据中心服务器上运行AI推理,这样做具有多种益处,例如消除了处理延迟,减少了数据传输量和带宽,并且还可以增加隐私安全。鉴于这种优势,边缘AI芯片市场的增长非常显著——2017年,市场才出现第一款商用企业边缘AI芯片,据德勤预计,2020年,边缘AI芯片销量将超过7.5亿个。

2018年,全球人工智能芯片市场规模为66.4亿美元,预计未来几年将大幅增长,到2025年将达到911.9亿美元,年复合增长率为45.2%。因此,许多公司都在努力开发人工智能芯片。然而,类似于CPU、GPU和基带处理器市场的成长过程,AI芯片市场也在经历着由少数大型玩家主导的命运。

在人工智能芯片市场竞争的公司,从英特尔、高通、Arm和Nvidia等芯片巨头,到传统的互联网科技巨头,以及众多新兴企业,如Graphcore、Mythic和Wave Computing。目前,绝大多数(90%)边缘 AI 芯片用于消费类设备,许多智能手机制造商也没有错过这个机会,开发了自己的AI加速器,例如,苹果用于iPhone的8核神经引擎。

目前,边缘AI芯片市场仍处于较为开放的竞争状态,还没有绝对的霸主。业内人士和投资者都在密切关注那些技术和产品力突出的公司。该领域将不可避免地通过投资、收购和优胜劣汰向前发展。未来几年内,可能会出现市场领导者,那么,谁将成为边缘AI芯片领域的英特尔或高通呢?

在广义层面,AI芯片的领跑者是英特尔和英伟达(Nvidia)。目前,英特尔的CPU在AI推理市场占据主导地位,而Nvidia则主导着AI训练芯片市场。然而,相对于英特尔,Nvidia似乎更胜一筹,在数据中心AI芯片市场处于领先地位。为了赶超对手,英特尔不断通过收购相关的AI芯片初创企业来提升技术能力,就在2019年12月,英特尔以20亿美元收购了以色列的深度学习加速器开发商Habana。

Habana的Goya加速器确实有独到之处,其技术很新颖,例如支持远程直接内存访问 (RDMA),即从一台计算机的内存直接访问到另一台计算机的内存,而无需使用任一计算机的操作系统。此功能特别适用于大规模并行计算机集群,从而用于在云上训练复杂模型(目前,Nvidia在该领域占主导地位)。另一方面,Nvidia 最近发布了其 Jetson Xavier NX 边缘AI芯片,其算力高达21TOPS,特别是针对AI推理。

此外,一些AI芯片新星也很吸睛,如英国的Graphcore,最近,该公司与微软合作,以19.5亿美元的估值融资1500万美元。他们的旗舰产品 - 智能处理单元(IPU) - 具有极强的性能指标和新颖的架构,例如,使用处理器内内存将整个 ML 模型放在处理器内,以最大限度地减少延迟并最大化内存带宽。

另外一家初创企业Mythic 的体系结构同样值得关注,它结合了硬件技术,如内存计算(无需构建缓存层次结构)、数据流体系结构(特别适用于基于图形的应用,如推理)和模拟计算(通过使用内存元素作为可调谐电阻器计算直接在内存内部进行神经网络矩阵操作)。Mythic在融资方面也没有落后于 Graphcore — — 2019 年 6 月,软银等投资者向其增加了3000万美元的投资。

虽然还不清楚谁将最终主导AI芯片市场,但从历史发展(如CPU和基带处理器领域)经验来看,IP是取胜关键,谁在这方面占据了先机,就将在竞争中处于优势地位。因此,创新依然是发展壮大的关键。

新的芯片架构和技术


在创新方面,今年陆续出现了一些新的边缘AI芯片架构,重点针对边缘 AI 进行了优化。而新兴的RISC-V在其中扮演着重要的角色。由于是开源的,RISC-V指令集体系结构具有各种指令扩展,可提高边缘AI的性能,并降低功耗。基于这些,RISC-V在边缘侧应用对Arm发起了挑战。

今年10月,Nvidia提议收购Arm,再次引起了Arm与RISC-V之争的话题。对此,Facebook首席人工智能科学家Yann LeCun在法国研究实验室CEA-Leti的创新日上发言说,应该向RISC-V转移,用于为边缘AI应用运行神经网络。

他说:"Nvidia收购Arm这一变化让人感到不安,这让人们更多地看到了RISC-V的发展潜力,RISC-V处理器的价格非常便宜,不到10美元,许多来自中国,它们将变得无处不在。“

"边缘AI是一个超级重要的话题,"Yann LeCun说:"在未来两到三年内,它意味着尽可能降低功耗,修剪神经网络,优化权重,关闭系统中未使用的部分。在未来两到三年内,使用这种AI芯片的AR设备将陆续出现。“

他还提到:"十年后,在自旋电子学方面是否会有一些突破,或者任何允许模拟计算而无需硬件多路复用?我们能否想出类似的东西,在不进行硬件多路复用的情况下,大大缩小单个芯片的设备尺寸,这是一个很大的挑战。“

Leti 首席执行官 Emmanual Sabonnadiere 表示:"公司正在为下一代芯片开发 1nm 和 2nm 技术,我坚信我们可以不同的方式,使用传感器、神经网络和控制器来实现这种硬件。我们正在努力制定国家计划,边缘AI旨在阻止数据泛滥并保护隐私。“

Leti 也是全欧洲神经网络计划的一份子,该计划正在研究神经网络芯片的新平台。

CEA-Leti的副首席执行官兼首席技术长让·雷内·莱奎佩斯(Jean Rene Lequeypes)表示:"现在,我们已有 2000 多人在努力研究下一代AI技术。位于贝尔焦姆的伊梅克、德国的弗劳恩霍夫和莱蒂正在开发一个边缘AI平台,除此之外,我们还在格勒诺布尔的因里亚(Inria)工作,以研发Facebook和硅谷大公司需要的下一代技术和产品。“

挑战在于集成所有不同的元素,而无需使用 5nm制程及以下所需的EUV光刻机。

Lequeypes 说:"我们希望获得 1000TOPS/mW 的终极性能,这是一个非常大的挑战,以及如何处理信息存储,以及如何集成这些存储器而无需使用EUV。“

边缘AI芯片的低功耗突破


以上,提到了高性能和低功耗,在边缘侧,对低功耗的要求非常高,在某种意义上讲,它比性能更为重要。这是当下边缘AI芯片研究的一个重点。

比利时的 Imec 利用一种新技术开发了一种测试芯片,这种技术可显著降低机器学习边缘 AI 系统的功耗。

模拟内存计算(AiMC)架构使用经过修改的内存单元在网络边缘处理经过训练的神经网络中的数据,其功率效率为 2900TOPS/W。

"我们建立了一个特殊的计算单元,通过减少数字传输来节省能耗,"imec机器学习项目主管迪得里克·维克斯特说。"根据脉冲宽度,在继续进行数字计算之前,可以得到ADC上权重的求和,"他说。

"在这个芯片中,我们使用3级权重。权重可以是 -1、0 或 1,我们使用两个 SRAM 单元来存储此权重级别。计算单元是一个模拟电路,在两个SRAM单元上有几个额外的晶体管,这会产生与存储的3级权重和激活信号(DAC 的输出)的乘法成正比的模拟信号。因此,严格地说,3 级权重以数字方式存储,但所有计算都是在模拟域中完成的。“

"模拟推理加速器(AnIA)的成功流片标志着向AiMC验证迈出了重要一步,"他补充说:"参考设计不仅表明模拟内存计算在实践中是可行的,而且表明它们比数字加速器实现了10到100倍的能效。从我们的角度来看,这是机器学习程序中的一个里程碑,表明模拟计算可以具有与数字计算相同的精度。"

AnIA测试芯片已采用格芯(GF)位于德国德累斯顿的22nm FD-SOI低功耗工艺平台,芯片面积为 4平方毫米,具有 1024 个输入和 512 个输出信号,其性能与当今的GPU类似。它显示的精度与数字实现相同,达到1%,但能效为 2900TOPS/W。低功耗和低成本的结合为嵌入式硬件中的边缘AI图像识别和传感提供了机会。

GF计算和有线基础设施产品管理副总裁 Hiren Majmudar 表示:"在AI领域,模拟计算是一种很有发展前景的前沿技术,因为它允许减少数据移动,这将成为主流。“

Majmudar说:"此测试芯片向业界展示了22FDX是如何显著降低机器学习应用芯片功耗的。我们获得了与GPU相同的性能,但具有更高的能效。“

目前,新的 AiMC 功能正在德国德累斯顿Fab 1的先进300mm生产线上进行开发。

预计模拟计算AI芯片将在今年年底或明年初投入生产,并在2022年晚些时候进入大众市场,甚至可能更早。

GF使用了经过修改的SRAM单元,也可采用其他内存技术,如MRAM,闪存,DRAM等。

在低功耗AI芯片方面,Socionext开发了一个原型芯片,它结合了新开发的量化深度神经网络(DNN)技术,为小型和低功耗边缘计算设备实现了先进的AI处理能力。该原型是日本新能源和工业技术开发组织(NEDO)委托的"低功耗AI-Edge LSI技术开发"项目的一部分。

Socionext开发了一种基于"量化DNN技术"的专有架构,以减少深度学习所需的参数和激活位。结果是提高了 AI 处理的性能,同时降低了功耗。该体系结构除了传统的 8 位之外,还集成了 1 位(二进制)和 2 位(三位)的位缩减,以及该公司的原始参数压缩技术,大大减少了计算数据量。

此外,该公司还开发了一种新型的片上存储技术,可提供高效的数据传输。

这些新技术集成在原型AI芯片中,据报道,它的功耗不到5W。该公司称,这比传统的通用GPU效率高10倍。

另外一家初创AI公司Sima.ai研发了名为MLSoC的芯片,这是一个针对计算机视觉的卷积神经网络平台。该芯片原计划在2020年底流片,采用16nm制程。该公司的目标是处理每秒最高帧/瓦。

该公司称,该芯片将在5W时提供50TOPS的算力,在20W时提供200TOPS的算力。

当被问及如何与英特尔-Mobileye和Nvidia等老牌企业竞争时,Sima.ai的高层表示,降低功耗是关键,因为客户希望在能耗受限的情况下扩展其工作负载。

待解决的问题


目前,边缘AI芯片技术和市场都不成熟,处于群雄逐鹿的阶段。此时,各种规范还没成型,存在着一些问题和隐患,如系统偏差和AI伦理道德问题。

亚马逊AI和机器学习相关人士表示,即使有最好的意图,数据集中也可能存在偏差,并引入具有业务、道德和监管模型中。这意味着模型管理员必须了解系统中潜在的偏差来源。

对于简单且易于理解的算法,破解模型、检查训练期间学到的参数,以及确定它主要使用哪些功能相当容易。

然而,随着模型变得越来越复杂,这种分析变得不可能。许多公司和组织可能需要 ML 模型才能解释,然后才能在生产中使用。此外,当 ML 模型用作相应决策的一部分时,某些规则可能需要解释,而关闭循环时,可解释性也有助于检测偏差。

关键是将这些偏差监视和缓解工具集成到边缘 AI 工作流中,以便开发人员可以使用它们。

随着AI的发展,其伦理道德问题开始浮出水面,涉及到以下原则:人类自主性、可解释性、持续关注和警惕性、隐私和安全设计。

恩智浦在一份声明中表示:"作为AI领域的创新者,我们致力于应用道德原则。消费者依靠AI来承担更多责任和决策,尤其是在人们希望其设备透明、公平、安全地运行时,安全性是关键。通过将这些道德原则构建到能够感知、解释和分析边缘数据的设备中,就可以启用以合乎道德方式采取行动的AI了。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2533内容,欢迎关注。

推荐阅读


中国功率器件巨头的新野心

过桥10nm

是时候该重视DTCO了


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

中芯国际|设备|晶圆|华为|中美贸易|高通|射频|封测

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存