地平线谭洪贺:零基础看懂全球AI芯片--详解“xPU”
作者简介
谭洪贺,资深IC工程师。博士毕业于清华大学,多年一直从事于数字集成电路开发工作。从DSP、ASIP到特定加解密算法的ASIC低功耗实现,从音视频编解码的高性能设计到计算机视觉、语音识别的高效能实现,逐步进入AI领域。现任地平线机器人技术资深IC工程师,深度参与AI算法在芯片端的实现工作。
本文共11500字,旨在面向对AI芯片行业有兴趣、想快速了解相关公司和产品的读者(不限芯片工程师),系统盘点梳理全球AI芯片发展和格局,希望大家能有所收获。同时,作者意欲通过此文向所有AI芯片领域的初创公司和共同奋斗在AI芯片start-up的芯片工程师致敬,一起前行!
随着AI概念火爆全球,做AI芯片的公司也层出不穷。为了让市场和观众能记住自家的产品,各家在芯片命名方面都下了点功夫,既要独特,又要和公司产品契合,还要朗朗上口,也要容易让人记住。比较有意思的是,很多家都采用了“xPU”的命名方式。
本文就来盘点一下目前各种“xPU”命名AI芯片,以及芯片行业里的各种“xPU”缩写,供吃瓜群众消遣,也供后来者起名参考。此外,除了“xPU”命名方式,本文也扩展了一些“xxP”方式的以Processor命名的芯片或IP。此外的此外,拍脑袋拍出了一些xPU命名备选方案,用下划线标示,欢迎读者一起来开脑洞。有心在AI芯片发力的公司,赶紧先抢个字母吧。
APU
Accelerated Processing Unit。目前还没有AI公司将自己的处理器命名为APU,因为AMD早就用过APU这个名字了。APU是AMD的一个处理器品牌。AMD在一颗芯片上集成传统CPU和图形处理器GPU,这样主板上将不再需要北桥,任务可以灵活地在CPU和GPU间分配。AMD将这种异构结构称为加速处理单元,即APU。
Audio Processing Unit。声音处理器,顾名思义,处理声音数据的专用处理器。不多说,生产APU的芯片商有好多家。声卡里都有。
BPU
Brain Processing Unit。地平线机器人(Horizon Robotics)以BPU来命名自家的AI芯片。地平线是一家成立于2015年的start-up,总部在北京,目标是“嵌入式人工智能全球领导者”。地平线的芯片未来会直接应用于自己的主要产品中,包括:智能驾驶、智能生活和智能城市。地平线机器人的公司名容易让人误解,以为是做“机器人”的,其实不然。地平线做的不是“机器”的部分,是在做“人”的部分,是在做人工智能的“大脑”,所以,其处理器命名为BPU。相比于国内外其他AI芯片start-up公司,地平线的第一代BPU走的相对保守的TSMC的40nm工艺。BPU已经被地平线申请了注册商标,其他公司就别打BPU的主意了。
Biological Processing Unit。一个口号“21 世纪是生物学的世纪”忽悠了无数的有志青年跳入了生物领域的大坑。其实,这句话需要这么理解,生物学的进展会推动21世纪其他学科的发展。比如,对人脑神经系统的研究成果就会推动AI领域的发展,SNN结构就是对人脑神经元的模拟。不管怎么说,随着时间的推移,坑总会被填平的。不知道生物处理器在什么时间会有质的发展。
Bio-Recognition Processing Unit。生物特征识别现在已经不是纸上谈兵的事情了。指纹识别已经是近来智能手机的标配,电影里的黑科技虹膜识别也上了手机,声纹识别可以支付了...不过,除了指纹识别有专门的ASIC芯片外,其他生物识别还基本都是sensor加通用cpu/dsp的方案。不管怎样,这些芯片都没占用BPU或BRPU这个宝贵位置。
CPU
CPU就不多说了,也不会有AI公司将自己的处理器命名为CPU的。不过,CPU与AI处理器并不冲突。
首先,很多公司的AI处理器中还是会使用CPU做控制调度。比如,wave computing用的是Andes的CPU core;Mobileye用了好几个MIPS的CPU core;国内的某些AI芯片公司用的ARM的CPU core。
此外,在现有的移动市场的AP中,在CPU之外,再集成一两个AI加速器IP(例如针对视觉应用的DSP,见VPU部分)也是一种趋势。例如,华为近期就在为其集成了AI加速器的麒麟970做宣传。
另外一种趋势,做高性能计算CPU的公司也不甘错过AI的浪潮。例如,
Adapteva 一家做多核MIMD结构处理器的公司。2016年tapeout的Epiphany V集成有1024个核。相对以前的版本,针对deep learning和加密增加了特定指令。
kalrayinc 一家做多核并行处理器的公司,有针对数据中心和自动驾驶的解决方案。最近公布了第三代MPPA处理器“Coolidge”的计划,并融资$26 Million。计划采用16nm FinFET工艺,集成80-160个kalray 64-bit core,以及80-160个用于机器视觉处理和深度学习计算的协处理器。
DPU
D是Deep Learning的首字母,以Deep Learning开头来命名AI芯片是一种很自然的思路。
Deep-Learning Processing Unit。深度学习处理器。DPU并不是哪家公司的专属术语。在学术圈,Deep Learning Processing Unit(或processor)被经常提及。例如ISSCC 2017新增的一个session的主题就是Deep Learning Processor。以DPU为目标的公司如下。
Deephi Tech(深鉴)。深鉴是一家位于北京的start-up,初创团队有很深的清华背景。深鉴将其开发的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,分别针对CNN以及DNN/RNN。虽然深鉴号称是做基于FPGA的处理器开发,但是从公开渠道可以看到的招聘信息以及非公开的业内交流来看,其做芯片已成事实。
TensTorrent。一家位于Toronto的start-up,研发专为深度学习和智能硬件而设计的高性能处理器,技术人员来自NVDIA和AMD。
Deep Learning Unit。深度学习单元。Fujitsu(富士通)最近高调宣布了自家的AI芯片,命名为DLU。名字虽然没什么创意,但是可以看到DLU已经被富士通标了“TM”,虽然TM也没啥用。在其公布的信息里可以看到,DLU的ISA是重新设计的,DLU的架构中包含众多小的DPU(Deep Learning Processing Unit)和几个大的master core(控制多个DPU和memory访问)。每个DPU中又包含了16个DPE(Deep-Learning Processing Element),共128个执行单元来执行SIMD指令。富士通预计2018财年内推出DLU。
Deep Learning Accelerator。深度学习加速器。NVIDA宣布将这个DLA开源,给业界带来了不小的波澜。大家都在猜测开源DLA会给其他AI公司带来什么。参考这篇吧-"从Nvidia开源深度学习加速器说起"
Dataflow Processing Unit。数据流处理器。创立于2010年的wave computing公司将其开发的深度学习加速处理器称为Dataflow Processing Unit(DPU),应用于数据中心。Wave的DPU内集成1024个cluster。每个Cluster对应一个独立的全定制版图,每个Cluster内包含8个算术单元和16个PE。其中,PE用异步逻辑设计实现,没有时钟信号,由数据流驱动,这就是其称为Dataflow Processor的缘由。使用TSMC 16nm FinFET工艺,DPU die面积大概400mm^2,内部单口sram至少24MB,功耗约为200W,等效频率可达10GHz,性能可达181TOPS。
Data-storage Processing Unit。数据存储处理器。深圳大普微电子开发固态硬盘SSD主控芯片。SSD的主控也是一个很大的市场,国内在这个方向上奋斗的公司不少。
Digital Signal Processor。数字信号处理器。芯片行业的人对DSP都不陌生,设计DSP的公司也很多,TI,Qualcomm,CEVA,Tensilica,ADI,Freescale等等,都是大公司,此处不多做介绍。相比于CPU,DSP通过增加指令并行度来提高数字计算的性能,如SIMD、VLIW、SuperScalar等技术。面对AI领域新的计算方式(例如CNN、DNN等)的挑战,DSP公司也在马不停蹄地改造自己的DSP,推出支持神经网络计算的芯片系列。在后面VPU的部分,会介绍一下针对Vision应用的DSP。和CPU一样,DSP的技术很长时间以来都掌握在外国公司手里,国内也不乏兢兢业业在这方向努力的科研院所,如清华大学微电子所的Lily DSP(VLIW架构,有独立的编译器),以及国防科大的YHFT-QDSP和矩阵2000。但是,也有臭名昭著的“汉芯”。
EPU
Emotion Processing Unit。Emoshape 并不是这两年才推出EPU的,号称是全球首款情绪合成(emotion synthesis)引擎,可以让机器人具有情绪。但是,从官方渠道消息看,EPU本身并不复杂,也不需要做任务量巨大的神经网络计算,是基于MCU的芯片。结合应用API以及云端的增强学习算法,EPU可以让机器能够在情绪上了解它们所读或所看的内容。结合自然语言生成(NLG)及WaveNet技术,可以让机器个性化的表达各种情绪。例如,一部能够朗读的Kindle,其语音将根据所读的内容充满不同的情绪状态。
FPU
先说一个最常用的FPU缩写:Floating Point Unit。浮点单元,不多做解释了。现在高性能的CPU、DSP、GPU内都集成了FPU做浮点运算。
Force Processing Unit。原力处理器,助你成为绝地武士。酷!
GPU
Graphics Processing Unit。图形处理器。GPU原来最大的需求来自PC市场上各类游戏对图形处理的需求。但是随着移动设备的升级,在移动端也逐渐发展起来。
NVIDIA。说起GPU,毫无疑问现在的老大是NVIDIA。这家成立于1993年的芯片公司一直致力于设计各种GPU:针对个人和游戏玩家的GeForce系列,针对专业工作站的Quadro系列,以及针对服务器和高性能运算的Tesla系列。随着AI的发展,NVIDIA在AI应用方面不断发力,推出了针对自动驾驶的DRIVE系列,以及专为AI打造的VOLTA架构。特别提一下VOLTA,今年5月份,NVIDIA发布的Tesla V100采用TSMC 12nm工艺,面积竟然815mm^2,号称相关研发费用高达30亿美元。得益于在AI领域的一家独大,NVIFIA的股价在过去一年的时间里狂涨了300%。最后,也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。
AMD。这几年NVIDIA的火爆,都快让大家忘了AMD的存在了。AMD是芯片行业中非常古老的一家芯片公司,成立于1969年,比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司(暴露年龄地说,本人的第一台PC的显卡就是ATI的)。本文第一个词条APU就是AMD家的产品。AMD新出的MI系列GPU将目标对准AI。
在移动端市场,GPU被三家公司瓜分,但是也阻止不了新的竞争者杀入。
ARM家的Mali。Mali不是ARM的自创GPU品牌,来自于ARM于2006年收购的Falanx公司。Falanx最初的GPU是面向PC市场的,但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向移动市场;并且Falanx最初的GPU的名字也不是Mali,而是Maliak,为了好记,改为Mali,来自罗马尼亚文,意思是small,而不是我们熟悉的吃蘑菇救公主的超级玛丽(SuperMALI)。
Imagination的PowerVR。主要客户是苹果,所以主要精力都在支持苹果,对其他客户的支持不足。但是,苹果突然宣布放弃PVR转为自研,对Imagination打击不小,股价大跌六成。Imagination现在正在寻求整体出售,土财快追,但是,美国未必批。
Qualcomm的Adreno。技术来自于AMD收购ATI后出售的移动GPU品牌Imageon。有意思的是,名字改自于ATI的知名GPU品牌Radeon;
VeriSilicon的Vivante。Vivante(图芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司,于2015年被VSI收购。Vivante的市场占有率较低。这里多加一段小八卦,Vivante的创始人叫戴伟进,VSI的创始人叫戴伟民,一句话对这次收购进行总结就是,戴家老大收购了戴家老二。哦,对了,戴家还有一个三妹戴伟立,创立的公司名号更响亮:Marvell。
Samsung的。。。哦,三星没有自己的GPU。作为一个IDM巨头,对于没有自家的GPU,三星一直耿耿于怀。三星也宣布要研发自家的移动端GPU芯片,不过要等到2020年了。
再简单补充国内的两家开发GPU的公司:
上海兆芯。兆芯是VIA(威盛)分离出来的。兆芯于2016年针对移动端出了一款GPU芯片ZX-2000,名字有点简单直接。主要技术来源于威盛授权,GPU核心技术来自收购的美国S3 Graphics。
长沙景嘉微电子。于2014年推出一款GPU芯片JM5400。这是一家有国防科大背景的公司,与龙芯为合作伙伴,芯片主要应用在军用飞机和神舟飞船上。
Graph Streaming Processor。图形流处理器。这是ThinCI(取意think-eye)提出的缩写。ThinCI是一家致力于打造deep learning和computer vision芯片的start-up,由4名Intel前员工创立于2010年,总部在Sacramento,在印度也有研发人员。ThinCI的视觉芯片瞄准了自动驾驶应用,投资方有世界顶级汽车零部件供应商公司日本电装DENSO。在刚结束的hotchip会议上,ThinCI介绍了他们的GSP(于是本文作者将ThinCI从VPU部分移到了这里),使用了多种结构性技术来实现任务级、线程级、数据级和指令级的并行。GSP使用TSMC 28nm HPC+工艺,功耗预计2.5W。
HPU
Holographic Processing Unit。全息处理器。Microsoft专为自家Hololens应用开发的。第一代HPU采用28nm HPC工艺,使用了24个Tensilica DSP并进行了定制化扩展。HPU支持5路cameras、1路深度传感器(Depth sensor)和1路动作传感器(Motion Sensor)。Microsoft 在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2将搭载一颗支持DNN的协处理器,专门用于在本地运行各种深度学习。指的一提的是,HPU是一款为特定应用所打造的芯片,这个做产品的思路可以学习。据说Microsoft评测过Movidius(见VPU部分)的芯片,但是觉得无法满足算法对性能、功耗和延迟的要求,所有才有了HPU。
IPU
Intelligence Processing Unit。智能处理器。以IPU命名芯片的有两家公司。
Graphcore。Graphcore公司的IPU是专门针对graph的计算而打造的。稍微说说Graph,Graphcore认为Graph是知识模型及相应算法的非常自然的表示,所以将Graph作为机器智能的基础表示方法,既适用于神经网络,也适用于贝叶斯网络和马尔科夫场,以及未来可能出现的新的模型和算法。Graphcore的IPU一直比较神秘,直到近期才有一些细节的信息发布。比如:16nm,同构多核(>1000)架构,同时支持training和inference,使用大量片上sram,性能优于Volta GPU和TPU2,预计2017年底会有产品发布,等等。多八卦一点,Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。关于IPU更细节的描述,可以看唐博士的微信公号的一篇文章,传输门:解密又一个xPU:Graphcore的IPU。
Mythic。另外一家刚融了$9.3 million的start-up公司Mythic也提到了IPU:“Mythic's intelligence processing unit (IPU) adds best-in-class intelligence to any device”。和现在流行的数字电路平台方案相比,Mythic号称可以将功耗降到1/50。之所以这么有信心,是因为他们使用的“processing in memory”结构。关于Processing in Memory,又可以大写一篇了,这里就不扩展了。有兴趣的,可以google一下“UCSB 谢源”,从他的研究开始了解。
Image Cognition Processor。图像认知处理器ICP,加拿大公司CogniVue开发的用于视觉处理和图像认知的IP。跑个题,CogniVue一开始是Freescale的IP供应商,后来于2015年被Freescale收购以进一步加强ADAS芯片的整合开发;随后,Freescale又被NXP 118亿美元拿下;还没完,高通近400亿美元吞并了NXP。 现在NXP家的ADAS SOC芯片S32V系列中,就用到了两个ICP IP。
Image Processing Unit。图像处理器。一些SOC芯片中将处理静态图像的模块称为IPU。但是,IPU不是一个常用的缩写,更常见的处理图像信号的处理器的缩写为下面的ISP。
Image Signal Processor 。图像信号处理器。这个话题也不是一个小话题。ISP的功能,简单的来说就是处理camera等摄像设备的输出信号,实现降噪、Demosaicing、HDR、色彩管理等功能。以前是各种数码相机、单反相机中的标配。Canon、Nikon、Sony等等,你能想到的出数码相机的公司几乎都有自己的ISP。进入手机摄影时代,人们对摄影摄像的要求也越来越高,ISP必不可少。说回AI领域,camera采集图像数据,也要先经过ISP进行处理之后,再由视觉算法(运行在CPU、GPU或ASIC加速器上的)进行分析、识别、分类、追踪等进一步处理。也许,随着AI技术发展,ISP的一些操作会直接被end-2-end的视觉算法统一。
JPU
请原谅鄙人的词汇量,没什么新奇的想法。。。。
KPU
Knowledge Processing Unit。 嘉楠耘智(canaan)号称2017年将发布自己的AI芯片KPU。嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器,主要提供异构、实时、离线的人工智能应用服务。这又是一家向AI领域扩张的不差钱的矿机公司。作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计获得近3亿元融资,估值近33亿人民币。据说嘉楠耘智近期将启动股改并推进IPO。
另:Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的,早在10年前就已经有论文和书籍讲到这个词汇了。只是,现在嘉楠耘智将KPU申请了注册商标。
LPU
谁给我点灵感?
MPU
Micro Processing Unit。微处理器。MPU,CPU,MCU,这三个概念差不多,知道就行了。
Mind Processing Unit。意念处理器,听起来不错。“解读脑电波”,“意念交流”,永恒的科幻话题。如果采集大量人类“思考”的脑电波数据,通过深度学习,再加上强大的意念处理器MPU,不知道能否成为mind-reader。如果道德伦理上无法接受,先了解一下家里宠物猫宠物狗的“想法”也是可以的吗。再进一步,从mind-reader发展为mind-writer,持续升级之后,是不是就可以成为冰与火中的Skinchanger?
Mobile Processing Unit。移动处理器,似乎没什么意思。
Motion Processing Unit。运动处理器。解析人类、动物的肌肉运动?
题外话:并不是所有的xPU都是处理器,比如有个MPU,是Memory Protection Unit的缩写,是内存保护单元,是ARM核中配备的具有内存区域保护功能的模块。
转自:HorizonRobotics