【兴业计算机】AI芯片深度:AI芯片助中国“芯”弯道超车,由浅入 “深”度学习
战略级政策频吹春风,中国“芯”有望借AI芯片弯道超车。我国传统芯片产业长期落后美日韩等发达国家,尽管占有9成以上PC和智能手机的制造量,但芯片自给率仅10%左右。而产业向AI芯片的升级带来了绝佳机会,寒武纪、海思等优势企业有望推动中国“芯”实现弯道超车。近年国家战略级政策对AI芯片相关产业频吹春风,国内终端市场大,国产AI芯片有望借国产化趋势与智能手机、安防摄像头等终端率先形成放量。
深度学习要求极高的并行计算能力,大数据、算力、训练方法等领域的突破使AI芯片作为上游产业率先爆发。人工神经网络通过训练与预测的过程实现应用,对并行计算能力要求高,训练偏好高性能,预测对简单指令重复计算和及时性要求高。随着大数据存取、算力以及深度学习训练方法等方面的瓶颈被突破,芯片作为AI领域的上游成为了率先爆发的产业。
CPU 难以满足并行计算要求,AI芯片站上舞台。CPU的串行结构难以应对AI计算在简单指令下的并行算力要求,AI芯片应运而生。其中,GPU因其易编程性和良好的并行计算能力最早最广泛被应用于AI计算。
AI芯片各有千秋,非冯架构下的非类脑芯片占据上风,GPU仍是主流,FPGA和ASIC增速较快。按照是否为冯诺依曼架构及是否为类脑芯片可对市场中用于AI计算的芯片进行分类:冯诺依曼架构下均是非类脑芯片,主要包括传统的CPU和GPU;非冯架构下包括类脑与非类脑芯片,其中非类脑芯片包含ASIC(寒武纪、谷歌TPU等)、FPGA和部分新GPU(Nvidia的Tesla系列等),类脑芯片包括IBM的TrueNorth等。在主要的AI芯片中,GPU峰值性能高、通用性好,但功耗大,适用于数据中心和训练过程;FPGA效率高、灵活性好,但峰值性能弱、成本高,适用虚拟化云平台和预测过程;ASIC效率高、功耗比佳,但量产前成本高,适用智能终端和AI平台;类脑芯片能耗低、感知力强,但缺乏训练、精度低。
英伟达新推Volta架构,GPU有望保持领导地位,Intel加码CPU+FPGA,而以寒武纪为代表的ASIC厂商在终端的落地前景更为广阔。英伟达Volta架构提升了GPU预测效率,Intel不断推进CPU+FPGA架构,未来或呈现GPU发展高端复杂算法、高性能计算和数据中心;ASIC发展智能终端、AI平台与算法IP化;FPGA应用于变化较快的行业应用和虚拟化云平台这样的格局,其中注重终端寒武纪等ASIC的落地前景更为广阔。
推荐标的:软件SoC:中科创达;芯片制造:富瀚微;服务器:中科曙光、浪潮信息。
风险提示:ASIC研发进度不及预期、终端落地反馈不佳
一.AI芯片迎政策春风,中国“芯”突破可期
1.1、芯片产业具备战略性、先导性和基础性,中国“芯”奋起直追
发达国家的ICT产业建立在强势的芯片基础之上。芯片产业是一国工业的支柱之一,其下游的ICT产业在美、日、韩等发达国家中的地位尤为重要。我们耳熟能详的诸多公司,如美国的谷歌、IBM、Intel、微软、Apple、AT&T、英伟达,韩国的三星,日本的Sony、东芝等都属于ICT领域,每年能贡献超百亿美元的利润。这些公司或是自身的产品或是上游均是芯片行业,本国芯片产业的强势不仅让这些公司站稳了脚跟,对其国内人工智能、信息安全、网络建设等诸多领域的推动作用更是不言而喻。
IC产业是国家战略性、先导性、基础性行业,对信息安全、“互联网+”建设和人工智能等战略的发展必不可少。芯片是ICT产业的底层硬件,没有芯片的国产化,就更不用说建立于其之上的ICT产业,对我国 “互联网+”建设和人工智能战略等新一代信息技术发展乃至国家信息安全造成了巨大影响。中国虽然是世界的制造工厂,是全球个人计算机、手机、家电以及其他多种电子设备的第一大制造国,全球约有90%的个人笔记本电脑及智能手机和大量的电子设备在中国制造,但我国的芯片自给率仍在10%左右,与我国的终端制造规模、发展速度相当不匹配,芯片产业的弱势制约了国内电子信息产品的竞争力,压缩了行业利润。所以国家无论从科技战略发展的角度还是从国内实体经济的角度考虑,都必不可少要重点发展芯片产业。国家在2014年发布的《国家集成电路产业发展推进纲要》中将集成电路产业视为国家战略性、基础性、先导性行业发展。
海思等企业逐渐崛起,中国“芯”在不断追赶。近几年,尽管全球芯片产业仍由Intel、高通、英伟达等巨头把持,我国芯片产业仍呈现出蓬勃的发展力,近三年行业销售额复合增长率超20%。2009年全球纯芯片设计公司50强中,中国第一家闯入世界50强的是华为旗下的海思公司,而2014年这个数目达到了9家,2016年增长到了11家,分别是海思、紫光展讯,紫光锐迪科、中兴、大唐、南瑞、华大、ISSI、瑞芯微、全志和澜起科技。此外,虽然2016年全球前20大半导体公司中没有中国企业的身影,但是其门槛44.55亿美元与海思2016年的收入基本相当,而表中的不少公司营收增速非常缓慢,尤其是排名居后的4家增速基本在0%附近,明年海思有望进入全球前20强。
1.2、AI芯片形成突破,战略级政策频吹春风,助力弯道超车
ASIC摆脱传统包袱突破桎梏。2016年6月,中星微发布国内首款嵌入式NPU(神经网络处理器)芯片,并应用于全球首款嵌入式视频处理芯片“星光智能一号”。同样在2016年,今年成为全球人工智能芯片领域唯一独角兽公司的“寒武纪”发布了“DIANNAO”系列的首个型号,至今已有三代,其背后的机理和指令集更是被同行广泛引用。公司也成为全球第一个成功流片并拥有成熟产品的AI芯片公司,而随着华为麒麟970装配上了其1A型号的芯片,寒武纪芯片在智能终端的商用已在迅速推进。这样的突破在国内传统的集成电路行业是难以想象的。
ASIC芯片存在竞争空间,国内应用市场较大,有望以点及面助力AI芯片弯道超车。如果说在芯片产业上ARM对X86架构的反击制衡成就于移动终端的兴起,那么AI浪潮之下,AI芯片尤其是专用于深度学弟的ASIC,用以点及面的方式实现跨越式发展,未尝不是一个弯道超车的好机会。我们可以看到,竞争空间上,传统的CPU领域有Intel、高通,GPU领域有英伟达,FPGA中有Xilinx和Altera,唯有与人工智能计算最为定制化结合的ASIC领域尚未有绝对的垄断性龙头;应用场景上,ASIC适用于终端设备,而中国国内安防空间巨大,国产智能手机出货量也占据了全球近半壁江山,新零售产业的发展也位居全球前列,潜在的市场十分巨大。
政策频频吹春风,中国“芯”有望大步向前。近几年国家对人工智能和人工智能芯片产业给予了战略层面的关注,从2014年发布《国家集成电路产业发展推进纲要》将IC产业视为国家战略性、基础性、先导性行业发展,包括《中国制造2025》、《“互联网+”指导意见》、《“十三五”规划》等多份国家级战略文件中都特别提出了人工智能芯片、类脑计算的发展方向。其中,《中国制造2025》提出2020年中国芯片自给率要达到40%,2025年要达到50%;2017年7月发布的《新一代人工智能发展规划》更要求人工智能核心产业到2030年达到1万亿,带动相关产业规模超过10万亿。政策对IC产业提出高要求的同时也表明了国家的重视度,人工智能和芯片行业同时作为国家级战略的,AI芯片产业有望引领中国“芯”大步向前。
1.3、终端引领ASIC芯片落地浪潮,国产化趋势或带来发展良机
豪强纷纷出手,智能手机、可穿戴设备、安防前端等均可能成为ASIC芯片落地放量的先行地。AI芯片尤其是ASIC芯片由于其低功耗高效率的特点特别适用于功耗较低,空间较小的智能手机、智能安防摄像头、智能家居、无人机等智能终端,这些领域可能成为ASIC芯片率先放量之处。手机端对于及时性的高要求让移动端AI芯片成为必需品,近期华为发布了搭载寒武纪芯片的麒麟970,苹果发布内置神经网络引擎的A11 Bionic,对移动端AI芯片产业起到推波助澜的作用。智能技术在安防行业的应用也非常广泛,目前安防行业倾向于使用前端智能摄像头与后端处理平台结合的方式提高分析效率,如海康的摄像机就配备了Movidius开发的视觉处理器和英伟达Jetson芯片。
国产化趋势或带来发展良机。国产化趋势下,安防、智慧城市等由政府推动的敏感性行业的采购清单倾向于国产商品,智能芯片作为底层核心硬件将会受到特别关注。国内芯片产业已有多个企业跻身全球前50强,寒武纪、地平线机器人等企业的AI芯片研发能力全球领先,华为、紫光等企业在芯片行业的体量也十分巨大。随着国内优势企业的发展,以及国家对芯片自给率政策要求的推动下,芯片逐步国产化将为国内企业带来发展良机。AI芯片作为实现人工智能领域的重中之重,其国内的市场前景十分广阔。
在此AI芯片站上风口之际,我们试图从算法和需求层面,由浅入深为各位梳理神经网络与深度学习的算法和应用发展对芯片的各方位要求,并从AI芯片的优缺点对比、应用场景和未来路线角度,与各位一同探寻行业的业态和未来的发展。
二.大数据与深度学习推动AI芯片进化
2.1、人工神经网络与深度学习简介及其对算力的要求
人工神经网络的算力要求在于并行计算和矩阵计算能力,以及简单指令下的重复计算。人工神经网络是人工智能和机器学习领域关注度很高的模型,其源于对人脑神经网络的抽象近似模拟,是由大量简单处理节点(神经元)相互联结构成的运算模型。人工神经网络算法目的是在网络的输入和输出之间建立某种映射关系,常用于分类和预测。结构上,前馈型人工神经网络分为输入层、隐藏层和输出层,每一层都可以有多个神经元,与后一层的神经元相互连接, 连接的强度称为权值。图1就是一个包含2层隐藏层的人工神经网络,输入层包含6个节点,输入6个初始值后,网络经过两个隐藏计算层的计算得出1个输出值。
当输入初始值时,层与层之间的信息传递通过权值矩阵与各节点输出的加权求和计算实现的。最后的输出值则受到两个因素的影响,一个是之前加权计算出的值(激励值);另一个则是激励函数,也可以理解为一个判断函数,代入激励值会产出一个值,代表着某种现实判断。可以看到,神经网络向前传递的整个过程对于并行计算和矩阵计算的能力要求较高,尤其当层数增加时,计算量的放大是非常明显的。但同时,这个流程在指令上却非常的简单,只需要重复“输入—输出”这个过程即可。
神经网络通过训练和预测过程实现应用。事实上,我们很早就已经接触过简单的机器学习方法了,比如常用的线性回归拟合。我们通过样本期的数据回归得出一个线性方程,并将新的自变量值放入方程从而产生未来的预测值。神经网络其实也是通过类似的训练和预测过程实现应用的,但是线性拟合通过最小化离差平方和获得一个矩阵方程的解,并得出一条直线;神经网络(尤其是深度神经网络)则通过每一层的权重调整几乎可以实现任何形式的函数拟合,在数据量和计算上的要求都是天文数字级别的差异。
训练环节对性能要求高,预测环节对简单指令重复计算和低延迟度要求高。用一个具体例子进行演示,我们的目标是让神经网络能够自动判断一张黑白图片上是否显示了6这个数字。首先,我们输入的数据为图中像素点是否为黑,黑则为1,白则为0。一系列的0与1经过层层加权和计算到达输出层,将得到的激励值代入到激励值函数中,如果认为图像是6(比如激励值超过1)则输出1,反之为0,。当输出结果不满足我们预期的时候,算法就会对网络神经元之间的权重进行调整,从而更好地贴近真实情况(比如,让真实图像为6的网络输出趋近于1)。
反复进行这样的反馈调整过程数万次后(通常需要输入各种各样的数字“6”),我们发现网络的权重基本稳定了,认为网络能够对各种形态的数字“6”形成判断。此后,我们再将需要判断的图片流水输入,网络不再需要反馈和调整,而是不断重复向前传递输出0或1的判断过程,实现图像识别。这样就完成了一个简单的学习到推测的过程。可以发现训练环节不仅需要向前传递,还需要根据结果对权重进行调整,对性能要求较高;预测判断阶段,权重确定,过程更多是简单的计算到输出,对于效率的要求更高。
深度学习需要提取学习更复杂的特征,对数据量和并行计算能力的需求指数级上升。深度学习通常是训练含有多个隐藏层的人工神经网络,丰富的层次结构算法具有更优异的特征学习能力,可以学习更复杂的内容,学习得到的特征对数据有更本质的刻画。以一幅油画的识别分类为例,当隐藏层为1层时,我们能掌握的可能是像素点的颜色分布信息(比如在某些地方组成某些线条、块状、明暗等);而加上1层隐藏层后,我们可以获得这些线条和明暗组合的一些特征,随着层数的加深,油画中的物体、布局甚至是画派风格的特征都可以进行表示。通过输入大量鲁本斯在17世纪初期创作的巴洛克风格油画进行训练,网络最终可以对某一幅油画是否是鲁本斯在17世纪初期所作的巴洛克风格油画做出判断。
现实应用场景动态且复杂,在算力方面根据应用场景和过程的区别,对实时性、响应速度、准确率提出了更高要求。现实场景的应用比静态图像识别复杂许多,比如开发出AlphaGo的人工智能公司DeepMind公开了训练中的会“漂移”的机器人,可以自行收集复杂多变的环境信息,学习人类的运动行为从而实现障碍跑、跳舞等行为。Amazon Go通过传感器与视频监控获得线下消费者的身份和购买动作,实现用户动作行为识别和人脸识别,相匹配后产生海量有价值的消费者行为信息。因此,按照训练、预测的过程以及应用场景的不同,AI计算对于底层算力的要求也是不同的,提供算力的处理器也因此在功耗、效率和可编辑性等多方面走出了不同的道路。
2.2、大数据、场景和算力需求相互促进,推动上游的AI芯片发展
大数据获取能力、算力和对多层次神经网络的训练方法的不足,使得深度学习应用的繁荣延迟至今。其实人工智能以及深度学习的很多基础算法在20世纪60年代就已经比较成熟了,包括现在被广泛应用的反向传播算法(BP)在80年代就已经达到了算法的繁荣期,之所以在当初没有像现在这样站上风口,一方面源于当时算力不足、用于训练的数据量不够以及训练方法的缺失,另一方面也因为AI在当时有一定的应用,但迫切性和现在还无法比拟。
算力方面,即使是2000年Intel推出的第一款Pentium 4 CPU芯片,也只是主频1.3-1.4GHZ的单核处理器,集成了4200万个晶体管,而现在很多CPU主频已经超过了4GHz,普遍为四核、八核,晶体管数量达到几十亿的水平,更不用说Nvidia最新发布的GPU系列,集成的晶体管数量已经超过200亿个。
训练方法方面,2006年,机器学习领域泰斗Geoffrey Hinton在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章提出,通过无监督学习实现“逐层初始化”来训练多层次的神经网络,可以克服深度神经网络在训练上的困难。
数据方面,深度学习往往一项训练任务就需要数亿级别的样本,以往数据收集终端和场景缺失,缺少易于处理的结构化数据,使得数据样本非常稀缺,达不到有效的训练目的,而现在智能手机、可穿戴设备、智能汽车等智能终端的快速发展使得数据易于存储和提取。
场景方面,人工智能早期应用和生活场景的结合比较少,比较成功的应用包括搜索广告系统(比如Google的AdWords)、网页搜索排序(例如Yahoo!和微软的搜索引擎)、垃圾邮件过滤系统、部分语音机器人等。而在如今,智能无处不在,场景的纵深相比之前有了很大扩充,一方面源于产品和场景的丰富、人类需求的升级提供了智能应用的场景,另一方面也源于生产效率已经走向一个瓶颈,依靠人力成本投入等方式增加产出的方式越来越不效率,倒逼生产力向智能化改造。
因此,从场景引发需求,智能终端的普及构建了大数据的环境,技术的进步提供了算力的可能,而算法难点的攻克打通了理论到应用的通道,四者相互增强,引导AI产业的上游——芯片产业快速发展。
三.AI计算芯片—前世今生
3.1、CPU难堪大任,AI芯片站上舞台
CPU的串行结构适合复杂指令,但难以应对AI计算的简单指令下并行算力的要求。CPU通常包括控制器(Control),存储器(Cache、DRAM)和运算器(ALU),因为CPU内部大部分的晶体管用来构建存储器和控制器,其计算能力其实受到了很大制约。另外,无论是PC领域使用的X86架构还是在移动端覆盖率最大的ARM架构,均是通过串行的方式执行指令,一般过程为从存储器中提取指令,进行解码,并利用运算器执行指令,逻辑遵从顺序结构,适应复杂逻辑。
CPU类似流水线,而AI技术更需要割麦机,前者适合复杂指令,后者适合大量数据并行处理。CPU处理数据的过程类似于工厂的流水线操作,流水线可以对单线程上每个产品做出不同处理,通用性强,适合处理复杂指令,擅长逻辑控制。但是前文提到的神经网络算法则是发出简单指令,而要求快速高效的并行计算能力,需要的数据处理过程更类似与割麦机收割麦子。我们可以想象如果使用流水线收割小麦并处理将会浪费多少的时间,因此使用CPU进行深度学习的效率比较低。此外,CPU主频速度受到功耗的影响提升空间有限,架构设计更新的周期也较长,无论从性能还是匹配度方面都不能满足AI计算的算力要求。在这种环境下,并行计算能力更强、适应于AI计算的AI芯片应运而生。
3.2、AI芯片的业态简述和对比
用于AI计算的芯片按照是否为冯诺依曼架构以及是否为类脑芯片,可以分成多个类别。其中传统的CPU和GPU均属于冯诺依曼架构下的非类脑芯片,而ASIC、FPGA和部分新一代GPU(如Nvidia的Tesla系列)则属于非冯架构下的非类脑芯片。类脑芯片与非类脑芯片的差异在于其不只是从功能上去模仿大脑而是从神经拟态架构层面去拟合大脑,如IBM的相变神经元架构就包括输入端、神经薄膜、信号发生器与输出端四个层面,与传统芯片设计理念差距较大。
GPU因良好的矩阵计算能力和并行计算优势最早被用于AI计算,在数据中心中获得大量应用。GPU最早作为深度学习算法的芯片被引入人工智能领域,因其良好的浮点计算能力适用于矩阵计算,且相比CPU具有明显的数据吞吐量和并行计算优势。2011年谷歌大脑率先应用GPU芯片,当时12颗英伟达的GPU可以提供约等于2000颗CPU的深度学习性能,展示了其惊人的运算能力。目前GPU已经成为人工智能领域最普遍最成熟的智能芯片,应用于数据中心加速和部分智能终端领域,在深度学习的训练阶段其性能更是无所匹敌。
FPGA因其在灵活性和效率上的优势,适用于虚拟化云平台和预测阶段,在2015年后异军突起。2015年Intel收购FPGA市场第二大企业Altera,开始了FPGA在人工智能领域的应用热潮。因为FPGA灵活性较好、处理简单指令重复计算比较强,用在云计算架构形成CPU+FPGA的混合异构中相比GPU更加的低功效和高性能,适用于高密度计算,在深度学习的预测阶段有着更高的效率和更低的成本,使得全球科技巨头纷纷布局云端FPGA生态。国外包括亚马逊、微软都推出了基于FPGA的云计算服务,而国内包括腾讯云、阿里云均在2017年推出了基于FPGA的服务,百度大脑也使用了FPGA芯片。
ASIC芯片因其比FPGA芯片具备更低的能耗与更高的计算效率,适用于人工智能平台和智能终端领域的特性,一直是AI芯片研发领域的焦点。但是ASIC研发周期较长、商业应用风险较大等不足也使得只有大企业或背靠大企业的团队愿意投入到它的完整开发中。其中最为出名的是Google在2016年开发的张量处理单元,即TPU芯片。在2017年最新版的AlphaGo物理处理器中就有4个TPU,同时TPU也支持着Google的Cloud TPU平台和基于此的机器学习超级计算机。此外,近期由国内企业寒武纪开发的 “DIANNAO”系列芯片受到广泛关注。华为新发的麒麟970处理器所搭载的NPU就是2016年寒武纪发布的1A处理器(Cambricon-1A Processor)。
类大脑芯片则在架构上直接通过模仿大脑结构进行神经拟态计算,完全开辟了另一条实现人工智能的道路,而不是作为人工神经网络或深度学习的加速器存在。类脑芯片可以将内存、CPU和通信部件完全集成在一起,实现极高的通信效率和极低的能耗。目前该类芯片还只是小规模研究与应用,低能耗的优势也带来预测精度不高等问题,没有高效的学习算法支持使得类脑芯片的进化较慢,还不能真正实现商用。目前这方面的代表是IBM的“TrueNorth”芯片。
总结来说,基于深度学习的应用过程,AI芯片可以分为适合训练使用(GPU)和适合预测使用(FPGA,ASIC);基于最终应用场景,则可以分为数据中心应用和广义终端应用。目前有的大部分现芯片都用于了深度学习的训练阶段,而随着终端的普及以及模型训练的不断完善,预测部分的计算占比将大幅提升。
四.GPU、FPGA、ASIC与类脑芯片的优缺点与应用场景
4.1、GPU性能高、功耗大、通用性好,适用于数据中心和训练过程
GPU是图形处理器的英文简称,是用于进行图像运算工作的微处理器,可以对图形数据、显示、可视计算等作出优化加速,现在被用于通用计算的GPU也被称作GPGPU。因为图形的结构像素点之间是独立的,图像以矩阵形式存储数据,所以GPU的设计之初就基于大吞吐量和并行计算,有80%的晶体管用作计算单元(CPU只有20%左右),具有很强的浮点运算能力和超长的流水线处理。这一特点非常适合AI计算对芯片进行大量重复运算的速度要求,故被广泛引入深度学习的训练应用领域。
GPU的主要优点:
1. 具备成熟易用的编程语言。GPU经过十几年的发展,在2006年已经实现了直接程序编写。目前有CUDA统一架构、OpenCL架构等编程环境,编程性大大提升。可以对CPU+GPU等异构进行统一编译,通过C语言也可以进行调用,为后续的发展打下基础。
2. 性能强悍,峰值计算能力强。GPU基于SMID架构,并行计算处理大规模数据,其峰值计算能力是所有芯片中最强的,处理速度可达同期CPU的10倍以上。
3. GPU应用时间早,现有产品比较成熟,价格不高。GPU是最早引入人工智能领域的芯片,近几年几乎包揽了各种初步的应用场景,所以成熟的产品和解决方案较多,价格也比较合理。
GPU的主要缺点:
1. 在深度学习推测阶段不具优势,平均性能不如专门的AI芯片。由于推测阶段为多指令流单数据流计算,传统GPU受限于冯诺依曼结构,并行度优势无法完全发挥,非专门为AI计算研发的GPU平均性能较FPGA和ASIC也偏低。
2. 总体功耗水平较高。正常情况下GPU的功耗相比定制化程度较高的芯片功耗水平较大,即便是运行在Volta架构下最新的英伟达Tesla系列GPU,相比完全定制的ASIC,在实现相同计算性能时需要的功耗也较高。
3. 硬件结构不具备可编辑性。GPU的硬件结构是提前设定好的,无法临时编辑,不够灵活,在选择通用性的同时放弃了定制化的优势。
GPU适合应用于深度学习训练和数据中心。基于强大的峰值计算能力和数据并行处理能力,GPU非常适合用于深度学习的训练阶段,形成复杂的神经网络模型。同时,GPU能够作为企业大型数据中心的加速器,数据中心依赖大量互连的通用计算节点,在性能方面难以驱动重要的高性能计算 (HPC) 和超大规模工作负载。GPU能打造出速度极快的计算节点,性能高于数百个速度较慢的通用计算节点,大幅提高数据中心的计算性能和数据吞吐量。
目前功耗是GPU发展最大的瓶颈。由于传统GPU与CPU一样使用冯诺依曼结构,需要与内存之间实现信息交换,不可避免得增大了功耗,降低了通信速度,因此相比于ASIC芯片,难以作用于智能终端。
4.2、FPGA效率高、灵活性好,但峰值性能较弱、成本较高,适用于虚拟化云平台和预测过程
FPGA更适合处理多指令流单数据流,从而适应于预测阶段。目前在深度学习模型的训练领域基本使用的是SIMD(Single Instruction Multiple Data:单指令多数据流架构)计算,即只需要一条指令就可以平行处理大批量数据。但是,在平台完成训练之后,它还需要进行推理环节的计算。这部分的计算更多的是属于MISD(Multiple Instruction Single Data:多指令流单数据流)。因此,低功耗,高性能,低延时的加速硬件成为了必需品,因此人们把目光转向了“FPGA”与“ASIC”。
FPGA突破了冯诺依曼结构,流水线设计减少了数据在内存、缓存和处理单元之间的能耗。FPGA是指现场可编程门阵列,其中包含逻辑元件、DSP 数据块、片上内存和灵活的 I/O。芯片内部集成了大量的数字电路基本门电路以及存储器,可以直接烧入FPGA配置文件来定义电路之间的连线,所以FPGA是可定制编辑的,同一块芯片可以随时通过不同的配置文件烧入来更改功能,就像乐高积木,可以随时拆分和重组,灵活性极高,在处理小计算量大批次的实际计算时FPGA性能比GPU更强,适合深度学习的预测环节。逻辑层面上,它不依赖于冯诺依曼结构,一个计算得到的结果可以被直接馈送到下一个节点,无需在主存储器临时保存,所以其通信速度也非常快。
FPGA与深度学习中最常用的CNN网络匹配度很高。深度学习中最常用的CNN网络,其分层的结构和FPGA硬件流水线结构以及MISD的处理方式匹配度很高。利用片上DSP和存储模块,FPGA能够根据CNN的网络特征设计出有针对性的流水线,在实现MISD的同时还可以将中间结果保存在本地缓存模块,以降低内存读写的能耗,从而比GPU以更低的能耗更快完成CNN的计算。
FPGA的优点:
1. 突破冯诺依曼结构,功效能耗较低,处理效率较高。FPGA的电路可直接实现算法,没有指令译码和解读的过程,减少反复冗余访问外部存储器的需求,存储器带宽需求及能耗较低,功效能耗比是 CPU的10倍以上、GPU的3倍,处理速度和效率要高于GPU。
2. FPGA可编译,灵活性很高,开发周期短。FPGA具有可编辑性,用户可以根据自身需求实现芯片功能的转换,灵活性很强。基于FPGA灵活编译的特点,其开发周期较短,上市速度快,更好地适应当前人工智能领域技术需求的快速更迭,对制造商来说风险较小。此外,FPGA也比ASIC具有更长的可维护周期,更小的初期成本。
FPGA的缺点:
1. 价格较高,规模量产后的单价更是远高于ASIC。目前FPGA的造价相比GPU更为高昂,如果规模量产后,其不像ASIC可以分摊固定成本,存在单个芯片的编译成本,所以单价远高于ASIC。
2. 计算能力和峰值性能不如GPU。 FPGA的可编程性用在虚拟化服务的云平台很好,但其中的逻辑单元很多都是基于SRAM查找表,不如GPU中的标准逻辑模块,使得其峰值性能不如GPU。同时,在布线方面也有较大的现值,无法像在ASIC FLOW下那样较为自由的布局。
3. 灵活性占优的同时牺牲了速度与能耗。FPGA在维持了灵活性的同时,效率和功耗上劣于专用芯片ASIC。
4. FPGA的语言技术门槛较高。目前FPGA的设置要求用户用硬件描述语言对其进行编程,需要专业的硬件知识,具有较高的技术门槛,但随着包括OpenCL在内的软件级编程模型在FPGA的应用,研究时间相对有所缩短。
FPGA应用于硬件平台加速、数据中心和云端深度学习预测。FPGA兼具较高的性能和灵活性,适用于硬件平台的加速。比如微软开发了带有FPGA“硬件加速芯片”的主板来提升Bing数据中心的整体性能,相比于传统CPU在处理Bing的自定义算法时快出40倍。另外FPGA低能耗的特点也得其对大型企业的线上数据处理中心具有吸引力。FPGA具有处理MISD的优势,所以适用于深度学习的预测阶段,同时FPGA的可编程性使其非常适合放在虚拟化的云平台背后,给予云服务商根据市场需求调整FPGA加速服务供给的能力。
没有极致的性能特点与量产单价高是其未来发展的瓶颈。FPGA仍然具有通用类芯片的特点,为实现灵活性,FPGA的各项指标均有折扣,尽管在能耗方面相比CPU和GPU有明显优势,但随着人工智能应用领域的扩大,FPGA的半定制性可能会使得芯片逐渐成为一种过渡和替代性质的附注品,训练阶段的性能不如GPU,预测环节下的计算效率与功效能耗比则不如ASIC。另外FPGA的量产单价高,意味着其无法大量生产,更适合用于细分、快速变化的垂直行业,在应用面上较为狭窄。
4.3、ASIC效率高、功耗比佳,但量产前成本高,适用智能终端和AI平台
ASIC是指专用集成电路,为符合特定用户需求而设计的专用人工智能芯片。不同于FPGA,ASIC的电路一旦设计完成后就不可更改,用乐高积木比喻FPGA的话,ASIC更像是3D打印,是完全定制化的芯片,当然相比FPGA也更加精致,有更多的物理设计,运行速度在同等条件下也比FPGA更快。
ASIC的优点:
1. 性能上的优势非常明显,具有最高的功效能耗比。ASIC是专业AI芯片,相比GPU和FPGA没有多余的面积或架构设计,可以实现最快的通信效率与计算速度,实现最低的能耗。
2. 下游需求促进人工智能芯片专用化。随着人工智能的发展和下游智能终端的普及,AI芯片需求大幅上升,而出于对信息隐私保护和云端计算需要联网的考虑,完全依赖云端是不现实的,需要有要有本地的软硬件基础平台支撑,所以专有化的AI芯片有很大的优势。
ASIC的缺点:
1. 造价昂贵,需要保证量产才能降低成本。ASIC由于是定制化芯片,有大量附加工艺设计需要考虑,投入的成本非常高,对企业带来资金风险。若芯片能实现量产并大规模投入使用,其单价成本才能有效降低。
2. 不可编辑,灵活性较差。定制化芯片的算法是固定的,研发时间较长,灵活性不够高,在行业发展初期面对日新月异的人工智能算法其适应性相对较低,尤其对于技术能力和市场能力不足的企业,风险非常大。
ASIC芯片应用于人工智能平台和智能终端。ASIC芯片由于其定制化的特点,具有功能的多样性,应用非常广泛。高性能和低功效使其不再局限于深度学习的训练或推测阶段的其中之一,而是可以作为支撑人工智能平台全阶段加速的芯片。ASIC虽然其一次性成本远远高于FPGA,但量产成本低,另外ASIC的定制功能和神经网络预测能力能够解决FPGA在设备端的劣势,因此应用上就偏向于消费电子,如移动终端等领域。
4.4、类脑芯片能耗低、感知力强,但缺乏训练方法、精度低
类脑芯片仍属于小众芯片,突破性发展需要更好的深度学习训练方法。类脑芯片是从架构上模仿人脑神经结构的芯片,与当前AI芯片普遍作为神经网络算法加速器不同,前者模仿神经结构从底层构建人工智能,后者则模仿神经处理信息的功能流程。IBM在10年前就开始类脑芯片的研究,主要基于脉冲神经网络(Spiking Neural Network,SNN),通过脉冲的频率或者时间在神经元之间传递信息,而不是通过节点之间的权重。这种芯片把数字处理器当作神经元,把内存作为突触,跟传统冯诺依曼结构不一样,它的内存、CPU和通信部件是完全集成在一起。因此信息的处理完全在本地进行,而且由于本地处理的数据量并不大,传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。
目前该类芯片主要的优点是能耗非常低,且有较好的感知能力;缺点则是其缺乏高效的深度学习训练和应用方法,脉冲神经网络精度在精度上不能和机器学习类的神经网络相比。基于高感知能力,类脑芯片适用于复杂的环境。在国防、武器装备、消费电子等终端设备上有望实现应用。
五.芯片的业态和应用领域
5.1、GPU与英伟达
英伟达目前引领者GPU在AI计算领域的风向。GPU是目前在AI计算领域应用最早最成熟的通用型芯片,而英伟达是GPU芯片市场的绝对龙头,占据了70%以上的市场份额,GPU在人工智能领域的应用一直由英伟达引领。英伟达的GPU产品主要包括PC端处理器GeForce、移动处理器Tegra和深度学习芯片Tesla,不同的GPU种类适用于人工智能领域不同的智能计算设备。其中Tesla的核心产品包括基于PASCAL架构和Volta架构的Tesla系列芯片,为资料中心带来最高的能源效率,为深度学习作业负载带来最大的处理量。
最新的Volta架构使得GPU在预测阶段的效率也大大提升。英伟达最在美国时间5月10日发布了新一代专门针对AI计算设计的GPU架构Volta,其核心改进使得Tesla系列芯片在深度学习预测阶段的性能得到大大提升,推理性能提升约10倍,在这一架构下GPU不仅在训练结算具有绝对优势,在预测推理场景也能成为不错的商用选择。相比上一代Pascal架构GPU,新品的晶体管数目增加了38%,达到了惊人的211亿个;核心面积也继续增加33%,几乎已经达到了制造工艺极限。随着核心的增大,新品的的单、双精度浮点性能也大幅提升了41%,这也体现了英伟达意欲称霸AI芯片的决心,不断地提高产品的护城河。
英伟达的产品广泛应用于数据中心、智能驾驶等领域。目前英伟达的GPU产品主要应用于各类计算平台、数据中心加速和深度学习训练,应用领域包括医疗、汽车、智能家电、金融服务等各个行业。公司利用自身的优势GPU产品开发了一系列应用系统。基于Tegra系列处理器,英伟达发布了DRIVE PX开放式人工智能车辆计算平台,可实现包括高速公路自动驾驶与高清制图在内的自动巡航功能,且搭载了Tegra K1处理器并应用了DRIVEPX计算平台的智能汽车特斯拉Model S已经开始量产,而百度、沃尔沃也跟英伟达达成了合作,他们都将生产搭载DRIVE PX 2的智能驾驶汽车。
Tesla系列GPU是目前GPU参与AI计算中最前沿、应用最广泛的。基于Tesla系列处理器,其最基础也是最重要的应用是对数据中心进行计算加速,Tesla 加速器拥有高性能计算 (HPC) 和超大规模工作负载的能力,能在降低数据中心成本同时,大幅提高数据中心吞吐量。谷歌、微软、Facebook 和亚马逊等技术巨头都使用英伟达的芯片来扩充自己数据中心的处理能力;深度学习训练方面,英伟达2016年上半年推出人工智能超级计算机DGX-1,应用Tesla P100芯片,能够快速设计深度神经网络,性能相当于 250 台传统服务器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。
JETSON而同样基于Tesla的另一系列产品JETSON则是面向无人智能化领域的嵌入式计算平台,适合机器人、无人机、智能摄像机和便携医疗设备等智能终端设备。目前JETSON系列产品的应用案例包括思科的电视电话会议系统(人脸识别、智能识别)、法拉赫的工厂自动化(零部件的分拣)、丰田的服务类机器人、海康威视的摄像头产品等。
5.2、FPGA与Xilinx、Altera
Xilinx和Intel收购的Altera占据了FPGA近9成市场。FPGA的市场发展迅速,但技术门槛比较高,目前市场上主要为Xilinx(赛灵思)与Altera(阿尔特拉)两家公司主导,2016年Xilinx市场份额达53%,Altera份额达36%,两者占据了约90%的市场,专利达到6000余项。
FPGA成为ADAS主要处理平台,在各行业为差异化产品提供算力。FPGA高密度计算、大吞吐量和低功耗的特点,其在各个行业领域较大的发展空间。FPGA的传统应用领域主要在通信和无线设备系统,为数据中心提供更高的能源效率,更低的成本和更高的扩展性。Xilinx在通信与无线设备领域已经开始布局5G的可编程解决方案,除此之外,Xilinx和Altera均在工业、汽车、医疗、消费电子、广播、军事等行业有FPGA应用的实例。如在工业领域可实现自动化、机器视觉和运动控制;在汽车领域则成为ADAS的主要处理平台,提供实施图像分析与智能传输。由于FPGA的可编程性,其在各个行业提供差异化产品和快速响应上有着极大的优势。
CPU+FPGA的混合结构成为Intel的主推的云服务计算架构。2015年12月英特尔以167亿美元收购Altera,整合Altera的FPGA技术以及英特尔自身在CPU方面的优势,推出CPU + FPGA 异构计算产品,力图在摩尔定律的尽头,用FPGA提升CPU的效能比,实现深度学习的预测环节。在预测环节,海量的预测请求是高密度计算,不同于GPU所擅长的高性能计算,所以云服务器中CPU+FPGA芯片模式成为了云端预测较优的选择。Xilinx则与IBM和高通签订协议,开展数据中心加速战略合作。在深度学习预测领域Xilinx也推出了面向云端的框架,包含Xilinx 深度神经网络 (xfDNN) 库,可构建深度学习推断应用。目前,全球云计算服务商纷纷布局云端FPGA的生态,FPGA倍受看好。
5.3、ASIC与Google、寒武纪
Google的TPU被应用于支持人工智能平台和AlphaGo,最新发布的2.0版本在训练阶段有很大提升。ASIC芯片由于其优秀的性能特点,全球各公司逐渐开始研发,目前尚处于起步阶段,比较著名的包括Google的TPU,是一款针对深度学习加速的ASIC芯片。第一代TPU仅能用于推断(即不可用于训练模型),并在AlphaGo人机大战中提供了巨大的算力支撑。而目前Google发布的TPU 2.0除了推断以外,还能高效支持训练环节的深度网络加速。
寒武纪引动国际AI芯片潮流,结合华为麒麟芯片率先实现落地。国内在ASIC领域领先的企业为刚刚获得1亿美元A轮融资的寒武纪,其开发了国际首个深度学习专用处理器芯片(NPU),同时其背后的学术理论与技术(尤其是指令集)在全球范围内引起了广泛的讨论,AI芯片领域的大量新发学术论文均借鉴了寒武纪两位主要成员的学术论文。目前公司的产品主要包括三种处理器结构:寒武纪1号(DianNao,面向神经网络的原型处理器结构);寒武纪2号(DaDianNao,面向大规模神经网络);寒武纪3号(PuDianNao,面向多种机器学习算法)。其中,DianNao是寒武纪系列的第一个处理器结构,包含一个主频为0.98GHz的核,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2,目前已经衍生出1A、1H等系列。其中,华为最新发布的麒麟970处理器中搭载的就是Cambricon-1A Processor型号芯片。根据披露的数据显示,DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。
寒武纪三条产品线共同发展。寒武纪的执行董事公开表示,目前公司设立了三条产品线:一是智能终端处理器的IP授权。智能IP指令集可授权集成到手机、可穿戴设备、摄像头等终端芯片中,客户包括国内顶尖SoC厂商,目前已经开始投入市场。2016年全年就已拿到1个亿元订单,在成立首年就实现盈利。其次,在智能云服务器芯片领域可以作为PCI-E加速卡配合云服务器,客户主要是国内的知名服务器厂商。另外,从智能玩具、智能助手入手,帮助服务机器人独立具备看听说的能力,客户是各类下游机器人厂商,产品的推出将比智能云服务器芯片更晚一些。
5.4、类脑芯片与IBM和高通
类脑计算芯片因其从结构上逼近人脑的思路,在业界和学界被广泛重视,产品包括欧盟支持的Spinnaker 和 BrainScaleS、斯坦福大学的 Neurogrid、IBM 公司的 TrueNorth 以及高通公司的 Zeroth,英特尔、Audience和Numanta也推出了神经形态芯片。但总体而言,类脑芯片还没有实现规模的商用,仍是一个比较小众的黑科技。
TrueNorth 是 IBM 潜心研发近 10 年的类脑芯片,也是目前类脑芯片的代表。2011年类脑芯片首次发布,IBM通过模拟大脑结构,研制出两个具有感知认知能力的硅芯片原型,具有大规模并行计算能力。2014 年,IBM 公司发布了TrueNorth的第二代类脑芯片。TrueNorth 芯片性能大幅提升,其神经元数量由 256个增加到 100万个;可编程突触数量由 26万个增加到 2.56 亿个;每秒可执行 460 亿次突触运算,总功耗为 70 mW,每平方厘米功耗 20 mW,处理核体积仅为第一代类脑芯片的 1/15。目前,IBM 公司已开发出一台神经元计算机原型,它采用 16 颗 TrueNorth 芯片,具有实时视频处理能力。
Zeroth 则是高通公司近几年开始研究的“认知计算平台”,它可以融入到高通公司量产的 Snapdragon 处理器芯片中,以协处理的方式提升系统的认知计算能,并可实际应用于手机和平板电脑等设备中,支持诸如语音识别、图像识别、场景实时标注等实际应用并且表现卓越。
六.AI芯片的未来走向
6.1、短期:GPU仍延续AI芯片的领导地位,FPGA增长较快
GPU短期将延续AI芯片的领导地位。目前GPU是市场上用于AI计算最成熟应用最广泛的通用型芯片,在算法技术和应用层次尚浅的时期,GPU由于其强大的计算能力、较低的研发成本和通用性将继续占领AI芯片的主要市场份额。GPU的领军厂商英伟达仍在不断探寻GPU的技术突破,新推出的Volta架构使得GPU一定程度上克服了在深度学习推测阶段的短板,在效率要求和场景应用进一步深入之前,作为数据中心和大型计算算力支撑的主力军,GPU仍具有很大的优势。
FPGA是目前增长点。FPGA的最大优势在于可编程带来的配置灵活性,在目前技术和应用都在快速更迭的时期具有巨大的实用性,而且FPGA还具有比GPU更高的功效能耗比。企业通过FPGA可以有效降低研发调试成本,提高市场响应能力,推出差异化的产品。在专业芯片发展的足够重要之前,FPGA是很好的过渡产品,所以科技巨头纷纷布局云计算+FPGA的平台。随着FPGA的开发者生态逐渐丰富,适用的编程语言增加,FPGA的应用会更加广泛。因此短期内,FPGA作为兼顾效率和灵活性的硬件选择仍将是热点所在。
6.2、长期:各种AI芯片基于各自优势适用于不同场景
GPU主攻高级复杂算法和通用型人工智能平台。GPU未来的进化路线可能会逐渐发展为两条路,一条主攻高端复杂算法的实现,由于GPU相比FPGA和ASIC高性能计算能力较强,同时对于指令的逻辑控制上也更复杂一些,在面临需求通用型AI计算的应用方面具有较大优势。第二条路则是通用型人工智能平台,GPU由于设计方面,通用性强,性能较高,应用于大型人工智能平台能够较高效地完成不同种类的调用需求。
FPGA适用变化多的垂直细分行业。FPGA具有独一无二的灵活性优势,对于部分市场变化迅速的行业非常适用。同时,FPGA的高端器件中也可以逐渐增加DSP、ARM核等高级模块,以实现较为复杂的算法。
ASIC是AI领域未来潜力较大的芯片,AI算法厂商有望通过算法嵌入切入该领域。ASIC具有高性能低消耗的特点,可以基于多个人工智能算法进行定制,其定制化的特点使其能够针对不同环境达到最佳适应,在深度学习的训练和预测阶段皆能占据一定地位。目前由于人工智能产业仍处在发展的初期,较高的研发成本和变幻莫测的市场使得很多企业望而却步。未来当人工智能技术、平台和终端的发展达到足够成熟度,人工智能应用的普及程度使得专用芯片能够达到量产的水平,此时ASIC芯片的发展将更上一层楼。此外,AI算法提供商也有望将已经优化设计好的算法直接烧录进芯片,从而实现算法IP的芯片化,这将为AI芯片的产业发展注入新的动力。
类脑芯片发展需要更久的时间,存在潜在机会。类脑芯片对大脑结构的模拟技术目前还在起步阶段,预计未来需要更久的时间来发展。但其在认知方面的优势较强,能面对复杂坏境,存在潜在的发展机会。一旦技术实现跨越式突破,类脑芯片有可能实现整个行业的革命。
七.相关标的
软件SoC类:中科创达
移动智能系统领导者,面向智能手机、智能车载和智能终端业务。公司专注于移动智能系统的开发和技术服务,在在 Android、Windows、Linux 操作系统和应用开发领域有丰富的经验,是行业龙头企业。其中智能手机的系统是公司传统业务,公司以此为基础,向智能车载与智能终端业务开拓。
与上游芯片巨头展开深度合作,增强产业链影响力。公司与高通共建IHV和ISV实验室,对移动智能终端元器件的驱动软件和互联网应用软件进行开发、调试、优化;公司与Intel 共建联合实验室,签订共同开拓地区业务战略协议。公司通过共建实验室的合作方式,与超过百家移动智能终端厂商及元器件厂商、超过 50 家应用软件厂商建立合作关系,增强公司在移动智能终端产业链中的影响力。
并购Rightware,提供智能驾驶舱软件产品。公司逐渐由车载设计服务商转向车载软件产品供应商,整合Rightware所提供的新一代智能汽车人机交互界面和引擎,向全球的一线品牌车厂和零部件供应商,提供完整的智能驾驶舱解决方案。
立足优势技术与产品,发力智能硬件大市场。智能硬件业务呈现出爆发式发展态势,公司基于移动操作系统的研发和创新,推出了TurboX智能大脑平台,形成了“芯片+操作系统+核心算法”的模块化产品,客户遍及行业主流厂商,未来进一步发展值得期待。特别是在人工智能领域,2017年公司将依托在图形图像方面积累的技术基础,基于深度学习技术,研发和优化面向终端的图形图像算法和人体感知算法,潜力较大。
芯片制造类:富瀚微
视频监控数字芯片主力供应商。公司集成电路设计企业,主要产品为安防视频监控多媒体处理芯片及数字接口模块,其中安防视频监控多媒体处理芯片2016年收入占比达 90%,是公司主要的收入来源。公司提供的安防视频监控芯片广泛应用于专业安防视频监控摄像机及消费类终端电子产品中。
积极投入人工智能技术开发。公司启动了 Smart265 视频智能编解码核心 IP 的开发、新一代图像信号处理核心 IP 的开发、声音信号处理技术及计算机视觉和机器学习等方面的技术开发。
服务器厂商:中科曙光
高性能计算产业龙头公司。公司是由中科院、科技部、信息产业部推动,以国家“863”计划重大科研项目为基础组建的国家高新技术企业,实际控制人为中科院计算所。公司是超算技术的龙头公司,连续八年获得中国高性能计算机性能 TOP100 排行榜第一,先后研制成功了百万亿次和千万亿次高性能计算机系统,目前已经启动E 级(“百亿亿次”)超算原型系统研发项目。公司还与英伟达合作开发了深度学习专用服务器 DGX-1 和深度学习一体化平台 XSystem,在人工智能服务器方面布局。云计算方面,公司已经在全国 30 多个城市部署了城市云计算大数据中心,形成了规模性云数据网络,云系统生态建设逐渐建立。近日,公司与腾讯云开展了战略合作,双方将合力深化在智慧城市、城市云、行业云、大数据等领域业务合作,同翻开云计算与智能未来的新篇章。
子公司携手AMD获取芯片技术,完善云计算产业链。中科曙光子公司天津海光与 AMD 成立合资公司,面向中国服务器市场。AMD 将其高性能处理器和 SoC 技术授权给合资公司。此举将大幅提高公司在芯片领域的技术能力,同时打破英特尔在国内处理器领域的垄断,降低国内CPU毛利率,完善企业在云计算产业链的局部。
与寒武纪战略合作,加码人工智能领域。寒武纪的专用人工智能芯片具有高性能和低功耗的特点,未来存在巨大的市场空间。而公司服务器、云计算领域极具优势。此次合作能增强公司在人工智能领域的布局,提高业务协同效应,双方有望合力打造人工智能时代极具竞争力的底层计算基础设施。
服务器厂商:浪潮信息
国内领先的计算平台与IT应用解决方案供应商。公司是国内领先的计算平台与IT应用解决方案供应商,是中国最大的服务器制造商和服务器解决方案提供商。公司与IBM、NVIDIA等企业建立了合作伙伴关系,是国内首家完成Iaas层云计算领域自主技术布局的厂商。浪潮服务器连续16年蝉联国有品牌销量第一,浪潮存储连续8年蝉联国有品牌销量第一,此外公司的AI计算平台市场占有率超过60%。
联手IBM发力高端服务器,实现双赢。公司与IBM成立合资公司,主要业务为研发、生产、销售基于开放的POWER技术的服务器,并提供相应的服务和解决方案。POWER是IBM的主力处理器平台,IBM官网的分析称POWER8已经能在性价比上赶超英特尔最新的X86处理器,尤其在大数据领域的工作负载表现更为突出。近期,包括腾讯、中兴等公司也与OpenPOWER基金会有所合作。与IBM合作对浪潮而言有望增强公司在高端服务器尤其是大数据计算方面的硬件实力,并借助高性价比的POWER8服务器更好地控制成本,更好地融入OpenPOWER社区;对于IBM而言,中国国内的国产化浪潮持续,IBM的角色从技术和产品输出转换为合作更符合其推广POWER的开放战略,同时实现在中国市场的共赢共生。
与知名公司频频合作,夯实人工智能硬件建设。近一年,公司与百度、NVIDIA等知名公司合作,发布了包括AGX-2,GX4等多款新产品推进AI智慧计算平台建设。公司依托完善的软硬件产品线,形成了包括可重构的硬件、云数据中心操作系统、大数据处理平台、智能算法平台的软硬件产品布局。在IaaS层面取得良好的进展。IBM推出的Power8处理器与Linux软件结合能让每个计算单元的性能提高百分之八十,Nvidia更专门为POWER8配置了Tesla P100 Pascal GPU,非常适用于需要大量计算的AI领域,与IBM的进一步合作有望进一步夯实公司在AI领域IaaS层面的优势。根据IDC & Gartner最新数据显示浪潮信息在AI计算领域占据优势,其AI计算平台已广泛应用于语音识别、图像识别、无人驾驶领域,市场占有率超过60%。
高端产品推动未来需求,公司市场份额领先。IDC数据显示四路、八路及以上的高端服务器一直保持快速增长态势。其中八路X86在2017Q1的销售额同比增速达38.16%,远高于行业平均增速。随着政企业务对系统服务器要求的不断深化,数据库、虚拟化、大数据、云计算等业务对服务器提出了更高的要求,高端服务器有望在金融、电信、公安和财税等行业获得大规模的应用。根据IDC发布的X86服务器市场调查报告,浪潮在高端服务器市场表现突出。2017Q1公司在四路X86、八路X86以及高密度服务器三个细分领域的份额均位列第一,其中四路出货量份额为26.7%,八路出货量份额为46.7%,在高端市场占据绝对领先地位。
八.风险提示
ASIC研发进度不及预期、终端落地反馈不佳
(注:此文原创于2017年9月25日,By 兴业计算机 袁煜明/蒋佳霖/徐聪等)
联系人:
蒋佳霖 18614021551
徐 聪 18018726086
孙 乾 15201966173
吴鸣远 15601668682
冯欣怡 15109111151
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《AI芯片助中国“芯”弯道超车,由浅入 “深”度学习》
对外发布时间:2017年9月25日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
本报告分析师:
蒋佳霖 SAC执业证书编号:S0190515050002
徐 聪 SAC执业证书编号:S0190516060001
自媒体信息披露与重要声明
本信息材料仅为对公开资料的整理信息,不涉及分析师的研究观点及投资建议。
使用本研究报告的风险提示及法律声明
兴业证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。
本报告仅供兴业证券股份有限公司(以下简称“本公司”)的客户使用,本公司不会因接收人收到本报告而视其为客户。本报告中的信息、意见等均仅供客户参考,不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果,本公司及/或其关联人员均不承担任何法律责任。
本报告所载资料的来源被认为是可靠的,但本公司不保证其准确性或完整性,也不保证所包含的信息和建议不会发生任何变更。本公司并不对使用本报告所包含的材料产生的任何直接或间接损失或与此相关的其他任何损失承担任何责任。
本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌,过往表现不应作为日后的表现依据;在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告;本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。
除非另行说明,本报告中所引用的关于业绩的数据代表过往表现。过往的业绩表现亦不应作为日后回报的预示。我们不承诺也不保证,任何所预示的回报会得以实现。分析中所做的回报预测可能是基于相应的假设。任何假设的变化可能会显著地影响所预测的回报。
本公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。
本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。未经授权的转载,本公司不承担任何转载责任。
在法律许可的情况下,兴业证券股份有限公司可能会持有本报告中提及公司所发行的证券头寸并进行交易,也可能为这些公司提供或争取提供投资银行业务服务。因此,投资者应当考虑到兴业证券股份有限公司及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。
投资评级说明
报告中投资建议所涉及的评级分为股票评级和行业评级(另有说明的除外)。评级标准为报告发布日后的12个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅,A股市场以上证综指或深圳成指为基准。
行业评级:推荐-相对表现优于同期相关证券市场代表性指数;中性-相对表现与同期相关证券市场代表性指数持平;回避-相对表现弱于同期相关证券市场代表性指数。
股票评级:买入-相对同期相关证券市场代表性指数涨幅大于15%;审慎增持-相对同期相关证券市场代表性指数涨幅在5%~15%之间;中性-相对同期相关证券市场代表性指数涨幅在-5%~5%之间;减持-相对同期相关证券市场代表性指数涨幅小于-5%;无评级-由于我们无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使我们无法给出明确的投资评级。
免责声明
市场有风险,投资需谨慎。本平台所载内容和意见仅供参考,不构成对任何人的投资建议(专家、嘉宾或其他兴业证券股份有限公司以外的人士的演讲、交流或会议纪要等仅代表其本人或其所在机构之观点),亦不构成任何保证,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主做出投资决策并自行承担风险。根据《证券期货投资者适当性管理办法》,本平台内容仅供兴业证券股份有限公司客户中的专业投资者使用,若您并非专业投资者,为保证服务质量、控制投资风险,请勿订阅或转载本平台中的信息,本资料难以设置访问权限,若给您造成不便,还请见谅。在任何情况下,作者及作者所在团队、兴业证券股份有限公司不对任何人因使用本平台中的任何内容所引致的任何损失负任何责任。
本平台旨在沟通研究信息,交流研究经验,不是兴业证券股份有限公司研究报告的发布平台,所发布观点不代表兴业证券股份有限公司观点。任何完整的研究观点应以兴业证券股份有限公司正式发布的报告为准。本平台所载内容仅反映作者于发出完整报告当日或发布本平台内容当日的判断,可随时更改且不予通告。
本平台所载内容不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见。