无芯片,不AI!芯片设计3.0时代来了
2019加入学术plus丨2018学术大礼包丨2017不可以错过的重磅报告们
人工智能(AI,Artificial Intelligence)是新一轮科技革命和产业转型升级的核心驱动力,在海量数据、深度学习和超强算力的支持下,人工智能迎来了前所未有的发展机遇,正与人类社会诸多领域深度融合,重塑人类生产生活方式,加速人类社会从信息化向智能化的发展进程。
人工智能芯片是人工智能发展的基石,是数据、算法、算力在各类场景应用落地的基础依托。“无芯片不AI”的观念已经深入人心,成为业界共识。人工智能芯片是数据价值的倍增器,可以发掘出海量数据背后的信息量,提升数据的价值;人工智能芯片是算法实现的转换器,将各类算法从纸面的程序语言变为现实工具,解决实际问题;人工智能芯片是算力爆发的推进器,体系架构的创新显著提高了海量数据的实时处理能力,促进人类文明加速向智能化方向迈进。
本文介绍了人工智能的起源、概念、技术流派、发展历程、产业技术架构,以及人工智能芯片的概念、发展历程、产业链生态全景图,重点对四类人工智能芯片进行了介绍,并从三个方面展望了人工智能芯片的未来发展趋势。
文章仅供参考,观点不代表本机构立场。
人工智能芯片—过去、现在和未来
作者:学术plus高级评论员 杨巍
-1-
人工智能
(一)人工智能的起源
1950年,“计算机之父”阿兰·图灵提出了著名的图灵测试,并预言了让机器真正具备智能的可行性。 1951年,“人工智能之父”马文·明斯基建造了世界上第一台神经网络模拟器Snare。 1956年8月,在美国达特茅斯会议上,约翰·麦卡锡、克劳德·香农和马文·明斯基等人首次提出了“人工智能”这一概念,达特茅斯会议被认为是人工智能诞生的标志,1956年也被视为人工智能元年。从此,人工智能领域的专家学者不断涌现,技术不断发展,人工智能走上了快速发展之路。 1958年,约翰·麦卡锡和马文·明斯基分别从达特茅斯学院和哈佛大学来到麻省理工学院,共同创建了世界上第一个人工智能实验室。
纪念人工智能诞生50周年合影,(摄于2006年,居中学者为“人工智能之父”马文•明斯基)
(二)人工智能的基本概念
目前,对人工智能概念的普遍共识认为,人工智能是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。从本质上讲,人工智能是对人类思维过程的模拟。通过用机器不断感知、模拟人类的思维过程,最终将使机器达到甚至超越人类的智能。传统计算机技术是机器根据人为既定的程序执行计算或者控制任务,而人工智能在运用过程中具有自学习、自组织、自适应、自行动的特点。
(三)人工智能的技术流派
让机器实现人的智能,一直是人工智能领域的专家学者不断追求的目标。不同学科背景或应用领域的学者,从不同视角,用不同方法,沿着不同路径对人工智能进行了探索,产生了人工智能发展历史上的三大技术流派,即符号学派、连接学派和行为学派。
人工智能的三大技术流派
在人工智能发展历程中,符号学派、连接学派和控制学派不仅先后在各自领域取得了成果,也逐步走向了相互借鉴和融合发展的道路。
(四)人工智能的发展历程
人工智能是人类文明发展的时代产物,在以模拟化向数字化转变为特征的第三次工业革命中诞生和成长,在如今以自动化向智能化转变为特征的第四次工业革命中爆发。从1956年概念提出,到如今大规模爆发,人工智能发展经历了多次高峰和低谷。
人工智能的发展历程
在1956年的达特茅斯会议之后,人工智能迎来了第一个发展高峰。在长达十多年的时间里,计算机被广泛应用于数学和自然语言领域,用来解决代数、几何和语言问题,这让很多研究学者建立了机器向智能化发展的信心。1969年,国际人工智能联合会成立并召开第一次会议。在当时,有很多学者认为,在二十年内,机器将能完成人能做到的一切。
二十世纪七十年代,人工智能进入了第一次低谷期。当时人工智能面临三个方面的技术瓶颈,一是计算机性能不足。很多程序无法在人工智能领域得到应用;二是问题复杂性增加。早期人工智能算法主要是解决复杂性较低的特定问题,一旦问题复杂度提高,程序无法支持;三是数据量严重缺失。受当时历史条件限制,无法找到足够大的数据库来支撑模型学习训练。
二十世纪八九十年代,随着美国和日本等国家立项支持人工智能研究,人工智能迎来了第二个发展高峰。1980年,卡耐基·梅隆大学为DEC公司设计的XCON专家系统取得了巨大成功,每年可为公司节约4000万美元。人工神经网络模型的研究也取得了重大突破,著名的多层神经网络模型、BP神经网络模型等都是在这一时期提出的。
二十世纪九十年代中期,人们对人工智能的认知逐渐趋于客观理性,人工智能开始进入平稳发展时期。1997年,IBM的计算机系统“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫,成为人工智能发展史上的一个重要里程碑。
当前,在算法、数据和算力的聚力推动下,人工智能处于第三个发展高峰。深度学习概念的提出极大地促进了人工神经网络算法的进步,提高了机器自学习的能力;算法模型的持续优化,极大地提升了人工智能在语音识别和图像识别等领域应用的准确性。2016年,Deep Mind开发的Alpha Go击败李世石,也是人工智能发展史上的标志性事件。随着互联网和移动互联的普及,全球网络数据量急剧增加,海量数据为人工智能发展提供了良好的土壤。移动互联网、大数据、云计算等新一代信息技术的快速发展,各种人工智能专用芯片的应用,极大提升了机器处理海量视频、图像等的能力。
(五)人工智能产业的技术架构
人工智能产业的技术架构
人工智能产业技术架构从内到外依次是基础层、技术层和应用层。
基础层是人工智能芯片,它位于架构的中心,是人工智能算法实现的物理载体;
技术层涉及计算机视觉、语音识别、语义分析、知识图谱、人机交互、自主无人系统、虚拟现实等一些技术领域;
应用层包含了技术层所涉及技术方向在不同领域的应用场景,如自动驾驶、智能医疗、智慧城市、智慧金融、智慧教育等场景。
-2-
人工智能
芯片
(一)人工智能芯片概念
目前,人工智能芯片尚无统一的定义,面向人工智能应用的芯片都可称为人工智能芯片。人工智能芯片可以处理人工智能算法,可以通过特殊设计来加速人工智能算法。
(二)人工智能芯片发展历程
人工智能芯片的发展历程
人工智能芯片是随着人工智能技术和应用需求的爆发而迅速发展起来的。早期,人工智能技术尚未渗透到人类生活的方方方面,数据量少,算法简单,通用CPU的算力即可满足需求,人工智能芯片尚未得到重视。
在Hinton教授首次证明了大规模深度神经网络学习的可能性之后,随着高清视频、大型游戏等行业的发展,图像处理器(GPU,Graphic Processing Unit)发展迅速,GPU的并行计算特性不但满足了图像和视频领域的应用需求,还能够显著提高深度学习算法的运算效率,因此业界开始尝试使用GPU进行人工智能计算。2006年,NVIDIA推出了通用计算架构CUDA,为GPU提供了便捷的编程环境,两年后又推出了最早面向人工智能应用的Terga GPU芯片。
2010年以来,由于大数据技术和产业的蓬勃发展,数据量呈现出爆发式的增长态势,传统的计算架构已经难以满足深度学习的大规模并行计算需求,业界开始对人工智能芯片进行更深入的研究和探索。IBM探索了类脑芯片架构并发布了True North系列芯片;NVIDIA发布了首个为深度学习专门设计的GPU架构Pascal;Google利用1.6万个GPU构建众核并行计算平台来训练深度神经网络模型,并成功应用于语音和图像识别等领域。
人工智能应用场景的多元化和复杂化对人工智能芯片计算能力提出了更高的要求。2015年以来,业界开始研发人工智能专用芯片。Google相继发布了系列人工智能ASIC芯片TPU;NVIDIA发布了Volta架构,大幅提升了GPU效能;国内的华为和寒武纪也相继推出各类架构的人工智能芯片。2019年以来,人工智能芯片的发展更是呈现出百家争鸣的局面,面向特定应用场景的专用芯片、芯片通用设计平台等层出不穷,将人工智能芯片研发和应用推向高潮。
总体来看,人工智能芯片迎来的发展高潮,是在复杂多元应用场景下数据、算法、算力共同驱动的必然结果。大数据时代,数据大爆炸,需要人工智能芯片具备海量数据处理能力;场景定义硬件时代,算法多元化,需要人工智能芯片通过架构创新适应算法实现需求;计算正在从云端向边缘拓展,数据实时高效处理成为必然趋势,需要人工智能芯片提高大规模实时计算能力。
(三)人工智能芯片的产业链和全景图
人工智能芯片的产业链
人工智能芯片产业链从上游到下游,依次是设计、晶圆制造、封装测试和集成应用。在设计环节,又可以细分为IP供应商、EDA软件和IC设计。目前,国内外已经有很多厂商在人工智能芯片产业链的各个环节布局,有的还覆盖多个环节,如Synopsys、华为等。
当前,人工智能芯片已经引起了全球科技界、产业界的高度关注。
Intel、NVIDIA等传统的芯片厂商加速向芯片AI化转型;
寒武纪、地平线、Brain Chip等国内外初创公司通过架构创新等途径积极抢占人工智能芯片技术制高点;
华为、百度、微软、Google、特斯拉等一些科技巨头公司通过特定场景应用牵引人工智能芯片发展,加速推动人工智能芯片应用落地;
众多厂商深耕人工智能IP、编译器、基准测试等领域,为人工智能芯片夯实发展根基。
人工智能芯片产业全景图(2019年8月更新)
(四)人工智能芯片的分类
人工智能芯片可以从多个维度进行分类。
按照技术架构,可以分为GPU、FPGA、ASIC和类脑芯片。前三类芯片架构以传统的冯·诺依曼架构为基础,通过提高计算能力来满足人工智能应用需求;类脑芯片基于神经形态架构,与传统的冯·诺依曼架构有本质不同。
按照功能,可以分为训练类和推理类人工智能芯片;
按照应用场景,可以分为云端人工智能芯片和边缘人工智能芯片。云端人工智能芯片强调海量数据运算能力,主要用于算法训练,边缘端人工智能芯片强调实时运算处理能力,主要用于推理计算。
人工智能芯片的分类
(五)典型人工智能芯片
GPU被称为图像处理器,是从事图像和图形处理的专用微处理器。CPU与GPU的对比如图所示。CPU是通用处理器,需要兼顾计算和控制功能。其运算逻辑单元(ALU,Arithmetic Logic Unit)资源较少,每个核中只有约30%的晶体管是计算单元,而70%的晶体管承担控制器和寄存器的功能。CPU自身存在的局限性,已经难以满足人工智能应用需求。与CPU相比,GPU的ALU资源十分丰富,在逻辑控制单元的控制下,可以执行大规模并行加速计算,在图像处理和密集型数据并行处理等方面效率远远高于CPU,擅长处理重复性任务,通常用于人工智能算法训练。但是,GPU也存在硬件结构和功能相对固定,无法按需灵活配置等不足。
CPU和GPU的对比
Tesla V100是NVIDIA于2017年发布的一款GPU人工智能芯片,采用全新一代NVIDIA Volta架构,拥有超过210亿个晶体管,架构内配置了640个Tensor内核和5120个CUDA内核,双精度浮点运算性能达7.5TFLOP/s,单精度运算性能达15TFLOP/s,混合精度矩阵乘法和累加达120 Tensor TFLOP/s。
NVIDIA Tesla V100
NVIDIA Tesla V100是目前世界上最高性能的并行处理器之一,专门用于密集型高性能计算、AI、和图形处理任务。在NVIDIA Volta架构支持下,Tesla V100可以在单片GPU中提供100片CPU的运算性能,在现实场景中用户可以将多个V100 GPU组合起来搭建一个强大的深度学习运算中心,曾经需要数周时间的AI模型可以在几天之内训练完成,大幅提高AI模型训练和应用效率。
FPGA称为现场可编程门阵列(Field Programmable Gate Array),是在可编程器件基础上进一步发展形成的半定制化芯片,具有可重构、低功耗、多任务并行的特点。
FPGA提供了功能按需配置的能力,用户利用硬件描述语言(如Verilog HDL等)编写FPGA配置程序,对门电路资源及其与存储器之间的联接关系进行按需配置,实现特定功能,并可以根据应用需求多次配置FPGA实现不同功能。 FPGA可同时进行数据并行和任务并行计算,在处理特定应用时效率更高。如在进行特定运算时,CPU需要若干时钟周期来完成,而FPGA可以通过编程配置实现专用电路,仅需少量时钟周期甚至在一个时钟周期内就可以完成任务。但是,FPGA也存在着计算资源少、基础单元计算能力有限等不足。
FPGA的功能结构
VERSAL ACAP是XILINX于2018年发布的全球首款自适应计算加速平台。其架构基于FPGA演化而来,整合了标量处理引擎、自适应硬件引擎和智能引擎以及前沿的存储器和接口技术,具有软件可编程、异构加速和动态自适应重配置等特征,能够通过软件抽象工具链快速开发优化应用,针对云端、边缘等不同领域的众多应用可支持AI推断加速,能够通过重新配置硬件实现功能快速动态调整。
XILINX VERSAL ACAP
VERSAL ACAP功能结构
ASIC被称为特定应用专用芯片(Application Specific Integrated Circuit),是为了满足特定应用需求而专门定制的芯片。与通用芯片相比,ASIC具有体积小、功耗低、计算性能高、计算效率高等优点。但是,由于ASIC是专用功能的定制化芯片,研发过程中需要做大量的设计和验证,需要开发专用的掩膜版用于芯片制造,一旦设计制造完成后芯片功能就固化了,因此,ASIC存在着可重构性低、定制成本高、研发周期长等问题。据统计,ASIC从设计到量产一般需要18-24个月。
张量处理器TPU是Google于2016年发布的一款专门为Google深度学习框架Tensor Flow设计的ASIC芯片,先后共发布了三代产品,目前最新一代为TPU3.0。TPU的核心是由乘加器组合形成的256×256的运算器阵列,可以执行8位无符号和有符号整数乘法和加法。与CPU、GPU不同,TPU的ALU直接相连并处理传递信息,无需内存,从而大大减少了计算延迟。
Google TPU
TPU功能结构
无论是通用芯片CPU,还是GPU、FPGA、ASIC等人工智能芯片,都是以计算和存储分离的冯·诺依曼架构为基础的。在冯·诺依曼架构中,数据从处理单元外的存储器提取,处理完毕后再写回存储器。由于运算单元和存储单元的接口存在输入/输出速度差异,当访问存储单元的速度无法匹配运算单元数据处理的速度时,即使再增加运算单元也无法进一步提高运算速度,这就是“冯·诺依曼瓶颈”。提高人工智能芯片性能和能效的关键在于支持海量数据运算和高效的数据访问。在面对海量数据实时计算场景时,受“冯·诺依曼瓶颈”限制,芯片计算加速能力难以无限提升。这就驱动着研究人员通过创新架构来提升人工智能芯片性能。
“冯·诺依曼瓶颈”
类脑芯片不采用经典的冯·诺依曼架构,而是以神经形态架构为基础,通过模仿人类大脑的信息处理方式进行计算。人类大脑利用神经元来实现信息处理和交互,神经元相当于计算单元,通过轴突、树突、突触来实现信息的传递、交互和存储。每个神经元的计算都在本地进行,众多神经元采用分布式并行工作方式,每个神经元只承担一部分计算任务。类脑芯片利用架构创新,摆脱了冯·诺伊曼瓶颈限制,可实现海量数据的大规模并行计算,是目前最具发展前景的人工智能芯片。
类脑计算
神经元与类脑芯片
Loihi芯片是Intel于2017年公布的一款异构设计的类脑芯片,由128个神经形态核心和3个低功耗的Intel X86核心组成,拥有13万个神经元和1.3亿个触突。支持可编程的学习规则,每个神经形态核心都包含一个学习引擎,在操作中可以通过编程去适配网络参数,支持监督学习、无监督学习、强化学习和其他的学习范式。Loihi芯片的命名灵感源于夏威夷海底的一座不断喷发的活火山,每一次喷发都会扩大夏威夷岛的范围。Intel将芯片命名为Loihi,表明该芯片具备不断自我学习的能力。
Intel Loihi类脑芯片
昇腾芯片是华为自主研发的云端类脑芯片。2018年,华为发布了两款昇腾芯片,分别是基于7nm工艺的昇腾910和基于12nm工艺的昇腾310芯片。
昇腾芯片采用华为自主研发的“达芬奇”架构,核心由3D Cube、Vector向量计算单元、Scalar标量计算单元等多个单元组成,每个单元承担不同的运算任务,共同实现高效并行计算,每个核心可以在一个时钟周期内实现4096个MAC操作,应用覆盖训练和推理等全场景。该芯片支持多种混合精度计算,具备高算力、高能效、灵活可重构等特性。8W典型功耗下,8位整数精度下的性能达512TOPS,16位浮点数精度下的性能达256TFLOPS。
华为昇腾系列芯片
华为“达芬奇”架构
TianJic芯片是清华大学研发的全球首款异构融合类脑芯片,包含156个FCores核心,拥有大约40000个电子神经元和1000万个电子突触,可支持神经模态脉冲神经网络、卷积神经网络、循环神经网络等同时运行。TianJic芯片基于28nm工艺制造,采用存算一体技术,无需外挂DDR缓存,可大大节省空间、功耗和成本。2019年8月1日,第三代TianJic芯片登上了Nature杂志封面,研究团队报道了搭载TianJic芯片的智能无人自行车系统的试验结果。在语音命令控制下,智能无人自行车系统可以轻松实现转弯、加速、目标识别和自动避障等功能。
TianJic芯片
Nature杂志封面
从计算能力、灵活性、能耗性、成本、开发周期、发展成熟度等方面对CPU和四类人工智能芯片进行综合对比,结果如图所示。可以看出,在计算能力方面,类脑芯片最强,ASIC次之;在灵活性方面,FPGA最高,类脑芯片次之;在能耗性方面,类脑芯片最低,ASIC次之;在成本和开发周期方面,类脑芯片和ASIC成本高周期长;在发展成熟度方面,CPU成熟度最高,GPU、FPGA次之,类脑芯片最具发展前景。
CPU与人工智能芯片的综合对比
-3-
人工智能芯片
未来发展趋势
(一)软件定义
软件定义的核心是可重构计算架构。可重构计算架构是一种介于通用处理芯片和专用集成电路之间的、利用可配置的硬件资源,根据不同的应用需求灵活重构的新型体系结构,兼具处理器的灵活性和专用集成电路的高性能和低功耗。
美国国防部高级研究计划局(DARPA)于2017年6月启动了“电子复兴计划”(ERI:Electronics Resurgence Initiative),旨在从材料、架构、设计等方面对集成电路开展创新研究。其中的“Page 3计划”专门将软件定义硬件列为架构创新的一个重要方向,强调通过软件定义实现硬件重构。
美国“电子复兴计划”
“电子复兴计划”的“Page 3计划”
清华大学针对软件定义芯片开展了深入研究,设计了可重构计算芯片架构,研发了Thinker系列可重构人工智能芯片。Thinker芯片基于函数化的可重构计算架构,可以根据控制单元的要求配置计算单元阵列并执行任务,也可以根据软件的要求将划分后的任务送到数据通道执行。目前,清华大学已经推出了面向通用神经网络计算的Thinker I,面向极低功耗神经网络计算的Thinker II,以及面向极低功耗语音应用的Thinker S。
清华大学的Thinker系列芯片
(二)存算融合
存算融合的一个典型范例就是基于忆阻器的类脑计算。忆阻器的概念由美国加州大学伯克利分校的Leon O Chua教授于1971年首次提出,他在研究电荷、电流、电压和磁通量四者之间的关系时,推断在电阻、电容和电感器之外,应该还存在一个代表电荷和磁通量之间关系的器件,其电阻值会随着通过该器件的电荷量而改变;当掉电时,器件电阻值保持不变,从而实现电荷记忆功能。2008年,惠普实验室研究人员在Nature期刊上发表了文章“Found:the missing circuit element”,证实了忆阻器是确实存在的。
忆阻器之父Leon O Chua教授
忆阻器由两个发送和接收电信号的电极以及之间的存储层组成,存储层的物理参数可以通过电学刺激进行重新配置,形成记忆效应。通过在器件两端施加电压,可以灵活地改变其阻值,从而实现突触的可塑性。忆阻器将存储和计算在同一个器件实现,尺寸小、能耗低、结构简单、信息储存和处理效率高,可大规模集成,是类脑芯片领域的研究热点。
忆阻器的功能结构
清华大学报道了基于忆阻器的类脑计算的研究成果,他们首次实现了基于1024个氧化物忆阻器阵列的类脑计算,搭建了原型系统并进行了人脸识别测试。在最基本的单个忆阻器上实现了存储和计算的融合,与基于冯·诺依曼架构的Intel至强(Xeon)处理器相比,该原型系统具有1000倍以上的能耗优势。
(三)快速定制
在芯片设计1.0时代,芯片设计都是基于标准流程,每次研发都从电路开始设计,消耗周期长成本高;2000年以后,基于IP的模块化设计方法将芯片设计带入2.0时代,这种方式简化了芯片设计流程,降低了开发成本和设计风险。随着AIoT时代来临,新的应用需求层出不穷,继续沿袭芯片设计1.0和2.0时代的模式,已经难以适应快速变化的市场需求,芯片设计出来可能就已经落后了。AIoT时代需要更加高效的设计方法,使芯片能够以最快速度推向精准市场。这将推动芯片设计进入3.0时代—基于芯片基础设施的快速功能定制。
芯片设计时代的演变
遵循芯片设计3.0时代的理念,阿里巴巴旗下平头哥半导体公司于2019年8月发布了芯片基础设施“无剑”。无剑是面向AIoT时代的一站式芯片设计平台,由SoC架构、处理器、各类IP、操作系统、软件驱动和开发工具等模块构成,能够承担AIoT芯片约80%的通用设计工作量,让芯片研发企业专注于剩余20%的专用设计工作,从而降低芯片研发门槛,提高研发质量和效率。作为系统芯片开发的基础共性技术平台,“无剑”能够帮助芯片设计企业将设计成本降低50%,设计周期压缩50%,从而使芯片快速定制成为可能。
平头哥发布的一站式芯片设计平台“无剑”
(全文完)
杨巍,学术plus高级评论员,专注研究人工智能芯片以及相关前沿技术领域。
长按识别二维码查看更多观点或进入公众号“个人专栏”结识“学术plus”专家作者团队。
展望2019
人间不合逻辑,同志尚须努力丨2019年的世界与中国丨智库2019:救赎与涅槃丨2019 全球财经关键词丨2019 法学界大事件丨2019 全球财经关键词丨2019 后真相时代的痛点丨2019 世界战斗机如何发展?
点击领取:2018学术大礼包
声明:版权归原作者所有。文章观点不代表本机构立场。图片均来自与网络。
《中国电子科学研究院学报》欢迎各位专家、学者赐稿!投稿链接
http://kjpl.cbpt.cnki.net
学报电话:010-68893411
学报邮箱:dkyxuebao@vip.126.com