查看原文
其他

争霸 | 一文尽观英伟达、谷歌… 2018 决战AI芯 !

木易 机器人文明 2020-01-17

关注我们,思考像钟摆,永不停歇


阅读关键词:AI芯片、GPU、CPU、FPGA、TPU、云侧、端侧 


2018年AI芯片主要有两个战场:云侧推理/训练和端侧推理/训练。战事详情可以参看以下时间轴:

 

 

下面,跟着“机器人文明”一同详细观看“2018 AI芯战”海外篇。

  

云端推理/训练


在云侧推理/训练上,英伟达依旧支撑着半边天;“黑马”AMD在经历了低迷期之后,2018越发精神,推出全球首款7nm CPU和GPU;将AI视为改变世界法宝的科技巨头,也开始摩拳擦掌,势必拿下这块到嘴的肥肉。


 

GPU&CPU

英伟达、AMD、亚马逊


英伟达:十二年最大进步“图灵架构”

 

8月,黄教主在SIGGRAPH会议上扔下了一堆“核弹”,但比这些核弹更引人关注的,是它们同使用一个全新架构——图灵(TURING)。

 

 

外界看,英伟达这次的核弹主要包括“Quadro RTX 8000、Quadro RTX 6000、Quadro RTX 5000,以及CUDA 10和Quadro RTX Server”。但对英伟达来说,图灵架构才是本次发布的最大重磅,甚至被教主称为“自2006年CUDA GPU发布以来的最大进步”,或者“英伟达十多年来在计算机图形领域最重要的创新”。

 

据了解,图灵架构包含能为实时光线追踪提供硬件加速的RT核心,以及为AI运算加速的全新张量核心。作为第18代GPU架构,其聚积了10000工程年(相当于10000名工程师1年的工作)的努力,模拟物理世界的能力提升至Pascal架构的6倍。

 

年度卡皇“GeForce RTX 2080 Ti”

 

发布图灵的一周之后,教主又在德国推出新一代卡皇GeForce RTX 2080 Ti。

 


据了解,这款GPU拥有11GB容量的GDDR6显存,4352个CUDA内核,RT Core核心处理能力是上一代1080 Ti的10倍。除了GeForce RTX 2080 Ti外,此次发布会上还推出了RTX 2080,以及RTX 2070,都属于RTX 20系列。在图灵架构的加持下,RTX集合了实时光线追踪和深度学习等技术。

 

一个月后,英伟达又宣布了一款图灵架构的新卡——Tesla T4,有2560个CUDA核心,集成320个Tensor Core核心,FP32浮点性能8.1TFLOPS,INT4浮点性能最高260TFLOPS。神奇的是,这款显卡只有75W TDP,在规模比RTX 2070显卡还高的情况下TDP功耗却低得多。

 

 

Tesla T4显卡主要面向AI推理应用,外观风格跟RTX 8000及RTX 2080 Ti不是一种风格,更有金属质感。

 

Titan V升级版“Titan RTX”

 

昨天,英伟达发布了Titan RTX,配备72颗Turing RT核心、4608颗CUDA核心和576颗张量核心,并且采用了24GB的GDDR6 VRAM。

 

 

作为去年12月发布的Titan V升级版,Titan RTX主要面向AI研究、深度学习、数据工程师、内容创作等用户。

 

AMD:全球首颗7nm GPU“Radeon Instinct”

 

11月初,AMD正式官宣全球首款7nm工艺打造的GPU——Radeon Instinct MI60、Radeon Instinct MI50。

 

7nm Vega核心集成了132亿个晶体管,比目前14nm Vega 125亿增加6.4%,核心面积为331平方毫米,比现在的484平方毫米缩小31.6%,晶体管密度翻番。同等功耗下,新核心性能提升超过25%,而同等频率下,新核心功耗降低50%。

 

 

应用领域上,因7nm Vega架构拥有全球最快的FP64/FP32 PCI-E浮点性能,适用于机器学习训练和推理。

 

全球首颗7nm数据中心CPU“第二代EPYC霄龙”

 

除了GPU,颇受业界瞩目的第二代EPYC霄龙同样在11月发布,是全球首个7nm服务器处理器。

 

 

据官方透露,这款处理器基于全新Zen2架构,单颗拥有64颗核心、128个线程,对比一代翻番,同时IPC、I/O性能、物理带宽也都有进步。此外,为了更好协调众多CPU核心的协同工作,专门设计了一个I/O Die放置在中央,专门负责输入输出控制。

 

据了解,这款CPU处理器将会在明年正式出货。

 

亚马逊:首款自研CPU & 首款云端AI推理芯片

 

除了传统芯片玩家,科技巨头近年来在芯片界的发力也不容小觑。继谷歌推出TPU后,电商亚马逊也进来搅局。

 

上月底,让AI和芯片圈都爆炸的一条新闻是亚马逊推出首款自研Arm架构云服务器CPU Graviton,以及首款云端AI推理芯片AWS Inferentia。

 

CPU Graviton

 

其中,CPU 内核基于Arm 2015年的Cortex-A72设计,主频2.3GHz,为64位Armv8-A、非NUMA处理器,具备浮点数学计算,以及SIMD、AES,SHA-1、SHA-256、GCM 和 CRC-32 算法的硬件加速功能。

 

Inferentia则是一款机器学习推理芯片,支持TensorFlow、Apache MXNet和PyTorch深度学习框架,使用ONNX格式模型。据官网介绍,Inferentia 可提供高达几百TOPS的算力,能使复杂模型做出快速预测。此外,多个Inferentia 可以一起使用,从而形成更强TOPS算力。Inferentia将于2019年底上市。



FPGA&ASIC

赛灵思、英特尔、谷歌


赛灵思:业界首个ACAP架构“Versal”

 

10月,在赛灵思开发者大会上,CEO Victor Peng发布了两款新品:业界首个ACAP(自适应计算加速平台)架构芯片系列Versal,以及针对数据中心的加速器卡Alveo。

 

 

据Victor Peng表示,当前芯片的设计周期需要18-24个月,已经跟不上应用创新速度。为了解决这个时限问题,在FPGA基础上,赛灵思推出了更灵活和易用的Versal平台。该平台包含6个系列,全部采用台积电7nm FinFET 工艺技术,面向云、边缘和终端。

 

据其介绍,ACAP的核心是新一代FPGA架构,结合了分布式存储器和硬件可编程DSP模块、一个多核SoC以及一个或多个软件可编程而又具备硬件灵活性的计算引擎,并通过片上网络(NoC)实现互连,此外还拥有片上控制模块、硬件可编程存储器控制器、CCIX 和 PCIe 支持、可编程 I/O 接口等。

 

英特尔:FGPA应用于数据中心OEM

 

高价收购Altera三年后,英特尔终于在FPGA商用上走出决定性一步。今年4月,Intel宣布其FGPA已正式应用于主流的数据中心OEM厂商中。

 

 

其中,戴尔EMC PowerEdge R640、R740和R740XD服务器集成了Intel FPGA,并且已经可以进行大规模部署。富士通发布的PRIMERGY RX2540 M4也采用了Intel FGPA加成。

 

相比传统Spark实施,借助Intel PAC和加速堆栈,Levy的架构师和软件开发者的算法执行速度和期权计算速度分别提升了八倍和两倍。在数据库加速方面,在Intel PAC的加持下,使用Swarm 64进行实时数据分析加速可以提升20多倍,进行传统数据存储可以提速2倍以上,进行存储加速可以提升3倍以上。

 

除了以上场景,FPGA解决方案还可以应用于数据分析、深度学习、视频转码、网络安全、基因研究等场景中。

 

此外,今年年中传出消息称英特尔计划收购小型芯片厂商eASIC。eASIC是一家生产可定制eASIC芯片的IC设计商,芯片可用于无线和云环境,这次收购将有助于英特尔降低对CPU的依赖,实现业务多元化。

 

谷歌:TPU 3.0正式推出

 

5月的谷歌Google I/O 2018大会上,TPU 3.0正式推出。相比之前2.0版本,3.0性能提升8倍,高达100 petaflops,由于性能太强大,谷歌第一次引入液体冷却方法——可能不想走英伟达的老路被称为“核弹”吧。

 

 

事实上,从第二代开始,谷歌就向外界展示了包含64颗TPU芯片的运算阵列,名为TPUv2 Pod,此次新款运算阵列可则以提供高达11.5 Petaflops(千万亿次),已达到小超算水平。

 

在量产TPU之前,谷歌原本是英伟达的主要客户。但TPU 1.0和TPU 2.0已经让谷歌在云计算上实现自给自足,TPU3.0如果商业化,加上TensorFlow生态,将会给GPU厂商构成重大威胁。


端侧推理/训练

 

云端竞争惨烈,应用端也不太平。门槛的降低和市场空间的巨大,引得更多二线芯片厂进入,形成了一线芯企、二线芯企、科技巨头三分天下的战局,2018年主要战场集中在移动、物联网、自动驾驶,以及机器人四个领域。



移动端

ARM & 高通

 

ARM:视觉识别和机器学习

 

年初,ARM发布了两款针对移动终端的AI芯片架构:物体检测处理器(简称OD)和机器学习处理器(简称ML)。

 

 

其中,ML专门为加速神经网络模型推理而设计,比传统的CPU和GPU架构有明显的优势,理论上可在1.5W功率下,有超过4.6TOPs(8位整数)的理论吞吐量,最高可达3TOPs / W。此外,具有数据可高度重复使用的特点,能最大限度地减少数据的输入和输出,从而实现高性能和高效率。

 

OD处理器则针对物体检测任务进行了优化,给单项任务提供专用架构,能获得最大效率。

 

在各自优势基础上,OD和ML还可以集成在一起使用:OD负责把图像中的目标处理区分割出来,然后把它们传递给ML,进行更细颗粒度的处理。

 

高通:年度最强手机AI芯片“骁龙855”

 

高通在移动端的应用一直高歌猛进,今年不仅推出面向中高端手机市场的骁龙710,在年中又接连发布了三款面向中低端手机的新产品——骁龙632、439和429。

 

就在今天,小宇宙再次爆发,发布了2018年度最强手机AI芯片——骁龙855。

 

 

据了解,骁龙855的AI性能比上一代845提升3倍,比华为麒麟980、苹果A12提升1倍。具体来说,其采用7nm工艺,体积更小;搭载2项新能力:3D声波传感,以及更精细的AI相机解决方案;对于游戏玩家来说,骁龙855将提供的Elite Gaming,带来移动游戏新体验。

 

时下,AIoT热火朝天,高通也将“5G+AI”作为“下一个十年”的新引擎。据公司总裁Cristiano Ammo介绍:“5G将在速率、时延、连接密度、能效和频谱效率等方面有巨大提升。在5G的助推下,不仅智能手机会迎来大变革,更多产业也将迎来新机遇。医疗、教育、自动驾驶等产业,都能在5G浪潮中被连接、被加速,并且其间的终端和边缘,也能把机器学习、AI用起来,让技术变革进入新世代。”


 

物联网端

谷歌

 

Edge TPU:边缘设备的快速机器学习

 

7月,谷歌推送了物联网软硬件新设备——Edge TPU硬件芯片,加上Cloud IoT Edge,将谷歌云AI功能扩展到网关和联网设备的软件堆栈。

 

Edge,也就是边缘设备,包含连接到网络终端的各种各样的电子设备,比如网关、摄像头。

Edge TPU是谷歌专为在边缘设备上运行TensorFlow Lite ML模型而设计的ASIC芯片,用户可以在云上构建和训练机器学习模型,通过Edge TPU硬件加速器功能在Cloud IoT Edge所连接的设备上运行模型。

 

据了解,Edge TPU是云TPU的补充。在云端加速机器学习训练后,还可以用Edge TPU在边缘设备上进行快速机器学习推理。这让设备传感器不仅能采集数据,还能在本地实时做出智能的决策。



无人驾驶端

英伟达 & ARM


英伟达:有史以来最复杂、最大SoC

 

今年年初,教主发布了无人驾驶芯片“DRIVE Xavier”,称其为“有史以来最复杂、最大的SoC。”

 

据官宣,Drive Xavier面积达到350mm²,内建90亿个晶体管,支持每秒30万亿次运算,功率只有30瓦,能效比上一代架构高15倍。Xavier包括一个定制的8核CPU、一个新的512核Volta GPU、一个新的深度学习加速器、一个全新的计算机视觉加速器以及一个全新的8K HDR视频处理器。

 

官方透露,为了研发DRIVE Xavier,英伟达投入了2000个工程师,历时四年,研发费用达到20亿美元。当然,巨额投入还是有不少收获,沃尔沃、SF Motors、奇点汽车等众多车企都纷纷表示将与英伟达建立合作。

 

ARM:第一款专为自动驾驶打造的处理器

 

9月,Arm推出代号为“Cortex-A76AE”芯片产品,是第一款专们为自动驾驶汽车打造的处理器。

 

 

作为AE家族第一位成员,Cortex-A76AE有多达16个Cortex-A76内核,具备Arm v8.2微体系结构的所有功能特性,包括可靠性、可用性和可维护性,并采用了分核-锁步模式来确保可靠性。

 

此外,据Arm官方描述,其采用台积电7nm工艺技术制造,30瓦16核Cortex-A76AE SoC具有超过250 KDMIPS的计算性能,足以满足应用需求。如果用户想要更高的性能,可以构建更多内核,甚至多个SoC。

 

按照计划,Cortex-A76AE将于2020年在自动驾驶汽车上使用。



机器人

英伟达


Jetson Xavier:耗时最长处理器项目

 

6月,英伟达发布全新AI芯片—Jetson Xavier,是全球首款专为机器人设计的芯片。对此,教主曾表示:“这台小电脑,将成为未来机器人的大脑”。

 

性能上,Jetson Xavier包含六颗处理器:1个Volta Tensor Core GPU、1个8核ARM64 CPU、2个NVDLA深度学习加速器、1个图像处理器、1个视觉处理器和1个视频处理器。在这些处理器加持下,每秒可执行30万亿次操作,处理能力与配备了10万美元GPU的工作站大致相同,但功率仅为30瓦。

 

 

与自动驾驶一样,打造这款机器人专用设备让英伟达历经艰辛,耗费五年的时间——三年设计、两年筑造,共有超过8000人参与了设计与开发,是公司单独做过的最长的一个处理器项目。

 

付出总有回报,目前已经有不少厂商选择这款平台,上个月英伟达GTC大会上,教主介绍了Jetson Xavier最新进展,包括京东和美团都已选用此平台,打造下一代自主配送机器人。

 

总结

 

在云侧推理/训练上,英伟达依旧支撑着半边天,“黑马”AMD在经历了低迷期之后,2018开始越发精神,推出全球首款7nm CPU和GPU。不知道是否因为日子好过了,霸道总裁苏姿丰也开始发福了。

 

 

虽然是玩笑话,但今年英特尔缺席工艺上的正面竞争,AMD在进入人工智能领域可以亦步亦趋,不必拼死挣扎,苏总也可以好好吃饭。

 

不过,英特尔的不疾不徐,并不代表AI芯市场除了它俩,别无玩家。环视四周,时刻叫嚣着“AI改变世界”的科技巨兽们对这块肥肉可是虎视眈眈。除了有钱任性,谷歌亚马逊们也实力不俗,无论是云侧还是端侧都推出了受业界认可的产品。

 

此外,高通、ARM等二线芯片厂商主要在应用端和IP核发力,重点集中在移动、物联网、自动驾驶,以及机器人等目前AI赋能热门领域。

 

最后,比较引人深思的是英特尔,外界质疑其一直在吃老本,主要因为没有像英伟达和AMD一样频出新品或更新工艺流程。不过对于不差钱的英特尔来说,其布局AI的战略是“买买买”。业界目前最为关注的是,其收购的Nervana NNP,能否在明年面市后掀起惊涛骇浪。

 

2019,一起期待吧!


本文由“机器人文明”出品

转载请注明出处




长按二维码加公号,后台留言微信号,入群“AI大爆炸”


往 期 精 选 


2019 互联网校招全薪酬出炉,AI岗位能拿多少?
NLP黄金十年开启!一文了解最全产业图谱
AI薪酬起底:百万年薪被平均后还剩多少?AI+教育,你家Python从娃娃抓起了吗?价格战背后,智能音箱的产业迷局


 

我是广告:欢迎给“机器人文明”投稿~

好文请投:tougao@gsi24.com

— 完 —


机器人文明 服 务 内 容


广告投放 | 政府招商 | 产业报告

投融资 | 专家咨询 | 人才服务 | 论坛策划

↙合作需求,请点击“阅读原文”联系我们

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存