“AI教父”黄仁勋京城掀起“革命”，正式发布全球首款可编程 AI 推理加速器，GPU时代的大幕才刚刚拉开

原创 2017-09-26 DeepTech深科技

DT君在明年1月举办的全球新兴科技峰会，GPU之父、英伟达首席科学家Bill Dally将发表主题演讲。预知详情，请点击图片！

从退出移动市场到引领人工智能浪潮，NVIDIA 过去一年股价狂飙三倍，甚至让某些华尔街分析师一度暂时停止估价。黄仁勋这三个字变成“AI 教父”、“让科技以 3 倍速前进的男人”..... 等。从全世界开始对人工智能、自动驾驶趋之若鹜之后，关于 NVIDIA 的一切已经无需太多说明。

北京时间 9 月 26 日，也就是今天上午，NVIDIA 创始人兼 CEO 黄仁勋在北京 GTC（GPU 技术大会）上发表主题演讲《AI 的趋势、挑战与机遇》（AI Trends, Challenges and Opportunities）， DT 君从现场发回报道。

图丨英伟达GTC大会入场

图丨一语道破英伟达的愿景

图丨现场的 Jetson TX2 超级计算平台

图丨黄仁勋表示，AI已无处不在，两股力量正推动计算领域的未来。第一，摩尔定律已终结，设计人员无法再创造出可以实现更高指令级并行性的 CPU 架构；第二，深度学习正在引领软件和计算领域的变革。深度学习、大数据和 GPU 计算的结合则引爆了 AI 革命。与此同时，NVIDIA 的 GPU 也弥补了CPU 的不足，加速处理高强度计算负载，为整个行业指明了前进的道路。

图丨AI 推理平台必须具备可编程性才能运行种类繁多且不断演进的网络架构

图丨黄仁勋介绍智能设备的爆炸性增长

https://v.qq.com/txp/iframe/player.html?vid=y13251hzw4t&width=500&height=375&auto=0
黄仁勋表示，在不远的未来，数据中心内的每个查询和工作负载都将涉及一个或多个 DNN 推理。推理吞吐量直接转化为数据中心成本。V100 可将 CPU 速度提高 40 倍，所以只需一台 8-GPU 服务器即可替换 160 台双 CPU 服务器或 4 个机架。每台 V100 服务器可节省约 50 万美元！

图丨自动驾驶汽车的发明将是 AI 最大的贡献之一。NVIDIA DRIVE是一个为自动驾驶行业带来变革的端到端平台。与此同时，作为NVIDIA开发的自动驾驶应用，DRIVE AV 将环绕摄像头、雷达和激光雷达的传感数据融合。多种深度学习和计算机视觉算法将为L4和L5级别自动驾驶技术提供所需的多样性和冗余性。合作伙伴能利用我们平台的所有或部分特性。

图丨NVIDIA DRIVE 是最前沿的深度学习和计算机视觉计算机，可以让新型的初创公司设计新的算法和软件。145家初创公司正在研制基于NVIDIA DRIVE的自动驾驶汽车，卡车，高清制图及服务。

鉴于中国市场的重要性和 AI 创业的持续火热，黄仁勋这次现身北京，也是继今年 1 月拉斯维加斯 CES 公布一系列全新产品，以及 5 月圣何塞 GTC 发布基于全新 Volta 架构的 Tesla V100 加速卡后，最重磅的一次公开露面。主题演讲的内容，也是全球 AI 从业者所关心的 Tesla V100 最新的进展，以及相关软硬件的部署情况。

今年 5 月黄仁勋在圣何塞 GTC 上正式发布 Tesla V100 加速卡的情景，相信很多人还记忆犹新：黄仁勋掏出一张手掌般大小的卡片，一改往日的沉稳做派，情绪激动的向全世界展示这一革命性的“性能怪兽”：Tesla V100 加速卡。黄仁勋的激动可以理解，毕竟他手握的是 NVIDIA 投入了数千人、花费了数年时间、耗资 30 亿美元打造的产品，他甚至称“打造 Tesla V100 是不可能完成的任务，难以置信！”

图丨黄仁勋在今年 5 月的圣何塞 GTC 上重磅发布 Tesla V100

言归正传，黄仁勋在本次北京 GTC 上的主题演讲也是以 Tesla V100 加速卡和 TensorRT 3 可编程推理引擎这两大软硬件平台为核心所展开的。本次的主题演讲主要分成四部分：

TensorRT 3 推理引擎（TensorRT 3 Inference Engine）

作为本次 GTC 最重要的发布之一，TensorRT 3 是 NVIDIA 最新版本的可编程推理平台，能协助用户快速完成 AI 推理引擎的布署。

图丨黄仁勋宣布NVIDIA兼容所有的AI开发框架

图丨黄仁勋宣布推出 NVIDIA TensorRT3。TensorRT 是全球首款可编程 AI 推理加速器，TensorRT 可编程，且支持所有框架，并能加速现有和未来的网络架构。NVIDIA TensorRT3 的性能非常卓越，例如，运行在Volta 上的 TensorRT3 在图像分类方面比最快的 CPU 还要快 40 倍，在语言翻译方面则要快 140 倍等等。

简单来说，一边是个大公司开发出来的机器学习框架，诸如 Google 的 TensorFlow、Facebook 的 Caffe2、微软的 Cognitive Toolkit 等，另一边则是用来加速学习的硬件，当然是 NVIDIA 的自家产品，比如 Tesla V100、DRIVE PX 2、JETSON TX2 等。那么如何简单快速又高效的在深度学习框架和硬件之间建立起联系？让算法能够真正很方便的跑起来？TensorRT 3 就充当了中间这个桥梁，让深度学习的门槛大大降低。

图丨NVIDIA TensorRT 可编程推理平台（来源：NVIDIA）

TensorRT 是基于神经网络上的推理加速库，通过为开发者提供现成的程序库来有效缩短开发时间。TensorRT 是采用 GCC 开发而成的 X++库，其 1.0 版支持 FP16 计算特性，2.X 版则是增加了 INT8 的支持，并且支持开放式开发环境 Caffe 大部分常用的层以及模型。

众所周知，深度学习分为训练（training）与推理（inference）两个阶段。与训练时不同，推理工作所使用的精度不需要到很高，一般而言四分之一精度计算就已经足够了。目前 TPU、FPGA、GPU 或者是 NVIDIA 新推出的 Tensor Core，在处理推理工作时，都是采用 INT8 计算。

而根据NVIDIA官方开发网站的介绍，最新版本的TensorRT 3除了具备INT8特性外，同时进一步强化INT8加速技术，并增加了动态内存管理以及内核自动优化机制，可有效减少计算压力、简化推理模型，节省终端所需要的推理计算资源。

图丨TensorRT 3 的技术特点（来源：NVIDIA）

通过 TensorRT，开发者可以大幅减少推理过程的延迟现象，几乎可达到实时反应的地步，这对于像在线影音分类、对象侦测以及自动驾驶的应用而言，无疑是非常重要的特性。

当然，TensorRT 若是从头到尾重新开发属于自己的库，NVIDIA 同样也会完全支持，并提供相对应的函数，让开发者同样能够享有 INT8 加速效果，并且可以支持更多定制化的 AI 技术。

目前，已经有很多企业导入了 INT8 加速技术，来加快推理过程，从而减轻终端负担，比如滴滴、大疆、Face++、微软亚洲研究院等，未来普及率也会逐渐增加。TensorRT 包含在 NVIDIA 提供给开发者的工具与函数库 JetPack 中，只要使用 NVIDIA 的方案就可获得。

图丨TensorRT 可协助用户快速部署训练完的模型，并根据用户需求套用推理库来进行优化（来源：NVIDIA）

Tesla V100 全面融入中国的 AI 云服务

介绍完全新的开发平台后，该讲讲自家产品在行业中的应用了。首先，黄仁勋举了一个很简单的例子来说明目前 CPU 并不是 AI 相关计算的最佳选择。以中国语音识别领域的著名厂商科大讯飞为例，以其语音产品每天 5 亿人次的访问量、每次平均 15 分钟的使用时长来计算，要满足这个计算量将要花费 10 亿美元来搭建基于 CPU 的数据中心，这包括 20 万个 CPU 服务器，以及 100 兆瓦的耗电量。

图丨黄仁勋在GTC大会上也宣布了重大合作消息，目前，阿里巴巴、百度和腾讯已在各自的云服务中采用 NVIDIA Volta GPU —— 研究人员和初创公司现在可以租用云端最先进的 AI 基础设施，免于建造超级计算机的复杂性和高昂费用。华为、浪潮和联想也已采用 NVIDIA 基于 HGX 的 GPU 服务器——对于需要专用 AI 超级计算机的企业，NVIDIA正在与中国主要的系统集成商开展合作，提供经过全面优化的服务器。

图丨黄仁勋宣布中国云服务提供商采用 NVIDIA GPU 加速的推理平台。中国拥有世界上最庞大和最活跃的互联网用户群，并且中国的互联网公司是 AI 领域的全球领导者。他们正在竞相把 AI 融合到商业、社交、新闻、语音、实时视频和图像共享中。中国的顶级互联网公司都采用了 NVIDIA 的可编程推理加速平台来支持呈指数级增长的 AI 工作负载。

而 NVIDIA 的 HGX 服务器则是在 8 个 Tesla V100 加速单元的基础上搭建的 AI 专用加速器，单个 HGX 服务器在语音／图像识别推理方面的计算性能相当于 150 个传统 CPU 服务器。

图丨在语音／图像识别推理计算能力方面，单个 HGX 服务器相当于 150 个传统 CPU 服务器（来源：NVIDIA）

目前，NVIDIA 已经与中国的主流科技公司展开了技术合作，从现场公布的数据来看：将科大讯飞单个服务器能同时处理的访问量提高了 10 倍；将微信语音转文字的数据通量提高了 2.5 倍、精确度提高了 20%；将京东单个服务器的视频分析效率提高了 20 倍；将阿里巴巴语言翻译的处理能力提高了 3 倍、延迟降低了 3.5 倍。

图丨GPU 加速器对各厂商 AI 相关服务的优化（来源：NVIDIA）

同时，黄仁勋也正式宣布，Tesla V100 将于中国的三大云服务运营商：阿里云、百度云、腾讯云做全面融合，助力中国的 AI 云服务。

中国主流服务器厂商开始采用 HGX 加速方案

HGX 超大规模 GPU 加速器目前已被包括华为、浪潮、联想在内的中国一线服务器厂商所采用，相关产品也会陆续发布。

图丨华为、浪潮、联想等服务器厂商已经开始在产品中整合 HGX 服务器（来源：NVIDIA）

NVIDIA的自动机器人

鉴于苹果刚在不久前发布了 A11 Bionic 芯片，业界对终端 AI 应用何时到来也是有很大争议。DT 君也于北京 GTC 期间采访了 NVIDIA 副总裁兼加速计算总监 Ian Buck，他表示目前 NVIDIA 确实在终端 AI 方面有所动作，但更多的是聚焦在机器自动化方面，比如服务型机器人、无人机等，在手机端目前还没有太多打算。

图丨黄仁勋宣布全球首款自主机器处理器Xavier。Xavier是迄今为止最为复杂的片上系统，并且Xavier将成为下一代Jetson的片上系统！与此同时，NVIDIA宣布京东 X将会采用我们的Jetson平台，实现其自主机器，机器人技术将会革新制造，物流和配送行业。

NVIDIA 不看好手机端 AI 应用的原因貌似很简单，用 Ian Buck 的话来说就是“本地端只能解决一些小问题，AI 是一个非常复杂的系统，必须结合多层次的解决方案。”

黄仁勋的主题演讲也印证了这一点。目前，NVIDIA 已与京东的子公司 JDX 合作，共同研发仓储机器人 jRover 及自动送货无人机 jDrone。而且计划在 2022 年之前完成 100 万架无人机的部署。

图丨NVIDIA 将与京东合作开发仓储机器人与无人机（来源：NVIDIA）

Volta 架构 + TensorRT 3，NVIDIA 将正式进军推理领域

从这次北京 GTC 所发布的内容，以及黄仁勋本人的演讲来看，传递了两个明显的信号：一是 GPU 暂时无可取代，如果出现别的解决方案，GPU 也会快速做调整来适应市场；二是 GPU 只适合训练（training），不适合推理（inference）的老观点是时候改改了。NVIDIA 当然知道，AI 计算不能只有训练部分，而是必须也包含推理，否则就只是半套解决方案，而且这也意味着将一半的市场白白送给对手。

图丨训练和推理是 AI 生态的一体两面，缺一不可。（来源：NVIDIA）

AI 必须循序渐进，没有训练，就谈不上后来的推理。而当初若没有 GPGPU（通用型图形处理单元），所谓的机器学习可能现在都还只存在于教科书或者论文当中，而不是像现在遍地开花，甚至即将进入终端市场，推动从云到端的 AI 应用生态。

Google 提出的 TPU（张量处理单元），基本上就是一个为推理优化的 ASIC 架构，虽具备一定的训练能力，但训练性能表现远不如 NVIDIA 的 GPGPU。TPU 的好处是由于采用 ASIC 的固定设计，功耗低，理论的功耗性能比相对于其他计算架构明显要更高。

NVIDIA 虽然在机器学习领域有着极重要的地位，但过去在推理方面的效能并不是太出色，也因此让 FPGA 或 TPU、寒武纪等竞争架构有机可乘。但黄仁勋和他的 NVIDIA 不会坐以待毙，在今年 5 月圣何塞 GTC 大会中正式发布了基于 Volta 架构的 GPU 产品 Tesla V100，不仅加入 Tensor Core 设计，大幅强化推理性能表现，更是配合 Tensor RT 生态的布局，意图重新掌握 AI 核心计算硬件的话语权。

图丨基于 Volta 架构、整合了 Tensor Core 的 Tesla V100 （来源：NVIDIA）

Tensor Core 是一个类似 Google TPU 的 SIMD 核心，每个 Tensor Core 每个时钟可执行 64 次浮点 FMA 混合精度运算（FP16 乘法与 FP32 累加），一个 SM 单元中的 8 个 Tensor Core 每个时钟可执行共计 1024 次浮点运算。

相较使用标准 FP32 计算的 Pascal GP100 而言，单一 SM 下的每个深度学习应用的数据通量提升了 8 倍，所以这最终使得 Volta V100 GPU 相比于 Pascal P100 GPU 的数据通量一共提升了 12 倍。如果将其换算成推理能力，集成 Tensor Core 的 V100 较前代产品有 6 倍的性能提升，而 Tensor Core 本身具备 ASIC 的特点，也就是非常省电，其占用芯片面积也可以控制在合理的范围内。

图丨Tensor Core 基本上就是一个针对特定算法优化的 ASIC 组件（来源：NVIDIA）

2017 年 Google 发布了二代 TPU 架构以及 TensorFlow 框架，把从训练到推理的过程完整打包成一个应用套件，各家硬件厂商都可针对此应用套件发展自己的硬件架构。虽然不少人把 TPU 当作 NVIDIA 未来在 AI 产业的一大挑战，但 Google 只是希望提出一个业界可遵循的设计范例，并非要直接杀入市场。而 NVIDIA 也没有将 TPU 当作敌手，反而是成为学习的对象。

正因如此，Tensor Core 的基本概念与 TPU 相当一致，要说 TPU、Tensor Core 是竞争架构，不如说系出同门反而更合理。从 Google 只拿古老的 NVIDIA K80 和 TPU 比较，就知道 Google 的本意根本是明贬暗褒 NVIDIA，随后发表的 Tensor Core 架构和 TPU 相当雷同，而 Google 更是第一时间使用了 V100 作为其云平台的核心架构，可见两家并非外界所理解对立关系。

在 Google 的推动下，业界还是会提出更多竞争架构，FPGA、DSP，以及来自中国的寒武纪，甚至 Imagination 推出的 AI 加速单元，都在整个机器学习大环境中扮演各自的角色。但 NVIDIA 比整个产业早了不只一步，且在架构发展的推动方面，GPU 的迭代周期短，且每次升级后性能成长幅度更是超越了摩尔定律。

图丨得益于 Tensor Core，V100 的训练与推理性能远超过前代产品。（来源：NVIDIA）

NVIDIA 的 AI 布局虽趋完整，但新势力的崛起不可忽视

而当业界把 AI 加速硬件从训练阶段延伸到推理阶段，也代表未来技术发展重点在于如何快速把训练完成的模型部署到应用中。不久的未来，我们也可看见更多 AI 应用出现在我们的生活中，NVIDIA 的 Tesla V100 是这个演化过程的一部分，加入 Tensor Core 的设计也不过就是应对客户需求的一种手段。

不过外界或许会有疑问，除了 AI 训练、推理外，Tensor Core 乍看之下好像对 NVIDIA 的老本行，也就是游戏应用没有太大的帮助。但事实上，未来游戏发展也会加入一定的训练与推理能力，游戏场景、游戏过程，甚至人物角色都可以通过 AI 来变得更加丰富。正如微软下一代的 DirectX，如果不出意料，应该也会加入 AI 相关的处理能力，从而满足在 VR 或 AR 游戏应用中所需要的环境对象学习、分析与逻辑判断等 AI 相关计算需求。

而 NVIDIA 也会持续推出具备 AI 能力的终端方案，包括汽车、无人机、家电等，未来也有可能采用更大比例的 Tensor Core 方案，协助这些终端在更少的功耗、更低的延迟下，做好计算工作，满足各种 AI 应用对实时响应的需求。

所以，从产品布局上去观察，我们可以说，最积极推动 AI 计算架构革新的 NVIDIA，目前最大的挑战其实并非来自对手，而是下一步要如何自我突破。所以说，虽然 NVIDIA 目前风头正劲，不过从中短期来看，NVIDIA 仍得面对两个问题。

首先，AI、机器学习的发展还在起步阶段，各种新技术的问世都很可能会让市场立刻转向，例如 Google 针对 TensorFlow 推出的机器学习专用芯片 TPU（虽然暂时不构成直接竞争关系）、以及 Intel 和 Xilinx 布局的 FPGA 等，都是目前行业内相当关注的技术。

而且已经开始有人泼冷水。美国投资研究机构 MorningStar 分析师 Abhinav Davuluri 在其最新的机器学习及人工智能研究报告中，就直言“NVIDIA 是不是人工智能领域的赢家，这件事还不是一个定局”。虽然是老调重弹，但确实代表了业内一部分人的观点。

他解释道，发展人工智能有训练和推理两个阶段，训练阶段需要运算能力来学习数据集，推理则是计算机根据新资料样本来推断答案。NVIDIA 会在训练领域持续独大，这个并没有疑问，但 Intel 与 Xilinx 的优势在于推理。而且他认为 Intel 比 NVIDIA 有更广泛的芯片选择。

对于竞争对手的威胁，NVIDIA 解决方案架构工程副总裁 Marc Hamilton 认为，TPU 仅能针对 TensorFlow 机器学习框架使用；而 FPGA 虽然效率高，但芯片编程难度很大。因此综合支持的应用范畴、编程易用性来看，GPU 仍是最适合的技术。

另外，同样拥有 GPU 技术的 AMD 也不会坐视 NVIDIA 独享市场。近日就传出，现采用 NVIDIA 方案的 Tesla 找上 AMD 合作，来开发自动驾驶芯片。尽管随后 AMD 官方出面否认这个消息，但是很多时候传闻并非空穴来风。

Tesla 有意开发自主芯片在市场上已传闻许久，去年初 Tesla 挖走了曾任职于苹果、 AMD，设计了 iPhone A4、A5 芯片、领导了 AMD Zen 架构开发的 Jim Keller。通过与 AMD 合作，Tesla 可以强化自主芯片的开发，另一方面当然就是减少对单一厂商的依赖。因此消息放出当天，NVIDIA 的股价一度下跌 4.7 ％，可以看出华尔街对 NVIDIA 中短期的市场竞争力或多或少是有疑虑的。

其次，另一个 NVIDIA 得面对的挑战就是长期策略。现阶段训练神经网络，最大的问题就是得花上很多时间，为了加快训练速度，目前最常见的做法就是买 GPU 、买很多的 GPU、买更多的 GPU……

但日前一篇加州大学伯克利分校领衔的研究人员发表的论文吸引众多目光，研究人员使用全新算法，在 24 分钟内训练 ImageNet，创下世界纪录，另外 ResNet-50 的训练时间为 1 小时，达到了跟先前 Facebook 一样的成绩。

但研究人员表示，他们只使用了 120 万美元的硬件，比 Facebook 当时价值 410 万美元的设备节省了很多。他们也强调“我们不隶属于 NVIDIA 或 Intel 任一方，对于 GPU 或 KNL 也没有任何偏好。我们只想表明，可以用更少的预算去实现相同的效果。”

也就是说，随着研究人员设计出更好的算法，对 GPU 的需求及采购数量势必会比现在下降不少。虽然这个问题在短期来看还不会困扰 NVIDIA，但长远来看，如何在产品供应及价格上找到平衡、以及 GPU 的应用领域如何持续扩大，仍是 NVIDIA 长期得思考的问题。

为游戏而生，但却改变人类世界

回顾 GPU 的发展历程，大约二十多年前，PC 和主机游戏都还只是低分辨率的 2D 游戏为主，真实 3D 游戏受到硬件性能限制，画面都极为粗糙。NVIDIA 当初就认为，如果可以摆脱 CPU 本身的限制，利用硬件设计去加速 3D 画面的绘制，那么就可以大幅降低 3D 游戏的门槛。

图丨首款利用 GPU 加速的 3D 游戏。（来源：ID Tech）

而因为这个概念而出现的 GPU 技术，让当时的人们理解到：原来通过专用加速硬件，可以做到比使用市面上最昂贵 CPU 更流畅细致的高精细度游戏画面处理，市场为之震惊。当 NVIDIA 成功将此概念带入市场，一时之间，出现了许多专用的 GPU 加速架构，就连以 CPU 见长的 Intel，甚至也因为害怕被 GPU 所取代，也跟风推出自有的独立 GPU 产品，想要在这个快速成长的市场分一杯羹。

2008 年，Intel 放弃独立 GPU 技术，转往集成架构后不久，其在上海 IDF 公开表示，图形卡产业已经走到尽头，相关的视觉计算工作将会由专用的可程序设计通用架构芯片取代。但事实上，Intel 所宣称的可编程通用架构芯片从未真正在绘图应用中普及过。

图丨NVIDIA 于 1996 年底发布的 RIVA 128 显卡

而除了 ATI，也就是后来的 AMD 还能勉强跟上和 NVIDIA 的技术竞争，其他曾发布过自有 GPU 技术的厂商不是倒闭，不然就是像 Intel，放弃自有独立 GPU 技术的发展。因为 GPU 技术发展太快，那些半路出家的厂商没有足够的技术和专利积累，根本无法追上竞争对手的脚步。

而到后来，GPU 本身的技术发展也开始脱离纯粹的游戏目的。

CPU 胜在专注，一件事可以很快完成，但同时间只能做好少数几件事，如果手上工作太多，那工作的效率就会大大降低。GPU 则是擅长一心多用，可以同时高效处理计算任务，然而这些计算任务必须相对简化、规则化，否则处理的效率就会受影响。

图丨CPU 和 GPU 架构的比较。（来源：圣荷塞州立大学）

GPU 本身是擅长大量并行、高密度的计算工作的一种架构。就以 3D 实时渲染为例，包括对象的构型、对象在 3D 空间中的位置、对象的颜色或材质的配合与处理，都需要通过 GPU 计算，才能达到每秒数十张画面的更新，达到人眼中的流畅效果。如果换做 CPU，那可能需要好几个小时才能完成一张画面的绘制。

在实时绘图这种需要同时处理大量计算工作的应用上，GPU 拥有的单一指令多数据流 (SIMD) 的多线程架构优势就远远超过 CPU。也因为绘图处理需要极高的并行计算性能，远超出当代的 CPU 能力，就有科研机构成功通过特殊方式，获取了这种计算性能，而这也就是后来 GPGPU 的雏型。

在科研机构的无心插柳之下，人们开始认知到 GPU 特殊架构所能带来的计算潜力，NVIDIA 并没有将这种“非正规应用”当作学者们的无心之作，反而极为认真看待这方面的应用发展，全力协助想要发展此类应用的科研机构。后来更以此研究为基础，发展出专用的程序接口 CUDA，并正式提出 GPGPU 概念。自此，GPU 一跃成为计算机世界中的计算主角，摆脱游戏设备的廉价概念。

在 GPU 出现之前，AI 曾经因为当时计算架构与性能限制，沉寂了很长时间，而随着具备大量并行计算能力的 GPGPU 的应用普及，机器学习、深度学习等 AI 的基础计算得以被快速执行，AI 概念也重新回到人们的眼中，甚至影响我们现在以及未来的生活。

GPU 擅长的大量并行处理能力满足了 AI 学习过程中所需要的计算能力，而当初若 NVIDIA 没有发展出 GPGPU，AI 根本没有机会在短短几年的时间内发展到如此规模，虽然现在业界提出了许多专用架构，每个都号称效率要高过 GPU，但事实上，这些架构的概念都是已经出现了很久的东西，比如说 FPGA、DSP，或者是 TPU 等专用 ASIC，相关概念早在业界存在了数十年之久，只是极为冷门，从未有机会登上主流计算舞台。

这些计算架构的重新被关注，其实该感谢 GPGPU 将相关计算概念真正实用化、市场化。

相较起这些数十年如一日的老架构，GPU 在始终一致的计算概念的前提下，技术发展却是日新月异，不仅换代时间短，且每次换代所带来的效能提升，或内建计算功能都能远远突破上一代产品。所以要说 GPU 在 AI 应用上已经被对手超越，可能还为时过早。

处于巅峰的NVIDIA，投资策略是否会一改往日的保守作风？

虽然 NVIDIA 现在风头正盛，但相较于其他美国大型科技公司善用收购掌握技术及市场，他们更倾向采取保守策略。根据 DT 君的统计， NVIDIA 成立以来，公开的收购案为 13 起。 AMD 则更少，只收购过 5 家公司，AMD最近一次收购是在今年 4 月买下研发 AR／VR 芯片的初创公司 Nitero ，以及在 2006 年买下 ATi Technologies ，来与 NVIDIA 竞争 GPU 市场。

但是，反观成立 49 年的 Intel 收购了 87 家公司、参与 52 起投资案；高通的收购案也有 47 起，投资案也多达 84 起。

不过，值得注意的是， NVIDIA 近年来因在人工智能、自动驾驶汽车等领域掌握了领先优势，业绩大幅成长，2017 财年营收为 69 亿美元，年成长率高达 38%，过去三年的净利率分别为 13.5%、12.3%、24.1%，尤其是 2017 财年的 24.1%，已经跟高通达到相同水准。

NVIDIA 的研发重点紧扣产业趋势，加上业绩优异，未来前景仍具高成长性，吸引了大量投资人追捧，带动市值冲破 1,000 亿美元大关。

图丨全球主要半导体公司目前市值对比（注：以9月22日收盘价计算）

这使得 NVIDIA 在财务资金操作上能比以往更为灵活，投资策略开始变得积极。NVIDA 成立至今共参与了 19 起投资案，其中发生在 2016 、 2017 年内的就占了 11 起。同时，拉拢创业公司也是一招，推出 NVIDIA Inception 创业计划，与 1,300 家 AI 创业公司合作以及提供战略性支持。

图丨NVIDIA 成立 24 年来的 13 起收购案

总之，黄仁勋的这场主题演讲最重要的无疑是，NVIDIA全面开始进军AI推理加速领域，从推理计算能力衍生出的各类应用，诸如高效图像语音识别、高等级自动驾驶、自动机器人、AI城市等等，NVIDIA都已涉及。

正如黄仁勋在演讲结束时说的：NVIDIA已将AI计算带入新纪元！当然，还有一点最重要：买更多的GPU，省更多的钱！

-End-

校审：郝锕铀

科技英语直播上线 | 跟着《麻省理工科技评论》每天学习科技英语！

点击左下方“阅读原文”进入小鹅通直播间

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！