别光盯着全球最大GPU！GTC 2018最全回顾，看这篇就够了

Original 2018-03-28 直击现场 AI前线

作者｜Vincent、Natalie

AI 前线导读：北京时间凌晨 0：00，大洋彼岸的美国加州圣何塞会议中心，被称为英伟达技术盛宴的 GTC 2018 大会正如火如荼的进行着。作为英伟达 2018 的开年大戏，黄教主再次做足了准备（当然黑色皮夹克不算 (～￣▽￣)～）新一轮的“核弹”轰炸已经开始，没时间解释了，快上车！

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

GPU 家族再添重磅“新丁”

在本届 GTC 大会开始之前，国外媒体就已经开始盛传：黄仁勋将在 GTC 2018 上发布一款 GPU 家族的新品，这次 GTC 大会“有一定可能”会成为英伟达同时发布 GPU 硬件种类最多的一次。此外，目前活跃在外媒爆料中的新架构代号，已经有 Ampere（安培）、Turing（图灵）两个。

就在发布会开始前几个小时，外媒又突然曝出小道消息称：

与之前的传闻和报道相反，Nvidia 可能会在 GPU 技术大会（GTC）上为我们带来下一代游戏显卡。据报导和传闻称，下一代 Nvidia 显卡被称为 GTX 20 系列。

虽然是小道消息，但是根据近三年来 GTC 上新品的发布情况看，也不无道理。

GTC 2015 上，英伟达发布旗舰显卡 TITAN-X、Pascal 架构的路线图，同时，黄仁勋在现场和埃隆·马斯克大谈自动驾驶；
到了 GTC 2016，英伟达发布全新的 P100 GPU、更新自动驾驶的进展以及对于深度学习方面的大力投入；
去年的 GTC 2017 上，英伟达再次放出“核弹”，发布了全新的 Volta 架构 GPU Tesla V100、同时发布 GPU Cloud、虚拟机器人产品 Project Holodeck 以及主要针对自动驾驶的轻量化平台 Xavier DLA。

然而，小道消息终归还是小道，发布会开始之后，黄教主亲自出来用产品破除谣言。

小“核弹”——Quadro GV100

黄教主登场了，还是熟悉的黑色皮夹克，还是很激动：今天又有很多新的东西要带给全世界。

作为一个做显卡起家的公司，黄仁勋说，几十年来，计算机科学家们一直在重新创建逼真的图像。光线跟踪跟踪每一个光子在场景中的反弹，基于它撞击的材料。电影业就是这样做的，它需要数以千计的 CPU 来完成这件工作。一个 CPU 需要几个小时来计算一帧，而电影中有数十万帧。过去四十年来，我们一直在努力缩小差距，以创造一部完整的电影。

随后大屏幕上展示了一段来自《最后的绝地武士》的电影场景，是一群正在聊天的风暴骑兵，黄教主说，这实际上是用光线跟踪进行实时渲染的。

黄教主随后说到：“现在我们可以把实时光线跟踪推向市场了。该技术已封装成多层。正因为深入学习取得的成果，我们可以预测光线，所以我们才能追踪所有光线。”

于是，按照惯例，黄老板又“随手”掏出了一块“核弹”——Quadro GV100。

黄老板展示新产品

Quadro GV100 是世界上第一个基于 Volta 架构的工作站 GPU。它拥有一个称为 NVLink 2 的新互连，可以将编程和内存模型从 GPU 扩展到另一个 GPU，使它们基本如同一个 GPU 一样工作。这两个处理器加起来有 10，000 个 CUDA 核心，236 万亿次 teraflops，所有这些都是用来革新现代计算机图形 or 显卡，拥有 64GB 的内存。

接着，黄教主又说出了那句经典的话：“The more GPUs you buy，the more money you save！（你买的 GPU 越多，你省的就越多）”

每年有至少 400 个电子游戏会被制造出来，他们使用光线跟踪提前渲染整个游戏。最终玩家看到了奇妙的阴影和细节，整个世界都变得如现实一般。电影业每年在 500 部电影中使用这种方法，每一帧都要渲染多次。想象一下，如果一个 CPU 花几个小时处理一个帧，这需要多长时间。而有了 Quadro，实时渲染成本降低了 1 / 5，占用空间减少了 1 / 7，功耗减少了 1 / 17。

“Come to GTC，learn how to save millions of dollars！（来参加 GTC，老黄教你节省百万美金）”黄仁勋补充说。

医疗影像超级计算机：CLARA

接着，黄教主说，今天的第二个重头戏，就是英伟达在 AI 医疗领域的进展。

Clara，英伟达推出的一款医疗影像超级计算机，一个虚拟化数据中心：远程、多模式、多用户。

为了展示 Clara 的强大，黄教主连线了场外的同事，进行了一番演示：

通过 Clara，可以看到灰色像素和一个美丽的渲染胎儿之间的区别，后者还有清晰准确的肤色。这项技术被广泛应用于 CT、核磁共振、宠物扫描等领域。

真的是“核弹”！世界上最大的 GPU

老黄举了个例子：AlexNet 一个处于领先地位的神经网络，五年来多次赢得了 ImageNet 竞赛，它已经催生了数千个人工智能网络。最初的 AlexNet 有 8 层和数百万个参数，现在已经是数百层具有数十亿个参数。五年内增长了 500 倍。摩尔定律只预测到 10 倍。

教主称之为神经网络的寒武纪爆炸（Cambrian Explosion）——卷积网络、循环网络、生成对抗网络和强化网络。

因此，“世界不需要大的 GPU，不需要很大的 GPU，世界需要一个巨大的 GPU。”

大概这么大就足够了！

于是，黄仁勋说到： “今天，我宣布推出世界上最大的 GPU—它相当于 16 个 Volta，由 12 个新的 NVSwitches 连接起来的。它创建了相当于 512 千兆字节的内存。寻址内存的方式使用相同的软件。总计每秒 14tb 的聚合带宽。1，440 部影片可以在一秒钟内通过这个 Switch 传输。总共拥有 81，900 个 CUDA 内核，2petaflops。现有世界上最快的超级计算机是 125petaflop，美国最快的是 100petaflop。而光这一块 GPU 就有 2petaflop。”

黄教主这样形容：“它太漂亮了，太性感了！”

这款 NVIDIA 创造的，目前世界上最大的显卡名为 DGX - 2。

它的处理能力是 2017 年 9 月发布的 DGX - 1 的 10 倍，随着我们对人工智能的不断探索，神经网络的层数越来越多，对不同框架中训练速率要求越来越高，我们需要更大的神经网络，做更多的实验，DGX - 2 的出现恰好是最好的时机。

这台耗费了数亿美金打造的世界最大 GPU，售价为：39.9 万美元，“相当于需要消耗 180 千瓦的 300 台双 CPU 服务器，那可得要 300 万美元！这个只需要 1/8 的成本，1/60 的空间，1/18 的功耗。”不得不说，黄教主在说这一段的时候，像极了电视购物种的导购员。当然了，仍然离不开他那句名言:“你买得越多，省的就越多。”

同样的，小道消息中所谓的“挖矿”专用显卡，也没有出现。

除了 GPU，这些进化你值得一看

NVIDIA GPU Cloud

机器学习有什么样的特点？黄教主说：可编程性、延迟、精确、大小、吞吐率、能耗效率、学习率，这几个词语的英文单词开头，连起来是一个词语：PLASTER，黄仁勋说：“我希望你能记住这些东西。推理很复杂，一点儿也不容易。超大规模数据中心是迄今为止制造的最复杂的计算机。”

“我们都置身人工智能的舞台上。”老黄说，“计算正在呈指数增长。深度学习模型的有效性正以双指数增长——更多数据、更多计算——为 AI 创建了双指数。”

“这个系统很复杂。这个软件很复杂。因此，英伟达创建了容器来存放优化吼的软件。你可以把它们想象成特百惠。我们称之为 NVIDIA GPU 云（NVDIA GPU Cloud），简称 NGC。 46 40275 46 18724 0 0 11456 0 0:00:03 0:00:01 0:00:02 11451

黄教主接着夸道：“这些 NGC 容器非常棒。无论使用哪种云，你都可以使用相同的堆栈。我们已经拥有 20，000 注册用户，30 个容器，高于去年不少。NGC 已在我们运行的数据中心获得认证—包括 AWS、Google 云、Oracle 云、阿里云。它是唯一能够在任何云上运行的体系结构。”

（小编注：黄教主夸自家平台的时候嘴瓢了，夸到忘词也是没谁了）

TensorRT 4

TensorRT 于 2016 年 9 月推出，TensorRT 2 于 2017 年 4 月推出；TensorRT3 于 2017 年 9 月推出。现在该是 TensorRT 4 了——它可以处理递归神经网络，并且已经深度集成到 TensorFlow 中。完成神经网络的训练之后，用户可以直接在设备上运行这些神经网络。现在，英伟达在整个软件堆栈中实现了完全优化—TensorFlow、Kaldi 优化、ONNX、WinML，TensorRT 现在可以加速语音、对话、自然语言处理、自然语言理解。

简而言之，TensorRT 进步的成果为：图像加速了 190 倍，NLP 加速了 50 倍，推荐引擎加速了 45 倍，语音加速了 36 倍，语音识别加速了 60 倍。英伟达将超大规模数据中心的速度提高了 100 倍，就像老黄说的：这可以省很多钱。

黄教主还展示了一个识花应用程序。虽然以前演示过这个 demo。

在 CPU 上运行时，它开始每秒能识别 4 种花。当这个程序在 Volta 架构的 NVIDIA GPU 上运行时，在同一网络的一个 GPU 上每秒能识别 873 种花。运行在 Kubernetes 中，创建作业的副本，现在已经能做到每秒识别七千张图片。

“这就像魔法一样，”老黄说。

自动驾驶或将迎来大规模推广

自从英伟达的芯片被为自动驾驶行业大量使用开始，黄老板在每届大会上都会提到有关英伟达在自动驾驶领域的进展情况。

从英伟达宣布 NVIDIA DRIVE 项目开始，到今天，已经过去了六年的时间，去年 GTC 大会上，黄仁勋亮出了一份名单，上面有全球 145 家自动驾驶初创公司的名单，这 145 家公司正在研制基于 NVIDIA DRIVE 的自动驾驶汽车、卡车、高清制图及服务。而今天的大会上，黄仁勋宣布，这个名单已经增长至 370 家。

“任何会移动的东西都将变得自动化。 ”

黄仁勋在自动驾驶部分的演讲开始时说了这样一句话。他解释说，这是因为人们正在因为拥挤而远离城市，而网上购物需要很多车来给我们送货，另外 10 亿辆汽车将在未来 12 年内进入社会；停车场是必需的，但大多建在城市中心。

之后，老黄提到了前不久的自动驾驶事故，他说:“安全是唯一也是最重要的。这是世界上最难计算的问题。最近这次致命事故提醒我们，这项工作至关重要。我们需要一步一步地解决这个问题，因为事关重大。如果我们做得好，我们将能够拯救很多生命。"

黄仁勋认为，这是最终极的深度学习和人工智能问题，他说道：“即使我们发现了错误，也必须加以管理。”功能安全的标准非常非常高，据介绍，英伟达已经花了五到七年的时间来了解这个系统，他们正努力坚持到底。

老黄详细介绍了 NVIDIA 的感知基础架构：

每辆车都在收集数百万字节的数据，我们需要用数据中的元素对他们进行标注——每个月需要 1500 人给 100 万个元素做标注；
训练在 NVIDIA DGX 系统上进行，然后对其进行验证；
最后通过这个系统创建网络，现在在汽车中有 10 个网络。每个网络分配有 10 个 DGX。

这 10 个网络包括感知、自由空间距离感知、天气、激光雷达感知、基于摄像头的映射、摄像头到高清地图的定位、激光雷达到高清地图的定位、路径感知和场景感知。

老黄随后展示了他所谓的自制视频，它突出展示了同时运行的各种神经网络。它展示了自动驾驶汽车如何操作和处理刹车灯、左转和其他复杂情况。有几千名工程师正在从事这项工作，他们为此工作两三年，然后我们才能开始批量生产。“这是我们遇到过的最复杂的计算问题之一，而且安全问题成倍增加。”老黄补充道。

升级版的体系架构

为什么不直接放一辆车来演示一下呢？黄仁勋解释说，他们正在努力打造一套自动驾驶汽车的行驶流程和基础设施，以便整个行业能够利用这套东西，打造自动驾驶汽车的未来。“但是每辆车都应该借助人工智能来监视我们，确保我们的视线是活跃的，而不是在打瞌睡。 ”

黄仁勋展示了一个架构路线图：从只有一个芯片的 Driver PX Parker 开始，发展到拥有四个芯片的 DRIVER PX 2，然后英伟达推出了 DRIVER Xavier (包含这四个芯片的计算能力，并将其缩小为一个——这是目前英伟达打造的最大的单个芯片（Volta 除外），有 90 亿个晶体管；现在正在制造样品)。

基于 Xavier，英伟达创造了一个四芯片系统，拥有两个 Xavier 和两个 Volta——这台 300 瓦的计算机正被用于机器人汽车中，今年晚些时候将投入生产。它们是自动驾驶级别的，超级节能，而且是 ASIL - D，达到了最高的功能安全标准。

“虽然 DRIVER Peagasus 已经很强大了，而且很多自动驾驶汽车正在使用它。我们的下一步称为 Orin——我们将采用 8 个芯片，两个 Pegasus，并把它们放入两个 Orin。这是我们的路线图。”虽然大会已经过去两个小时，但是“鸡血”老黄似乎毫无倦意，仍然精力充沛地讲着。

在美国，每十亿英里就有 770 起事故发生。一支由 30 辆测试车组成的车队每年行驶 100 万英里。黄仁勋说，英伟达正在试图建立一个比人类更好的系统，但这在现实生活中是不可能的。

因此，需要在各种条件下，通过模拟现实情况的逼真度和性能，来重建现实环境，英伟达创造了 DRIVER Sim，它是能够创造整个世界的图像生成器。我们用一台自动驾驶汽车的计算机代替了驾驶员，DRIVER Xavier 和 Pegasus 组合在一起，以感知周围的虚拟世界——它被称之为 DRIVE CONSTELLATION。

东海岸的自动驾驶发布会

在 GTC 开场之前，美国东海岸的纽约，自动驾驶公司 Waymo 也没闲着，Waymo 无人车发布会早于 GTC 两个小时开始。

Waymo 和捷豹 CEO 联合宣布：联手设计和制造世界上第一款为 Waymo 运输服务而制造的高级电动全自动驾驶车辆，这款全新自动驾驶捷豹 I-PACE 将捷豹的创新设计与 Waymo 的尖端自行驾驶技术融合在一起。

Waymo 的 CEO，John Krafcik 在发布会上表示：未来几年内，我们将为 Waymo 的机队增加 2 万个 I-PACE，这足以在典型的一天内驱动约一百万次旅行。通过这种合作关系，我们可以为全国各地的许多社区提供安全，安静和环保的自驾车服务。

回想几天前的 Uber 无人车事故，虽然全球震惊，但是似乎并没有影响到太多的自动驾驶企业，包括 Waymo 在内的多家自动驾驶公司都没有选择暂停路测，而是继续改善、提升无人车的安全性。

Waymo 今天发布会上正式声明，标志着自动驾驶服务正在开始逐渐走上正轨，2018 年或将成为自动驾驶技术正式落地的元年。

结尾

这篇文章完成时，已经是北京时间凌晨 3：00 了，GTC 2018 的新年开箱大会圆满结束。简单总结一下：

芯片和云方面

英伟达将 Volta V100 的内存提高一倍，达到 32GB
发布了全新的 DGX-2，配备 32GB 的 V100
NGC 现在已经在 AWS、谷歌云、阿里云和 Oracle 云上运行
具有 30 个优化容器的 NVIDIA GPU 云
TITAN V 依然缺货

自动驾驶方面

安全很重要
发布了 Driver 芯片的线路图，下一款产品将是 Orin
发布了驾驶环境模拟器：DRIVE CONSTELLATION
可利用 VR，远程操控无人车

不可否认，英伟达依旧是目前世界上最有前途的芯片公司之一，黄老板的一张大手几乎伸到了科技圈的各个领域，这家总是不断带给我们惊喜的公司用实际行动推动着世界科技的发展，接下来，GTC China 2018 大会，黄教主还会放出什么样的大招？我们拭目以待，苏州见！

课程推荐

【课程推荐】深入浅出区块链——36节课，5大模块，上手写出你的第一个区块链项目

福利：每邀请一位好友购买，你可获得 18 元现金返现，多邀多得，上不封顶，立即提现

获取海报：关注极客时间服务号－我的－获取专属海报

提现流程：极客时间公众号 - 我的 - 现金奖励提现

订阅方式：点击下图，微信支付，立即成功订阅。

有问题，欢迎咨询小助手微信：geektime001

AI前线紧跟前沿的AI技术社群

如果喜欢我们的文章，欢迎大家在阅读后随手点赞，以示鼓励。原创是一种信仰，专注是一种态度。

反向激励，在加速这个社会的黑化

指向自身的觉醒，只会导向新的困境

清华大学的113周年校庆：都这么创新了吗？

刚刚，司法部原副部长，在公安部工作过28年的省公安厅原厅长被查

观察｜实验室被强行关闭，病毒学家在门口过夜？