英伟达30亿美元赌注：详解最强深度学习处理器、GPU云及新DGX

Original 2017-05-11 两弹元勋粉丝 量子位

陈桦李林发自凹非寺
量子位报道 | 公众号 QbitAI

昨晚堪称进行了一次AI“爆炸”，好几件大事同时发生。

首先，英伟达GTC大会行至高潮，新一代GPU正式发布，以及多项配套新技术，英伟达股价一夜上涨17%。

其次，微软Build大会也掀起高潮，软件巨头推出智能音箱等新产品，并且在边缘计算、人工智能等方面投下重注。

这是今天推送的第一篇，量子位先讲讲英伟达发布的新一代最强深度学习处理器。今天推送的第二篇，会讲讲微软如何押注人工智能。

英伟达CEO黄仁勋昨晚在英伟达GPU技术大会上发布了新的GPU架构Volta。Volta相对于前代产品性能提升了5倍。共有超过7000名科学家、工程师、创业者和媒体参加了此次大会。

在两小时的发布会上，黄仁勋发布了多款基于Volta、新的人工智能超级计算机，包括新款英伟达DGX-1深度学习计算机；展示了Isaac机器人训练模拟器；推出了英伟达GPU云平台，帮助开发者获得最新经过优化的深度学习框架；以及宣布了与丰田关于新一代自动驾驶汽车的合作。

AI推动了对GPU计算能力的需求

目前，全球有数亿用户依靠基于人工智能的搜索、翻译，以及语音识别服务。黄仁勋指出，去年，对人工智能创业公司的投资总额达到50亿美元。在两年时间里，Udacity在线教育平台上参与人工智能课程的学生增加了100倍，达到2万人。

这推动了对更庞大人工智能计算能力的需求。两年前，领先的图像识别系统需要每秒7000千万亿次浮点运算的计算能力。而目前，处理实时语言翻译的研究者需要超过每秒100000千万亿次浮点运算的能力。作为对比，全球排名前500的超级计算机峰值性能总和还不到每秒1000千万亿次浮点运算。

摩尔定律的失效

计算需求的迅速增长恰逢摩尔定律的失效。

目前，传统CPU单线程性能的每年提升只有1.1倍。而作为对比，GPU性能的提升仍能达到每年1.5倍。这些性能提升来自于芯片技术和软件技术的发展。

“有人认为，这代表了摩尔定律的失效。”黄仁勋表示，“这正是我们存在的原因。我们意识到，在摩尔定律终结之后，必须找到前进的道路。”

新架构：Volta

其实早在2013年，英伟达就公布了Volta架构名称。不过，后来这家公司的架构演进，变成Maxwell、Pascal和Volta。

Volta架构的第一款GPU是GV100，这是Pascal GP100的后继者，这也是英伟达的新一代GPU旗舰，用以驱动下一代Tesla产品。

Volta几乎是一个全新的架构，并不是12nm制程Pascal架构+新的Tensor Cores。在线程执行、调度、核心布局、内存控制、ISA等方面都有显著不同。

Tensor Cores是Volta的一种新核心，专门为Tensor深度学习运算设计。这些内核本质上是将用于执行4×4矩阵操作的ALU大量集合在一起，特别是融合了乘法加法(A×B+C)，将两个4×4 FP16矩阵相乘，然后加上一个FP16或者FP32的4×4矩阵，最后生成一个4×4 FP32矩阵。

这些核心的意义在于，通过在一个单元中执行巨大的矩阵矩阵乘法运算，NVIDIA可以为该操作实现更高数量的FLOPS。

单个Tensor Core每时钟执行64个FMA操作（总共128 FLOPS），每个SM具有8个这样的内核，每个SM每个时钟1024个FLOPS。相比之下，即使采用纯FP16操作，SM中的标准CUDA内核只能在每个时钟产生256个FLOPS。

因此，在可以使用这些内核的情况下，可以实现4倍于Pascal架构的性能。

Volta还使用了最新NVLink，可以提供更大的带宽。GV100比GP100度两个NVlinks，一共有6个。

另外，Volta使用的SIMT（单指令多线程）也有重大改变。32线程内的单个CUDA内核现在具有有限的自主权。线程现在可以在一个细粒度的水平上进行同步，这意味着更高的整体效率。个别线程现在可以产生，然后重新安排在一起。

Tesla V100 GPU

使用GV100 GPU的第一个产品，是Tesla V100。这也是一款专注深度学习的最新加速处理器。

这款加速处理器搭载了210亿个晶体管，使用了台积电12纳米FinFET工艺制造。Tesla V100包含5120个CUDA核心，在64位计算精度下能实现每秒7.5万亿次浮点运算，在32位计算精度下能实现每秒15万亿次浮点运算。

英伟达CEO黄仁勋表示，V100搭载了新的Tensor核心，其中包含4x4的主处理阵列，能并行完成矩阵乘法，以某些精度来看吞吐量达到前一代Pascal架构的12倍。

他同时表示，相对于Pascal架构，V100的通用每秒浮点运算次数为1.5倍，对深度学习训练的提升达到12倍，而深度学习推理的性能达到6倍。

黄仁勋指出：“在Titax X上需要花几分钟完成的任务目前只需要几秒钟。”

英伟达将于今年第四季度开始销售V100。

去年9月，英伟达推出了专用于神经网络的Pascal GPU。Pascal架构在去年5月的大会上发布。

30亿美元的赌注

为了Tesla V100，英伟达投入了超过30亿美元，而处理器的制造已达到了“光刻工艺的极限”。

Volta将支持新发布的深度学习框架Caffe 2、微软Cognitive Toolkit、MXNet，以及谷歌TensorFlow。用户可以很方便地发挥Volta的全部性能。

微软Azure企业副总裁Jason Zander表示：“我们的云计算平台正在部署第二代GPU。我们刚刚宣布了P40和P100系列产品，但我们也很喜欢Volta。我的工作是吸引人们使用Azure云计算平台。人们喜欢使用立即可以上手，不需要等待的产品。我们希望让数据科学家和开发者专注于自己的模型，而不是底层设施。”

亚马逊AWS深度学习和人工智能总经理Matt Wood也在发布会上登台。他表示：“我们感到非常兴奋。在训练和推理两方面，我们都看到了性能的优化。我们很高兴成为产品发布的合作伙伴。”

DGX

新款DGX-1计算机搭载了8颗Volta GPU，售价为14.9万美元。此外，黄仁勋还发布了新的静音工作站英伟达DGX Station。这款工作站搭载了4颗V100 GPU，带来了每秒480万亿次浮点运算能力，售价6.9万美元。

Isaac机器人训练模拟器

黄仁勋此次还展示新的Isaac机器人训练模拟器。通过该模拟器，机器人可以在虚拟世界中接受训练，随后部署至真实世界。在演示中，机器人被训练打高尔夫球和曲棍球。黄仁勋还表示，这一技术将使制造、医疗和建筑等行业的机器人训练更安全、更快、成本更低。

黄仁勋指出：“我们需要创造一个替代世界。”这一世界要遵守所有的物理定律，需要看起来真实，需要支持在其中的学习。而与真实世界最主要的不同在于，需要加速运转，使速度更快。

GPU云

英伟达还推出了GPU云平台(NGC)，可以让开发者跨平台接入最新的深度学习框架，以及利用最新的GPU计算资源。

在深度学习中有两个挑战，一个是需要把所需软件，包括优化后的深度学习框架、库、操作系统和驱动程序等装入一个堆栈之中，二是利用最新的GPU计算资源来训练神经网络。

为了解决这个问题，英伟达推出了NGC。

NGC堆栈可以提供众多的软件，包括：Caffe,、Caffe2、CNTK、MXNet、TensorFlow、Theano、Torch等框架，以及NVIDIA DIGITS GPU训练系统，NVIDIA深度学习SDK，英伟达docker，GPU驱动和CUDA等。

只需要一个英伟达账号，无论在PC、DGX或者NGC哪一种平台，用户都能简单的开展深度学习工作流程。一句话，英伟达表示使用NGC以后，深度学习的模型从原型到部署都更为容易，并且灵活使用计算资源。

NGC今年第三季度将开始公开测试，定价也将在稍后公布。

与丰田合作

黄仁勋宣布，丰田将在自动驾驶汽车中使用英伟达即将推出的Xavier SOC。这其中包含512核的Volta GPU，能带来每秒30万亿次浮点运算的深度学习计算能力，功耗只有30瓦。

“从许多方面来看，丰田是一家传奇性的公司，发明了许多当代管理系统。”黄仁勋表示，“我们双方的工程团队将合作开发丰田自动驾驶汽车，并在未来几年内上路行驶。”

与SAP合作

黄仁勋还谈到了英伟达与SAP的合作。这项合作已帮助SAP开发了多款应用，更好地追踪品牌曝光，自动从企业应付账款系统中提取分类数据，以及分析客户投诉中的非结构化信息，从而更快地找到公司内能解决问题的人。

Project Holodeck

黄仁勋还介绍了一款新工具Project Holodeck，用于在高度仿真的虚拟现实环境中展开协作。在展示Project Holodeck的过程中，他与科尼塞克创始人Christian von Koenigsegg进行了合作，后者位于瑞典。他们共同检查了价值190万美元Regera超级跑车的内饰。

【完】

P.S. 开头已经提到了，英伟达股价昨晚一路狂飙。放个图感受一下：

招聘

量子位正在招募编辑记者、运营、产品等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。

One More Thing…

今天AI界还有哪些事值得关注？在量子位（QbitAI）公众号对话界面回复“今天”，看我们全网搜罗的AI行业和研究动态。笔芯~

另外，欢迎加量子位小助手的微信：qbitbot，如果你研究或者从事AI领域，小助手会把你带入量子位的交流群里。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

英伟达30亿美元赌注：详解最强深度学习处理器、GPU云及新DGX

陈桦李林发自凹非寺
量子位报道 | 公众号 QbitAI

AI推动了对GPU计算能力的需求

摩尔定律的失效

新架构：Volta

Tesla V100 GPU

30亿美元的赌注

DGX

Isaac机器人训练模拟器

GPU云

与丰田合作

与SAP合作

Project Holodeck

招聘

One More Thing…

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

生成图片，分享到微信朋友圈

英伟达30亿美元赌注：详解最强深度学习处理器、GPU云及新DGX

陈桦 李林 发自 凹非寺量子位 报道 | 公众号 QbitAI

AI推动了对GPU计算能力的需求

摩尔定律的失效

新架构：Volta

Tesla V100 GPU

30亿美元的赌注

DGX

Isaac机器人训练模拟器

GPU云

与丰田合作

与SAP合作

Project Holodeck

招聘

One More Thing…

您可能也对以下帖子感兴趣

陈桦李林发自凹非寺
量子位报道 | 公众号 QbitAI