查看原文
其他

“全球最大GPU”、全VR自动驾驶路测,快来看“推销狂人”黄仁勋发了啥

2018-03-28 李赓 雷锋网

文 |  李赓

来自雷锋网(leiphone-sz)的报道

雷锋网按:Buy more GPU,save more money!(买越多GPU,省越多钱!)上面这句话,英伟达CEO黄仁勋在整场GTC中足足重复了9次(可能还有数漏的)。

作为英伟达每年最重要的大会,一年一度在美国旧金山举办的GTC一直都是英伟达技术实力最集中的展示。这些技术实力往往覆盖多个方向,大家关注最多的无疑是“新核弹”,更通俗的说——全新的GPU架构、更强大的GPU等等。

事实上,他们都“缺席”了本次GTC 2018。或许是受此影响,再加上美股大盘整体下挫,英伟达股价在整场GTC进行期间不断下滑,截止发稿整体跌幅已经超过7%。

这样的股价表现,不由得让人们心中浮现一个问题——这次GTC真的有那么糟么?(事实上,有部分友媒已经开始发文看衰英伟达了,但这样的判断真的是对的么?)为了解答这个问题,我们首先有必要先重新一下黄仁勋在本次GTC Keynote中提及的各种内容。



看似槽点、其实亮点:“世界最大的GPU”


正如上文所提到的,本次GTC之上没有像之前大家预期的那样,发布全新的GPU架构,以及传统定义上的“核弹”(单颗GPU、或者单显卡封装的产品)。

但英伟达实际上拿出了一款被黄仁勋自己称为“全球最大的GPU”的新产品——DGX-2

组件强的不像话的DGX-2

去年发布Volta架构之时,英伟达实际上已经将DGX-1中原有的P100 GPU换成了V100 GPU。原有的V100 GPU已经很强大了,那么想要更强大就只剩一种“简单而又粗暴”的方法了:再加几颗V100 GPU,这也是为啥在DGX-2服务器加速器中你会看到有16颗V100 GPU。

16颗GPU中任何两颗都能以300GB/s进行数据交换

GPU数量是翻倍了,但要想将他们发挥出真正的威力,英伟达还祭出了一项升级版的技术NVLink Switch(简称NV Switch)。这项技术的目标只有一个:让DGX-2中的16颗V100 GPU能够化身为一颗巨大的“GPU”运作。

根据英伟达副总裁和DGX系统产品经理Jim McHugh介绍,因为NVswitch技术,DGX-2中的16颗GPU之间都能够直接1对1连接传输,每颗GPU拥有高达50Gb/s的带宽,同时最多支持18颗GPU相互连接,让整个系统的吞吐性能达到惊人的900Gb/s。

现场减价“促销”

最后是整个系统的售价,黄仁勋现场表示展示用的这套实验产品实际上价值250万美元,然后先放出了一个150万美元的售价,在最后一秒直接自己“砍到”了39.99万美元。

高举着两倍显存的Quadro GV100加速器的黄仁勋

值得一提的是,DGX-2中使用的虽然还是V100 GPU,但它发生了一点小变化——原有的4颗4GB HBM2显存,升级为4颗8GB HBM2显存,也让V100 GPU的整体显存大小升级为32GB。(GPU其他参数,包括显存位宽、带宽均没有改变。)而在DGX-2中,16个V100 GPU中各自拥有的32GB显存都将连接到一起,你甚至可以将它看成一整个512GB的显存空间。

那么究竟这对于用户来说有多大的影响呢?英伟达官方的原话是:“显存容量增加,让运行更深、更大的深度学习模型成为可能,同时也会提升深度学习的表现。对于内存大小比较敏感的应用,最多能够提升50%的实际表现。”

黄仁勋:对于他这样的工程师来说,DGX-2太“sex”了

抛开DGX-2的性能本身、抛开DGX-2在各种深度学习解决方案的性价比等等,英伟达在DGX-2上所采取的新策略或许更值得思考:并行架构先天拥有优秀的扩展性,英伟达似乎在传统的GPU架构、芯片制程之外找到了一个延续性更强的性能增长路线。

当然从另外一个方面来讲,通过数量的叠加,设备的性能的确可以快速增长,但如何实现数块GPU之间的大量数据吞吐、同时保证这些新添加的数据传输能力不会造成太高的成本、以及更多的功耗,将会是这一种路线的挑战。



高速、高效,让自动驾驶路测走向VR时代


Drive Constellation的实际系统组成(下图)

在众多的人工智能应用当中,自动驾驶绝对是英伟达最坚定的一个方向。在今年GTC大会的演讲上,英伟达创始人兼CEO黄仁勋又为自动驾驶行业带来了一个全新的解决方案——Drive Constellation。

Drive Constellation是一种使用虚拟现实(VR)技术的自动驾驶的模拟器,它让自动驾驶的开发者们在数据中心打造一个虚拟世界,并对自动驾驶车辆的算法进行数十亿英里的测试。英伟达方面希望,通过自身强大的图像渲染和虚拟现实技术,让算法在虚拟环境中的测试无限接近于真实场景。

在Drive Constellation中模拟夜间自动驾驶

它的组成结构也非常简单,外观看上去就是两台DGX-1服务器。不过两台服务器中的内容不太一样:一台配置了数张英伟达的专业显卡,另外一台则装着和自动驾驶车辆相同的英伟达DRIVE PX平台。

整个系统的工作方式也非常简单,配置了专业显卡的服务器结合高清地图、车辆行驶模拟算法、以及天气、光照等一系列条件,经由专业渲染形成虚拟的驾驶环境。然后这些数据以类似于真实传感器的格式被直接发送到装载着Drive PX平台的服务器中,Drive PX平台根据这些数据,执行相应的自动驾驶算法,并且最终将车辆的操纵输出返回到虚拟化的服务器中,形成循环。

根据英伟达官方的说明,两台服务器在1秒的时间内可以进行30次这样的循环。英伟达还表示,这套系统能够模拟不同的天气,如暴风雨雪天气、一天中不同时刻致盲的炫光、夜晚有限的视野以及不同类型的路况和地形。同时,它也可以模拟危险的路况以测试自动驾驶汽车的反应能力。然后开发者可以对自动驾驶的算法进行改进和完善。

英伟达汽车部门高级主管Danny Shapiro对此表示:“这对于行业来说是一个非常有价值的工具,它能够加速自动驾驶的研发进程。”黄仁勋在演讲中也说了一个数字:10000套Drive Constellation系统,一年就能够路测30亿英里。

据雷锋网了解,Drive Constellation将在今年第三季度推向市场,并为英伟达的早期客户提供服务。

在英伟达的生态系统中,目前已经汇集了超过370个不同的公司。大家将合力开发自动驾驶技术。虽然这个数字反映了英伟达阵营的庞大,但这个生态中的 370 个合作伙伴并不都是汽车厂商。具体来说,这些合作伙伴包括乘用车,卡车、物流车和自动驾驶出租车等,一级供应商,自动驾驶初创公司、激光雷达公司、地图公司等等。

通过这套虚拟现实的驾驶模拟器,英伟达完全可以将数量众多的合作伙伴放到一个平台当中,加速自动驾驶技术研发、落地的进程,反过来巩固英伟达自身硬件在自动驾驶领域的不可替代性。



持续渗透的TensorRT,不断加速的AI版图


TensorRT也是一项英伟达去年发布的新技术,它的目标是将各种人工智能架构的算法,与英伟达各种架构的GPU相适配,通过二次优化算法提升整体算法在英伟达GPU上面运行的效率。

而在本次GTC之上,英伟达也拿出了最新版本的TensorRT 4,它最重要的特点就是更高的效率,根据英伟达官方的测试在多种人工智能算法在同一个服务器上运行的时候,TensorRT 4能够减少70%的硬件需求,同时还能在延迟方面提升190倍。

得益于软硬件的提升,英伟达在AlexNet的训练速度上5年间提升了500倍

相比性能方面的提升,此次TensorRT在业界支持方面的新进展其实更加值得关注。因为在去年TensorRT某种程度上已经是一个英伟达自己的人工智能架构,而且是凌驾于几乎所有人工智能架构的终极架构。这对于之前希望通过培育人工架构、打造自由人工智能生态的公司来说并不是好事。

令人惊喜的是,英伟达官方表示已经和Google达成合作,将在最新的TensorFlow 1.7版本中直接内嵌TensorRT,进而进一步加强TensorFlow架构在GPU中的表现。Goolge的工程总监Rajat Monga还特别表示,Google的TensorFlow团队一直和英伟达保持着紧密的合作关系。



其他“一部分”重点内容:光线追踪、医疗平台、自家GPU云技术、自动驾驶路线图、远程VR驾驶



  • 英伟达RTX技术

RTX技术是目前市面上最强大的光线追踪技术,可以对多种材质进行最接近真实的实时渲染,现场演示中还包括了比较复杂的动态场景。

  • 医疗平台Clara

由人工智能驱动的医疗平台Clara是英伟达的一次全新尝试,现场的展示中,英伟达通过对一个二维的超声波探测实时结果进行处理,直接精准还原患者体内脏器的活动,甚至可以直接算出心脏的容积、以及每次跳动的体积差异。

  • 未来自动驾驶平台路线图

Roadmap是半导体厂商常见的一种产品规划手段,最出名的要数Intel已经失效的“Tick-Tock”。在本次GTC上,黄仁勋也分享了英伟达DRIVE系列产品的RoadMap策略——小尺寸的单芯片平台,然后通过芯片数量和GPU的添加获得更强的性能,然后利用技术将更强的性能再次压缩为小尺寸的单芯片平台,一次类推。

现场透露下一代单芯片平台代号为Orin。

  • 基于Holodeck的远程虚拟驾驶系统

打算用VR来做远程驾驶的初创公司可能很崩溃。



雷锋网总结:GPU的动力依旧强劲,英伟达不只是一家“性能驱动公司”


回顾完现场的主要内容,自然也是时候再反过头来看上文开篇的问题了。首先不得不提的就是人们对于GPU的期待,虽然在前几年的历程中,英伟达几乎源源不断地拿出更新、更强大的GPU芯片。但它终究也是半导体的芯片,同样会受到制程的物理限制,单颗芯片的提升难度还将不断提升。

但因为并行运算的原因,GPU实际上很容易进行横向的拓展,此次GTC上发布的全新16颗V100 GPU的DGX-2加速器就是最好的证明。在利用合适的数据传输技术的前提下,GPU未来的动力增长依旧会“很强劲”。

另外一个要点实际上是英伟达在硬件之外所做的诸多工作,从针对各种人工智能架构、算法的持续优化,到完全VR化的自动驾驶路测,英伟达实际上在不断为整个生态赋能,扫除一些关键性的障碍。这种能力,放眼人工智能、自动驾驶这样的领域,都是无人能及的。

毫无疑问,在2018接下来的日子里,教主和他的英伟达,还将给我们带来更多惊喜。

- END -

雷锋网诚招编辑、运营、兼职外翻等岗位

详情点击招聘启事


  ◆  

推荐阅读



关注雷锋网(leiphone-sz)回复 2 加读者群交个朋友

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存