GTC大会,黄世勋:大兄弟,6万元的显卡和250万元的主机想了解一下不?
北京时间,27号凌晨0点,英伟达的图形科技大会(GTC,GPU Technology Conference)准时在美国圣何塞英伟达总部召开。作为一年一度英伟达技术盛会第十个年头,今年的大会,似乎有点“不一样”。
当然,今年的GTC大会再怎么不一样,大会开头“唠嗑式”开讲还是属于黄教主的,似乎,每逢技术性的大会,黄教主的演讲激情犹如干柴遇到烈火,瞬间“爆燃”起来。这次也一样,原计划2个小时的演讲,结果拖堂到将近3个小时。在这3个小时的演讲中,黄世勋谈到了新一代显卡QuadroGV100 ;谈到了性能恐怖的DGX-2超算;还有落地实现了研究已久的自动驾驶,而唯独人们最关注的新架构和主推的游戏显卡,却只字未提。这一点黄世勋似乎变了。那么老黄口中QuadroGV100 和DGX-2到底是何物呢?
专业级显卡新“魔兽”
对于翘首以盼所谓的新一代“GeForce 20系”游戏显卡网友来说,这次GTC大会可能会让他们略感失望,新的游戏显卡果然没有在这个注重AI、深度学习的图形峰会上公开。当然,NVIDIA 还是推出了两颗新“魔兽”, 基于GV100核心的Tesla V100新品和Quadro GV100。
对于Tesla V100,其实这款显卡发布于2017年度的GTC大会。不过这一次 ,由原先16GB 显存升级到了32GB 显存,要说,升级要感谢的还是供应商三星和SK海力士,单颗HBM2的容量从4GB提升到了8GB,于是带来在面积不改变的情况下,容量翻番,换言之,简单替换下就可以了。
不过,英伟达的功劳也有,那就是主频/热设计功耗等都没有因此增加,保持一致,想升级的话可以傻瓜式地替换。
当然,对于这样的升级,大部分网友会认为,这算是NVIDIA的“份内”事,毕竟其竞争对手AMD早在三年前就已出货32GB GDDR5显存的FirePro S9170了。所以Tesla V100并没有什么好说的。
而对于Quadro GV100 ,黄世勋在这场技术大会上,开讲之后还不到10分钟,就拿出这款12nm制程基于深度学习技术的专业级显卡,可见黄教主迫不及待展示Quadro GV100强大性能的“激动”心情,也是对自家产品的优势自信满满。
新的GV100拥有5120个CUDA核心,32GB HBM2显存(使用双向NVLink技术可扩展至64GB),能够提供高达每秒7.4万亿次的双精度浮点运算性能以及每秒14.8万亿次的单精度浮点运算性能和每秒118.5万亿次的深度学习浮点运算性能。
Quadro GV100支持NVlink 2.0(NVlink 技术就是Nvidia研发的能够在GPU-GPU以及GPU-CPU之间实现高速大带宽直连通讯的快速互联机制,其实这里的 Nvlink 2.0就是将在下面提到的DGX-2所用到的Nvlink Switch技术),也特别支持了RTX ray-tracing technology(实时光线追踪技术),这项技术能精准地处理拟真光照、反射与阴影效果,是一项提供逼真度远高于传统着色技术的“黑科技”。号称可以为游戏带来逼真现实场景般的画质,并且相比于传统的渲染技术渲染场景特效需要数小时的时间,英伟达的光线追踪技术可以达到实时渲染的强大能力。这个对于动画渲染和制作工作室而言,摒弃庞大的主机转而使用效能Quadro GV100效果肯定更为理想。这也是为什么英伟达敢称自己的这项成果是“自从约20年前推出可编程着色器以来,计算机图形学的最大进步。”
当然,强悍的性能对应的是不菲的价格,会上,黄教主曝出Quadro GV100 售价为8999美元,接近6万元人民币。相比之下,之前发布的TITAN V完全可以用性价比惊人来形容。当然这价格高不高,还得看土豪们的意见喽。
DGX-2:GPU堆叠出来的性能“怪兽”
说到GTC大会最引人瞩目的亮点,当属DGX-2无疑,这是由16颗Tesla V100 GPU组成,被英伟达称为“The World's Lagest GPU”,可以说就是个庞大的显卡集群,DGX-2由原本的DGX-1升级而来,将DGX-1中原有的P100 GPU换成了性能更加强大的V100 GPU,同时:又加了几颗Tesla V100 GPU,共计16颗GPU堆叠出了DGX-2这样的小型“超算”每块Tesla V100计算卡显存为32GB,故整个DGX-2一共拥有512GB HBM2显存。
那么集成了这么多的GPU的DGX-2,真的只是靠GPU简单的堆叠出来的吗?答案:肯定不是,那么该如何让它们“化身”为一颗GPU发挥出“集体”力量呢,在这里就少不了前面提到的Nvlink Switch 技术,正因为这项技术,DGX-2中的16颗GPU之间都能够直接1对1连接传输,实现了300GB/s芯片间传输效率(传统PCIe的12倍),形成一个总带宽高达14TB/s的通道。用黄教主的话来说,如果以1GB一部电影来计算,14000部电影可以在1秒钟内传输完成。
同时为了发挥出显卡的深度计算性能,整个集群配备了1.5TB内存以及30TB的NVMe SSD存储空间,深度计算能力(Tensor算力)达到了惊人的2PFLOPS(FLOPS是指每秒所执行的浮点运算次数,亦称每秒峰值速度,1PFLOPS(PetaFLOPS)等于每秒千万亿(=10^15)次的浮点运算)。被众媒体称为“小超算”毫不为过。
在惊讶于DGX-2性能强悍的同时,英伟达在DGX-2上所采取的新策略或许更值得人们思考:并行架构先天拥有优秀的扩展性,英伟达似乎在传统的GPU架构、芯片制程之外找到了一个延续性更强的性能增长路线。
当然从另外一个方面来讲,通过数量的叠加,设备的性能的确可以快速增长,但如何实现数块GPU之间的大量数据吞吐、同时保证这些新添加的数据传输能力不会造成太高的成本、以及更多的功耗,将会是这一种路线的必然面临的挑战。
DGX-2 性能相比前代Nvidia DGX-1是其10倍,当然超强算力下,带来的是惊人的功耗,功耗高达一万瓦特。在介绍售价方面,黄教主还当场为客户“砍起了价”,黄仁勋表示现场展示用的这套实验产品实际上价值250万美元,然后先放出了一个150万美元的售价,在最后一秒自己又直接“砍到”了39.99万美元,售价将近250万元人民币,价格“一波三折”一路下砍,黄教主还是很实诚嘛。不过即使去掉虚高的价格,250万元主机设备对于一般人来说仍是可望而不可及的“奢侈品”,这或许只有那些混迹于区块链的“挖矿”的大佬土豪们才玩的起吧。
当然,新DGX-2性能是毋庸置疑的,是时候,可以把黄教主那句“买的越多,省得就越多”改为“买的越贵,省的更多”了。
阅读推荐