AI Inference芯片 ∙ 血战开始
最近集中有一些关于AI Inference芯片的消息:其中,Nvidia推出Tesla® T4 GPU和TensorRT 5;Apple芯片发布中展示的A12 Neural Engine可以说是标志性事件。AI inference从云端到终端都真正进入专用硬件加速的时代,也标志着这个领域的竞争跨入了新的阶段。
•••
我们先看看Apple的A12。从苹果的发布会来看,芯片越来越受到重视,本来芯片离消费者是比较远的,基本是费力不讨好的事情,但在目前其它亮点比较少的情况下,突出芯片技术倒也有高大上的感觉。除了发布会,Apple的网站上也有A12的专题,介绍了芯片中Apple-design的主要部分,CPU,GPU,Neural Engine和ISP。从文字的描述上,对Neural Engine的介绍比较多,一些关键信息是:
8-core architecture
5 trillion operations per second
Core ML runs Up to 9x faster than A11 Bionic
比较有趣的是给出了一个芯片模块划分的示意图。假设这个示意图比较准确的反映了各个模块在芯片上的面积的比例,则Neural Engine所占的比重确实不低了。另一个比较有趣的是摆放位置,Neural Engine和ISP位置最近,这也许有利于数据流的优化。
Source: Apple.com
当然,这些更多是我们吃瓜群众的猜测。相比技术细节,更重要的是Apple这次大幅提升了Neural Engine的处理能力,提升的力度甚至超过了华为的麒麟980(从970的2,005到4,500 images per minute),真是下了大本钱。按Apple的风格,技术上绝对是以实用和用户体验为主,因此Apple肯定从第一代Neural Engine的使用尝到了甜头,或者是感到了更多的竞争压力。考虑到Apple的示范作用,在端设备上增加专用的AI Inference硬件应该已经没有什么争议了,只是加多少,如何加更有效的问题。
•••
由于端设备的多样性,目前已经有多个战场和大量玩家。除了手机终端外,其它领域还不明朗。而在云端和数据中心,目前还是Nvidia一家独大。Nvidia这次发布的产品全称是“NVIDIA TensorRT™ Hyperscale Inference Platform”,主要包括下面三大部分:
NVIDIA Tesla T4 GPU – Featuring 320 Turing Tensor Cores and 2,560 CUDA® cores, this new GPU provides breakthrough performance with flexible, multi-precision capabilities, from FP32 to FP16 to INT8, as well as INT4. Packaged in an energy-efficient, 75-watt, small PCIe form factor that easily fits into most servers, it offers 65 teraflops of peak performance for FP16, 130 TOPS for INT8 and 260 TOPS for INT4.
NVIDIA TensorRT 5 – An inference optimizer and runtime engine, NVIDIA TensorRT 5 supports Turing Tensor Cores and expands the set of neural network optimizations for multi-precision workloads.
NVIDIA TensorRT inference server – This containerized microservice software enables applications to use AI models in data center production. Freely available from the NVIDIA GPU Cloud container registry, it maximizes data center throughput and GPU utilization, supports all popular AI models and frameworks, and integrates with Kubernetes and Docker.
T4的硬件主要是基于Nvidia刚发布的Turing架构,之前已经有很多文章介绍。其基本性能指标如下:
Source:Nvdia.com
Turing架构对inference做了特别的优化,比如新的Tensor Cores能够支持4bit精度等等。但严格来说,整个芯片还是包括了用于其它目的逻辑,还不能算是专门为AI Inference定制。即便如此,T4对inference的效率还是大大超过目前在inference中广泛使用的P4(这个是大家之前主要的对标对象)。如果看int8的能耗比,T4也已经接近2T/W的水平。因此,Datacenter级别inference平台的参考基线一下子提高了很多,会给目前做inference芯片的厂商比较大的压力。
从另一个角度来看,这个平台的名称也可以反映TensorRT工具链的重要性。而这次随着TensorRT的升级,以及“NVIDIA TensorRT inference server”的推出,TensorRT的性能和易用性又有很大提升。Nvidia在软件工具上的投入也是不遗余力,这方面给其它厂商的压力更大。TensorRT是个比较大的话题,有机会再专门讨论。
•••
说到竞争,这两天nextplatform上的一篇文章” FACEBOOK SOUNDS OPENING BELL FOR AI INFERENCE HARDWARE MAKERS”,讨论了Facebook在AI inference上的布局,特别是他们的Glow Compiler。如文章所说:
“Hardware accelerators are specialized to solve the task of machine learning execution. They typically contain a large number of execution units, on-chip memory banks, and application-specific circuits that make the execution of ML workloads very efficient. To execute machine learning programs on specialized hardware, compilers are used to orchestrate the different parts and make them work together. Machine learning frameworks such as PyTorch rely on compilers to enable the efficient use of acceleration hardware.”
Source: nextplatform.com
Facebook组建团队做芯片已经不算新闻了,这次重点提到的Glow Compiler也是他们建立生态的重要一环。未来,PyTorch/Glow的组合有可能成为Google Tensorflow/XLA最有力的竞争对手。
另一个比较有趣的情况是,Nvidia inference平台的新闻稿在合作厂商部分,首先提到了和微软以及Google的合作。比如来自Goolge的信息如下:
Chris Kleban, product manager at Google Cloud, said: “AI is becoming increasingly pervasive, and inference is a critical capability customers need to successfully deploy their AI models, so we’re excited to support NVIDIA’s Turing Tesla T4 GPUs on Google Cloud Platform soon.”
Source:Nvdia.com
相比新闻稿中后面提到的厂商, “Additional companies, including all major server manufacturers, voicing support for the NVIDIA TensorRT Hyperscale Platform”,比如Cisco,Dell EMC, Fujitsu,HPE,IBM等等, Google和微软自己的云端inference方案都很有竞争力。Nvidia这么安排也许是有意为之,强调和这些公司仍然有很好的合作关系。美国的Bigfive和中国的BAT们未来可能会采取类似的态度,芯片自研自用,同时也还会在云端部署Nvidia芯片或其它厂商的产品。
•••
最后,去年底我写了一篇综述文章“2017 • AI芯片元年”,其中提出了一些18年的看点。现在18年已经过去3/4,回头看了一下还挺有意思。有些问题已经有了答案,有些估计谜底很快会揭晓,大家不妨也翻来看看。Enjoy!
- END-
题图来自网络,版权归原作者所有
本文为个人兴趣之作,仅代表本人观点,与就职单位无关