查看原文
其他

Groq把AI芯片的性能推向新高

2017-11-16 唐杉 StarryHeavensAbove


AI芯片公司Groq由前Google员工创建,核心成员包括Google TPU的主要设计者之一Jonathan Ross。成立以来他们一直比较低调,刚刚才公开了官网。目前官网只有一张照片,但这张照片给出的信息:单芯片,400TOP/s的性能指标,8TOP/s/W的能效指标,可以说是简单粗暴。从这个团队成员和Google TPU的渊源来看,我们不妨拿Google TPU来作为参考分析一下。


峰值性能

Google TPU共有64K个MAC(65536,256x256的脉动阵列)运行在700MHz。因此理论上每秒可以做65,536 × 700,000,000 = 46T个乘加运算(MAC),也就是92TOP/s(这个数据是指8比特整数的操作,如果是16比特整数,则要少一半)。(可以参考脉动阵列 - 因Google TPU获得新生

Groq的芯片能达到400TOP/s,则是TPU的4倍多。假设他们采用和TPU类似的脉动阵列架构,则可能通过提高时钟频率和增加MAC数量来实现这个性能,比如时钟和MAC数量都翻倍。Google TPU采用28nm工艺,面积是300mm左右。如果Groq到2018年的芯片采用16nm甚至更新的工艺,做到时钟和MAC数量翻倍应该难度不大。不过,如果还是类似脉动阵列的架构,MAC数量太大的话(假设达到128K)会非常难以调度,利用率是个大问题;如果为了提高利用率,使用较大的Batch size则会造成更大的延时。我们看到Google的TPU2采用了两个较小的MAC阵列(下图),是否Groq也会采用多个比较小的MAC阵列来做更粗粒度的并行呢?

当峰值性能达到400TOP/s的时候,对访存(片上memory的数量,片外memory的访问带宽)也会有新的要求,否则这种峰值性能根本也用不上。不过,如果Groq使用的是类似TPU的脉动阵列架构,这个问题到不是太大,因为它本身对片外memory的访问带宽的要求不高(TPU只需要30GB/s)。当然,片上memory可能还需要增加(TPU是28MB)。

另外,我们知道Google TPU的峰值性能92TOP/s是指的8比特INT型的数据处理,如果是按INT16计算的话,峰值就是一半,46TOP/s。而到了TPU2,由于增加对training的支持,基本的操纵是FP16的乘法和FP32的加法,这个硬件代价要大很多,所以TPU2的单芯片峰值性能就只能到45 TFLOPS了。因此,如果Groq的芯片的目标应用也是Inference,400TOP/s的性能是指INT8,还是比较容易想像的;如果它还支持training需要的FP16运算,那么能达到400TOP/s性能,就不知道是用上什么大招了。


能耗效率 

根据Google Blog文章 “An in-depth look at Google’s first Tensor Processing Unit (TPU)”,Google TPU的能耗是40W左右(“ The TPU ASIC is built on a 28nm process, runs at 700MHz and consumes 40W when running”)。不排除这个能耗是平均能耗,峰值能耗要更高一些。算来它的能耗效率是92TOP/s/40W,即大约2.3TOP/s/W。因此Groq的8TOP/s/W的指标也是TPU的不到4倍,而这个指标在我们目前看到的AI芯片中(包括年初看到的ISSCC2017中专门针对嵌入应用的芯片,参考“梳理一下我的文章”中ISSCC2017系列文章),也算是非常不错的了。

不过,考虑到Google TPU的设计并没有在低功耗上花太大功夫,Groq如果用更好的工艺加上比较细致的低功耗设计,实现这个能耗效率应该也是合理的。


专利问题 

写到这里突然想到专利的问题,我之前分析过Google TPU的专利(Google的神经网络处理器专利)。从Groq成立到发布产品的时间来看,感觉他们抛开Google TPU的经验另外搞一个全新的东西似乎不大可能,那么专利问题怎么解决呢?

当然,芯片架构的专利侵权实际也是很难界定的,之前就有朋友问有没有可能搞反向工程来判断某款芯片是不是侵犯了他们的专利。这就是另一个话题了。



T.S.:

以上的讨论其实都是臆测而已,大家也不用当真。不过groq“简单粗暴”网站还是挺意思的。对于AI芯片的starup来说,2018年就算不是毕业大考,也至少到了学期末考试了,再多PR也代替不了实际产品的指标啊。



题图来自网络,版权归原作者所有

推荐阅读  

通过DARPA项目看看芯片世界的“远方”- 自动化工具和开源硬件

通过DARPA项目看看芯片世界的“远方”- Architectures

给DNN处理器跑个分 - BenchIP

Hot (AI) Chips 2017

解密又一个xPU:Graphcore的IPU

脉动阵列 - 因Google TPU获得新生
梳理一下我的文章

长按二维码关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存