查看原文
其他

Deep Learning Hardware - 我的文章

2017-07-03 唐杉 StarryHeavensAbove

最近公众号迎来不少新朋友,非常欢迎大家。我在这里把之前的文章做一个梳理,方便各位找到自己感兴趣的内容。


从我比较规律的写公众号开始,文章的一个主线就是Deep Learning的硬件实现。这些硬件大体上可以按照下面的方式进行分类。

从功能来看,可以分成Training和Inference;而从应用场景则可以分成“Cloud/Data Center”和“Edge/Embedded”两大类。其中在Edge端做training目前还不是很明确的需求,暂时不去考虑。其它几个象限都有自身实现的需求和约束。

     

对于云端的应用,前面几个月Nvidia和Google都发布了一些自己的设计,也有一点较劲的意思。如果关注这个故事,可以参考这一系列文章(按照时间顺序):

Google TPU 揭密对Google TPU论文的初步分析

脉动阵列 - 因Google TPU获得新生:进一步详细分析Google TPU的核心

Nvidia Volta - 架构看点:分析GTC2017上发布的新GPU Volta架构

从Nvidia开源深度学习加速器说起:补充分析Nvidia开源Xavier DLA的情况

AI芯片架构的争论真有意义吗?:探讨生态对于AI芯片的重要性


而在云端另一个有意思的应用是FPGA加速,下面这篇文章可一给大家一个基本的参考。

智慧云中的FPGA:通过Microsoft和Amazon的例子看看Cloud FPGA

     

由于我的芯片设计背景,我之前关注更多的是Deep Learning专用处理器/加速器的内容,这些专用芯片和IP主要应用于Edge/Embedded inference这个象限。

首先,我关注的是今年的ISSCC会议上的Deep Learning Processor这个专题,对相关的论文做了一些导读。这些论文对于希望在Edge端应用里追求更高的效率的读者,应该有一些借鉴意义:

14.1 G. Desoli, STMicroelectronics, Cornaredo, Italy, "A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems"

ISSCC2017 Deep-Learning Processors文章学习 (一)

14.2 D. Shin, et al., "DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks"

ISSCC2017 Deep-Learning Processors文章学习 (二)

14.3 P. N. Whatmough, et al., "A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications"

ISSCC2017 Deep-Learning Processors文章学习 (四)

14.4 M. Price, et al., "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating"

分析一下MIT的智能语音识别芯片

14.5 B. Moons, et al., "ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable Convolutional Neural Network Processor in 28nm FDSOI"

ISSCC2017 Deep-Learning Processors文章学习 (三)

14.6 K. Bong, et al., "A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector"

ISSCC2017 Deep-Learning Processors文章学习 (七)

14.7 S. Bang, et al., "A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence

ISSCC2017 Deep-Learning Processors文章学习 (五)


除了专用的DL加速器,DSP也是Edge/Embedded侧SoC中重要的IP选项。所以,我也介绍了一系列DSP IP的方案。现在回头看看,不得不感叹这个领域现在发展的太快。

处理器IP厂商的机器学习方案 - 背景

处理器IP厂商的机器学习方案 - CEVA

处理器IP厂商的机器学习方案 - Synopsys

Cadence(Tensilica)的可定制处理器

高通的Hexagon DSP

神经网络DSP核的一桌麻将终于凑齐了

     

当然,除了这些针对性比较强的文章。我也尝试做了一些综述性的讨论。比如:

深度神经网络的模型·硬件联合优化:列举了神经网络硬件实现的各种优化思路

AI会给芯片设计带来什么?:讨论在AI需求的牵引下,哪些芯片设计技术会受到影响

中国初创公司在AI芯片(IP)领域的机会:一家之言,主要是对市场的讨论


最后,是两个基础技术系列文章“专用处理器系列”和吴博士“追求极限性能的芯片设计方法系列”,算是“镇店之宝”吧。 

当我们设计一个专用处理器的时候我们在干什么?(上)

当我们设计一个专用处理器的时候我们在干什么?(指令集)

当我们设计一个专用处理器的时候我们在干什么?(微结构)

专用处理器设计方法&工具

当我们设计一个专用处理器的时候我们在干什么?(风险)

自己动手设计专用处理器!


追求极限性能的芯片设计方法(一)

追求极限性能的芯片设计方法(二)

追求极限性能的芯片设计方法(三)

追求极限性能的芯片设计方法(四)


回顾之前的文章,算是一个小结。身处这个新鲜而有趣的领域,能够和大家聊聊,也是一件乐事。感谢大家的支持,欢迎大家的批评,希望大家继续捧场,多多转发。 




题图来自网络,版权归原作者所有

长按二维码关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存