Deep Learning Hardware - 我的文章
最近公众号迎来不少新朋友,非常欢迎大家。我在这里把之前的文章做一个梳理,方便各位找到自己感兴趣的内容。
从我比较规律的写公众号开始,文章的一个主线就是Deep Learning的硬件实现。这些硬件大体上可以按照下面的方式进行分类。
从功能来看,可以分成Training和Inference;而从应用场景则可以分成“Cloud/Data Center”和“Edge/Embedded”两大类。其中在Edge端做training目前还不是很明确的需求,暂时不去考虑。其它几个象限都有自身实现的需求和约束。
对于云端的应用,前面几个月Nvidia和Google都发布了一些自己的设计,也有一点较劲的意思。如果关注这个故事,可以参考这一系列文章(按照时间顺序):
Google TPU 揭密:对Google TPU论文的初步分析
脉动阵列 - 因Google TPU获得新生:进一步详细分析Google TPU的核心
Nvidia Volta - 架构看点:分析GTC2017上发布的新GPU Volta架构
从Nvidia开源深度学习加速器说起:补充分析Nvidia开源Xavier DLA的情况
AI芯片架构的争论真有意义吗?:探讨生态对于AI芯片的重要性
而在云端另一个有意思的应用是FPGA加速,下面这篇文章可一给大家一个基本的参考。
智慧云中的FPGA:通过Microsoft和Amazon的例子看看Cloud FPGA
由于我的芯片设计背景,我之前关注更多的是Deep Learning专用处理器/加速器的内容,这些专用芯片和IP主要应用于Edge/Embedded inference这个象限。
首先,我关注的是今年的ISSCC会议上的Deep Learning Processor这个专题,对相关的论文做了一些导读。这些论文对于希望在Edge端应用里追求更高的效率的读者,应该有一些借鉴意义:
14.1 G. Desoli, STMicroelectronics, Cornaredo, Italy, "A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems"
ISSCC2017 Deep-Learning Processors文章学习 (一)
14.2 D. Shin, et al., "DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks"
ISSCC2017 Deep-Learning Processors文章学习 (二)
14.3 P. N. Whatmough, et al., "A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications"
ISSCC2017 Deep-Learning Processors文章学习 (四)
14.4 M. Price, et al., "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating"
14.5 B. Moons, et al., "ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable Convolutional Neural Network Processor in 28nm FDSOI"
ISSCC2017 Deep-Learning Processors文章学习 (三)
14.6 K. Bong, et al., "A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector"
ISSCC2017 Deep-Learning Processors文章学习 (七)
14.7 S. Bang, et al., "A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence
除了专用的DL加速器,DSP也是Edge/Embedded侧SoC中重要的IP选项。所以,我也介绍了一系列DSP IP的方案。现在回头看看,不得不感叹这个领域现在发展的太快。
当然,除了这些针对性比较强的文章。我也尝试做了一些综述性的讨论。比如:
深度神经网络的模型·硬件联合优化:列举了神经网络硬件实现的各种优化思路
AI会给芯片设计带来什么?:讨论在AI需求的牵引下,哪些芯片设计技术会受到影响
中国初创公司在AI芯片(IP)领域的机会:一家之言,主要是对市场的讨论
最后,是两个基础技术系列文章“专用处理器系列”和吴博士“追求极限性能的芯片设计方法系列”,算是“镇店之宝”吧。
回顾之前的文章,算是一个小结。身处这个新鲜而有趣的领域,能够和大家聊聊,也是一件乐事。感谢大家的支持,欢迎大家的批评,希望大家继续捧场,多多转发。
题图来自网络,版权归原作者所有
长按二维码关注