StarryHeavensAbove AI芯片文章导读
伴随AI热潮,AI芯片也备受关注
产业讨论
AI芯片0.5与2.0:AI芯片的现阶段状态和未来展望
从AI Chip到AI Chiplet:Chiplet是未来芯片的关键基础,也为AI芯片的发展带来了新的机会。
AI芯片开年:2018开年,AI芯片领域延续了17的热闹景象,此文更新了一些信息。
2017 • AI芯片元年:AI芯片在2017年完成了“战略准备”。
中国初创公司在AI芯片(IP)领域的机会:2017年的文章,主要是对一些市场机会的讨论。
黄金时代:20年后,我们迎来计算机体系结构的又一个“黄金时代”。
2018 Hot Chips会议总结
2018年的Hotchips会议是第30届,也是AI芯片的大舞台,下面三篇文章讨论了Hotchips会议的主要看点:
AI芯片分类和基本技术
具体来讲,AI/ML/DL的硬件大体上可以按照下图的几个象限进行分类。
从功能来看,可以分成Training和Inference;而从应用场景则可以分成“ Cloud / Data Center”,“Edge”和“End User Equipment”几类。其中在终端做training的需求目前还不是很明确,暂时不去考虑。其它几个象限都有自身实现的需求和约束。为了适应AI应用的需求,大家对于AI硬件做了大量的探索。由于目前GPU在Training还是占据绝对的统治地位,大部分AI硬件的优化主要针对Inference,具体可以参考下面文章:
深度神经网络的模型·硬件联合优化:列举了神经网络硬件实现的各种优化思路
AI会给芯片设计带来什么?:讨论在AI需求的牵引下,哪些芯片设计技术会受到影响
从ISCA论文看AI硬件加速的新技巧:2018年的ISCA会议,我们又可以看到一些新的AI加速硬件技巧。
AI芯片列表
随着这些技术上的探索逐渐落地,大量的AI处理器出现在我们的视野当中。为了能比较方便的对比,我在Github上整理了一个AI处理器的列表:AI/ML/DL ICs and IPs
(https://basicmi.github.io/AI-Chip),也可在文末点击原文链接访问。
在以下的文章中,我从不同的层面介绍了AI芯片的相关内容。
云端技术
云端和Datacenter的应用,从Training到Inference。如果关注这个领域,可以参考下面一系列文章:
Google TPU 揭密:对Google TPU论文的初步分析
脉动阵列 - 因Google TPU获得新生:进一步详细分析Google TPU的核心
Nvidia Volta - 架构看点:分析GTC2017上发布的新GPU Volta架构
从Nvidia开源深度学习加速器说起:补充分析Nvidia开源Xavier DLA的情况
Petascale AI芯片Vathys:靠谱项目?清奇脑洞?还是放卫星?
而在云端另一个有意思的应用是FPGA加速,下面这篇文章可一给大家一个基本的参考。
智慧云中的FPGA:通过Microsoft和Amazon的例子看看Cloud FPGA
端侧技术
2017年的ISSCC会议上的Deep Learning Processor专题,大部分工作都可以落在Edge/Embedded inference这个象限。ISSCC论文虽然还不是最终的产品,但已经非常接近实现了,对于希望在Edge端应用里追求高效率的读者,有非常好的的借鉴意义:
"A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems"
ISSCC2017 Deep-Learning Processors文章学习 (一)
"DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks"
ISSCC2017 Deep-Learning Processors文章学习 (二)
"A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications"
ISSCC2017 Deep-Learning Processors文章学习 (四)
"A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating"
"ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable Convolutional Neural Network Processor in 28nm FDSOI"
ISSCC2017 Deep-Learning Processors文章学习 (三)
"A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector"
ISSCC2017 Deep-Learning Processors文章学习 (七)
"A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence
ISSCC2017 Deep-Learning Processors文章学习 (五)
AI IP
传统的IP厂商其实很早就开始AI IP的布局,这些IP也是AI SoC中重要的选项。所以,我也介绍了一系列IP的方案。这部分大部分文章写于2017年,其它一些公司也有IP产品推出,很多IP也有了新的版本,大家可以参考各家的网站。
处理器IP厂商的机器学习方案 - ARM(在刚发了这篇文章之后,ARM推出了DynamIQ)
软件栈
在Deep Learning领域,除了硬件架构的优化,软件栈对于实现的性能和效率也起到至关重要的作用,而软件的工作量比硬件也要大很多。未来我会和大家一起多探讨一下这方面的内容。
Benchmark系列话题
面对越来越多的DNN专用处理器设计(芯片和IP),我们很自然的需要解决一个问题“怎样对不同的DNN处理器设计做出公平的比较和评价?”能不能像手机跑分一样也让它们跑个分呢?这实际是个基准测试(Benchmarking)问题。
综合讨论
除了这些针对性比较强的文章,我也做了一些综合性的讨论,看看更多的方向,不同的思路,还有远方。比如:
AI芯片架构的争论真有意义吗?:探讨生态对于AI芯片的重要性
通过DARPA项目看看芯片世界的“远方”- Architectures
通过DARPA项目看看芯片世界的“远方”- 自动化工具和开源硬件
HIVE - DARPA资助的新型处理器(zhuanlan.zhihu.com/p/27350569)
相关话题
自动驾驶,智能汽车,智慧交通也是AI应用的一个重要领域。对这方面的内容,我也做过一点讨论,希望以后能聊聊更多话题。
从TI“新”的自动驾驶战略说起(zhuanlan.zhihu.com/p/27529255)
专用处理器系列
追求极限性能的芯片设计方法系列
吴博士撰写的“追求极限性能的芯片设计方法系列”:
本文首先给出目前性能的评估尺度及关系,之后讲述在这些关系的权衡中,如何采用归一化的尺度将众多指标归结为一个或几个重要的指标,再对这些指标进行极限突破,得到尽可能好的设计。本文仅考虑时序驱动的数字电路,尤其是高性能加速器和专用处理器的设计。而本文的目的就是阐述一个操作性较强的极限量化芯片设计方法。
AI芯片需求分析系列
题图来自网络,版权归原作者所有
长按二维码关注