查看原文
其他

StarryHeavensAbove AI芯片文章导读

唐杉 StarryHeavensAbove 2023-01-25

在AI热潮中,AI芯片技术和产业备受关注


产业讨论

AI芯片全景:AI芯片相关的玩家,以及两年多对AI芯片的观察。

AI芯片的“冷”与“热”

后通用芯片时代:专用芯片兴起背后的经济学:为什么摩尔定律的终结与深度学习的兴起会加速计算技术的专用化趋势?

AI芯片0.5与2.0:AI芯片的现阶段状态和未来展望

AI芯片开年:2018开年,AI芯片领域延续了17的热闹景象,此文更新了一些信息。

2017 • AI芯片元年:AI芯片在2017年完成了“战略准备”。

中国初创公司在AI芯片(IP)领域的机会:2017年的文章,主要是对一些市场机会的讨论。

AI Inference芯片 ∙ 血战开始



AI芯片分类和基本技术

具体来讲,AI/ML/DL的硬件大体上可以按照下图的几个象限进行分类。

从功能来看,可以分成Training和Inference;而从应用场景则可以分成“ Cloud / Data Center”,“Edge”和“End User Equipment”几类。其中在终端做training的需求目前还不是很明确,暂时不去考虑。Edge部分的需求看起来很有意思,也有不少机会,不过还是需要5G为前提(AI芯片在5G中的机会),目前还有不确定的地方。

这几个象限都有自身实现的需求和约束。为了适应AI应用的需求,大家对于AI硬件做了大量的探索。

AI/ML/DNN硬件加速设计怎么入门?:Stanford大学的课程CS217可以作为很好的参考。

深度神经网络的模型·硬件联合优化:列举了神经网络硬件实现的各种优化思路

AI会给芯片设计带来什么?:讨论在AI需求的牵引下,哪些芯片设计技术会受到影响



AI芯片列表

随着这些技术上的探索逐渐落地,大量的AI处理器出现在我们的视野当中。为了能比较方便的对比,我在Github上整理了一个AI处理器的列表:AI/ML/DL ICs and IPs

(https://basicmi.github.io/AI-Chip),也可在文末点击原文链接访问。

过年了,走访一下奋斗中的AI芯片初创公司吧


以下的文章从不同的层面讨论AI芯片的相关内容。



综合技术讨论

除了这些针对性比较强的文章,我也做了一些综合性的讨论,看看更多的方向,不同的思路,还有远方。比如:

在体系结构黄金期,ESL设计方法学能否“焕发青春”?

细读EETimes的AI芯片文章

为云而生又生于云中的芯片给我们的启示:Google的TPU芯片专门为云端AI应用设计,可谓是为云而生。而TPU的设计过程又越来越多的利用了云的优势,可谓是生于云中。

从AI Chip到AI Chiplet:Chiplet是未来芯片的关键基础,也为AI芯片的发展带来了新的机会。

黄金时代:20年后,我们迎来计算机体系结构的又一个“黄金时代”。

AI芯片架构的争论真有意义吗?:探讨生态对于AI芯片的重要性

通过DARPA项目看看芯片世界的“远方”- Architectures

通过DARPA项目看看芯片世界的“远方”- 自动化工具和开源硬件

“传说中”的异步电路是否能在AI芯片中异军突起?



云端技术

云端和Datacenter的应用,从Training到Inference。如果关注这个领域,可以参考下面一系列文章:

数据中心AI Inference芯片今年能达到什么样的性能?

如何设计一颗40PFLOPS量级的AI芯片?

Google TPU3 看点

Google TPU 揭密:对Google TPU论文的初步分析

脉动阵列 - 因Google TPU获得新生:进一步详细分析Google TPU的核心

Nvidia Volta - 架构看点:分析GTC2017上发布的新GPU Volta架构

从Nvidia开源深度学习加速器说起:补充分析Nvidia开源Xavier DLA的情况

Graphcore AI芯片:更多分析 

解密又一个xPU:Graphcore的IPU 

Groq把AI芯片的性能推向新高 

Petascale AI芯片Vathys:靠谱项目?清奇脑洞?还是放卫星? 


而在云端另一个有意思的应用是FPGA加速,下面这篇文章可一给大家一个基本的参考。

智慧云中的FPGA:通过Microsoft和Amazon的例子看看Cloud FPGA。



端侧技术

2017年的ISSCC会议上的Deep Learning Processor专题,大部分工作都可以落在Edge/Embedded inference这个象限。ISSCC论文对于希望在Edge端应用里追求高效率的读者,有非常好的的借鉴意义:

"A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems"

ISSCC2017 Deep-Learning Processors文章学习 (一)

"DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks"

ISSCC2017 Deep-Learning Processors文章学习 (二)

"A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications"

ISSCC2017 Deep-Learning Processors文章学习 (四)

"A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating"

分析一下MIT的智能语音识别芯片

"ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable Convolutional Neural Network Processor in 28nm FDSOI"

ISSCC2017 Deep-Learning Processors文章学习 (三)

"A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector"

ISSCC2017 Deep-Learning Processors文章学习 (七)

"A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence

ISSCC2017 Deep-Learning Processors文章学习 (五)


从ISCA论文看AI硬件加速的新技巧2018年的ISCA会议,我们又可以看到一些新的AI加速硬件技巧。



软件栈

在Deep Learning领域,除了硬件架构的优化,软件栈对于实现的性能和效率也起到至关重要的作用,而软件的工作量比硬件也要大很多。未来我会和大家一起多探讨一下这方面的内容。

Deep Learning的IR“之争”

“全栈”开源的VTA会给AI芯片产业带来什么?:从TVM到VTA,从软件栈出发设计硬件是否能成为趋势?



Benchmark系列话题

面对越来越多的DNN专用处理器设计(芯片和IP),我们很自然的需要解决一个问题“怎样对不同的DNN处理器设计做出公平的比较和评价?”能不能像手机跑分一样也让它们跑个分呢?这实际是个基准测试(Benchmarking)问题。

给DNN处理器跑个分 - 指标篇

给DNN处理器跑个分 - 设计篇

给DNN处理器跑个分 - BenchIP

如何评测AI系统?



Hot Chips会议总结

Hot (AI) Chips 2017

2018年的Hotchips会议是第30届,也是AI芯片的大舞台,下面三篇文章讨论了Hotchips会议的主要看点:

Hot Chips 30,黄金时代的缩影

Hot Chips 30 - 机器学习

Hot Chips 30 - 巨头们亮“肌肉”



自动驾驶相关话题

自动驾驶,智能汽车,智慧交通也是AI应用的一个重要领域。对这方面的内容,我也做过一点讨论,希望以后能聊聊更多话题。

AI + 5G = 高通的未来汽车之道

你会信任驾驶座上的AI吗?



专用处理器系列

专用处理器设计



AI IP

传统的IP厂商其实很早就开始AI IP的布局,这些IP也是AI SoC中重要的选项。所以,我也介绍了一系列IP的方案。这部分大部分文章写于2017年,其它一些公司也有IP产品推出,很多IP也有了新的版本,大家可以参考各家的网站。

一窥ARM的AI处理器

处理器IP厂商的机器学习方案 - 背景

处理器IP厂商的机器学习方案 - CEVA

处理器IP厂商的机器学习方案 - Synopsys

Cadence(Tensilica)的可定制处理器

高通的Hexagon DSP

神经网络DSP核的一桌麻将终于凑齐了



追求极限性能的芯片设计方法系列

吴博士撰写的“追求极限性能的芯片设计方法系列”:

本文首先给出目前性能的评估尺度及关系,之后讲述在这些关系的权衡中,如何采用归一化的尺度将众多指标归结为一个或几个重要的指标,再对这些指标进行极限突破,得到尽可能好的设计。本文仅考虑时序驱动的数字电路,尤其是高性能加速器和专用处理器的设计。而本文的目的就是阐述一个操作性较强的极限量化芯片设计方法。

追求极限性能的芯片设计方法(一)

追求极限性能的芯片设计方法(二)

追求极限性能的芯片设计方法(三)

追求极限性能的芯片设计方法(四)



AI芯片需求分析系列

浅析图像视频类AI芯片的灵活度

语音及文本类AI芯片的需求分析

从NNVM和ONNX看AI芯片的基础运算算子




题图来自网络,版权归原作者所有

本公众号文章为个人兴趣之作,仅代表本人观点,与就职单位无关

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存