独家爆料 | 华为五年前已在布局AI芯片，寒武纪团队注定是最优选择 | 自由微信

查看原文

其他

独家爆料 | 华为五年前已在布局AI芯片，寒武纪团队注定是最优选择

原创 2017-09-04 林宗辉 DeepTech深科技

上周六，DT 君在柏林 IFA 现场深度报道了华为最新发布的移动端 AI 芯片。此后，DT 君独家专访了深度参与麒麟 970 方案设计的一位相关人士，但这位相关人士拒绝在文章中透露其姓名及身份。

图丨华为麒麟970

这位相关人士表示，麒麟 970 整合NPU（Neural Processing Unit，神经处理单元）构想早在五年前就已经开始酝酿。

就当初的情况而言，产业界已经逐渐看到 CPU 的应用瓶颈，而 GPU 虽然也开始参与计算工作，但其主要的显示工作随着分辨率的提高而负担不断加重，所以要让这个已经分身乏术的架构继续增加负荷，对整体性能以及功耗表现也是会产生负面影响。

可以说，为追求更高的应用效率，以及更好的功耗表现，只让 CPU 或 GPU 架构参与计算已经远远不够满足需求。

事实上，当初的主流移动芯片架构也已经不会只内建此两种架构，而多半会增加额外的 DSP 单元或者是 ISP 架构，不仅分担主系统的沉重计算负担，也因为让不同类型的计算工作可以摆到更适合的计算架构上，整体功耗也有了明显的改善。

可以说，AI 正是基于同样的概念：让适合的架构来做适合的工作，效率才会得到提高。

图丨余承东展示麒麟970

这位相关人士对 DT 君表示，华为在当时就决定了未来 AI 相关计算，将会以专用架构的设计方式进行，这就好比绘图工作会交给 GPU 而不是 CPU 是一样的道理。

寒武纪的生态经营和架构优势赢得华为青睐

当然，以华为旗下海思的芯片设计功力，如果要从无到有设计出专用的 NPU 单元，也不是不可能的事情——此类 NPU 架构单纯，设计难度也不会比 CPU 更高，但问题出在生态方面。

这位相关人士表示，如果完全自主开发，从无到有的经营生态，华为有可能在未来方案推出时，缺乏市场开发者以及相关生态的支持，恐怕结果只会是事倍功半。

众所周知，寒武纪的前身是中国科学院计算技术研究所下的一个课题组，由陈云霁、陈天石教授领导。

该课题组早在 2008 年就已经开始研究神经网络算法以及芯片设计。寒武纪第一代方案在 2012 年推出，65nm 工艺下功耗为 0.485W，面积 3.02mm²。平均性能超过主流 CPU 核的 100 倍，但面积和功耗仅为 1/10，表现相当惊人。

图丨寒武纪1A处理器（Cambricon-1A）

不过，当初寒武纪有个非常直白的命名代号，叫做 DianNao，就是中文拼音的“电脑”——顾名思义就是拿来做计算工作的、用电的“大脑”。当初，这个命名并不是中国人的主意，而是研究团队中法国人的建议——不用当时已经烂大街的神经网络芯片之类的命名，反其道而行用中文取名，外国人反觉得十分高大上，相当有趣。

中科院在 DianNao 的基础上开发出 DaDianNao（第二代，功能增强）、PuDianNao（第三代，普电脑，通用型机器学习晶片）、ShiDianNao（视电脑，图像识别处理器）、DianNaoYu（电脑语，神经网络指令集）等延伸规格，针对不同应用或目的特化，也看得出研究团队对命名规则的坚持。

这位相关人士对 DT 君表示，寒武纪实际上是基于对整个软硬件优化的平台，拥有成熟的硬件，以及软件界面设计，生态支持能力绝佳，且因为知识产权完全自有，不怕受制于人。也因此，华为一方面为了节省成本，一方面又要有足够竞争优势的架构设计，考量二者得出的唯一解答：就是寒武纪了。

图丨寒武纪科技

NPU到底有多强大？

NPU 本身可达到 1.92 TFLOPS 的半精度（16bits）计算能力，以 IFA Keynote 上提到的应用案例为例，使用 NPU 可在一分钟内辨识超过两千张图片。换句话说，每秒可辨识超过 30 张图片，这对于需要及时分析的场景识别或者是合成，所需要的数据分析，已经可以达到几乎实时的地步。

而就华为给出的 25 倍速度，50 倍效率推算，该 NPU 功耗全负载大约只有 CPU 的一半，如果以计算效率/功耗换算，大概是 0.8 TFLOPS/W，如果以 NVIDIA 的 V100 方案作比较，V100 约为 0.4 TFLOPS/W。

可见，麒麟970内建的 NPU 效率之高了。

从云端到本地端硬件的AI应用

DT 君在之前的报道分析中也提及，云端性能强大，学习快速，但学习得出来的模型是通用模型，很难针对小众有订制化的调整，并满足消费者的应用场景。

但过去本地端硬件性能不足，虽然可通过云端学习，但数据这么一来一往，效率极低，无法做到实时处理。若本地端硬件拥有强大的 AI 学习能力，那么就不需要把数据上传到云端，直接在本地端处理即可，效率更高，且更能确保数据的安全与隐私。

这位相关人士表示，环顾业界，其实不是只有华为在做终端的 AI 计算工作，但华为提出的方案是以能够实现快速规模化，并 42 29184 42 12421 0 0 2112 0 0:00:13 0:00:05 0:00:08 2675成熟的商业思维为基础。其他竞争业者，比如说高通或苹果，也都在各自的技术领域有所成就。

然而，这个市场目前才处于刚刚在酝酿的时期，所以根本也不存在什么竞争问题。如果产业竞争者能够共同把饼做大，让生态更成熟，其实整个 AI 的市场规模足以撑起许多大型企业，而华为抢先卡位，自然是为了届时能够处在一个相对优势的市场地位。

但任何事物的发展都需要时间，所以只有把眼前的移动生态先做好，未来才能够实现对其他应用场景的布局。

那么生态系统的支持如何拓展？不同架构是否会冲突？

当然，目前业界采取的 AI 加速芯片设计，在结构和理念上都各有不同，计算特性也不一致，但这名相关人士表示，其实也不用担心未来会有不同架构各据山头，导致生态撕裂、饼做大前先起内讧的状况出现。

由于目前主流操作系统（包括Windows、Linux或Android）都已经支持了针对终端 AI 计算的相关开放规范，也提供了共同的软件界面，从而借以接入各种不同架构的 AI 加速芯片。

未来 AI 加速芯片的设计会有标准功能，也会有作为差异化速求的额外附加功能，前者透过一般标准界面就可存取，后者也同样是透过标准界面，但只需要小幅修改开发者端的程式码即可取用，不会造成业界的混淆。

移动应用是短期目标，未来将打生态战拓广其他领域

这位相关人士也表示，华为在 IFA 上的应用方向其实是短期目标，由于手机生态成熟，也容易接受新技术的导入，而把 AI 加速能力放在手机方案上，最有机会得到回报。

就当前的三大应用方向而言，包含视觉处理、AR 以及自然语言，都是近来最热门的高端智能手机应用发展方向，如果华为能够用更低的功耗，更好的效率来处理好这些事情，一来可以提升品牌价值，创造更高的利润，二来熟悉相关终端 AI 处理技术之后，也可以把这些方案拓展到其他智能应用上，而不是只有手机而已。

这位相关人士也强调，华为内部也已经有下一个三年计划，针对未来 AI 技术的演进，配合市场应用的需要来进行改善和微调，并随着麒麟芯片的世代更替来推新架构。

图丨麒麟 970的细部架构，NPU是最大亮点（资料来源：华为）

然而，虽然目前手机上的 AI 方案主要都着眼于 Inference（推理），而 Learning（学习）的部分则较少被提及。但凭借 NPU 的导入，一旦性能足够之后，要做到小规模的学习也不是不可能的事情，这部分与个人化的使用体验息息相关，各大厂都不会轻易放过这块大饼。

初期以高端方案布局NPU应用，未来将可能打入中端市场，扩大生态的发展

麒麟 970 作为第一代整合 NPU 的应用处理器芯片，定位最高端，也不吝于用最好的工艺，搭最顶尖的计算核心，但考虑到未来市场的走向，AI 应用一定会普及化、平民化，所以未来在相关 AI 芯片的布局规划上，肯定会往中端，甚至低端的方向走，但是在 NPU 的规模方面恐怕就会有所调整，一方面是成本考量，一方面也是产品定位问题。

目前，华为正在积极和第三方软件开发商合作，希望将整个生态基础快速扩大，这方面也不会仅止于 IFA 上所公布的三大应用方向，而是会鼓励产业合作伙伴积极尝试，华为也会尽力协助合作厂商做出他们想要的 AI 应用。

这位相关人士表示，麒麟 970 的发表只不过是短期指标，长期来看还有不少需要加强的地方，但华为至少已经踩出第一步了。虽不能说就已经是立于不败之地，但至少快了竞争对手一些，也让华为可以提早思考下一步的布局。

-End-

《麻省理工科技评论》中英文版APP1.0版已正式上线，长按识别图中二维码，或点击“阅读原文”下载

欲知会员计划详情，请点击以上图片

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……