独创可重构NPU内核设计！耐能推出物联网AI芯片KL520！

Original: 芯智讯浪客剑芯智讯 2019-06-20

5月15日，人工智能（AI）初创公司——耐能(Kneron)在深圳召开媒体沟通会，正式发布了新一代针对智能物联网市场的AI（人工智能）芯片KL520。耐能的投资方高通创投、维港投资的代表，以及大唐半导体、奥比中光、蓦然认知等合作伙伴代表均到场支持并发表演讲。

AI算法的芯片化已成大势所趋

近年来随着AI技术的发展，涌现出了一大批的AI算法初创公司，与此同时谷歌、BAT等互联网公司也纷纷杀入，但是随着AI技术的逐步成熟，这个领域的竞争变得越来越激烈。

特别是在谷歌、百度等厂商将很多AI算法及工具开源之后，开发AI算法及应用的门槛开始大幅降低，与此同时很多AI算法厂商还纷纷将一些基础的AI算法能力免费向开发者提供，比如百度将其语音AI能力免费开放，虹软也将其基础的视觉AI能力免费对外开放。这些都加剧了AI算法市场的竞争。

此外，美国高通公司风险投资总监毛嵩认为，在很多的实际应用场景当中，可能并不需要高精度的算法，可能60-70%的精度就可以了。比如在餐厅厨房通过AI摄像头监控厨师有没戴帽子，在工地上监控工地工人有没有戴安全帽。这类的应用，对于算力要求不高，精度也不需要太高，但能够替代一定人力，市场对于这类低成本的AI解决方案还是有着很大的需求。这也推动了对于低成本的终端AI芯片的需求。

而随着终端侧AI计算的兴起，自去年以来，国内众多的AI算法厂商都开始纷纷进入AI芯片及模组领域。比如像百度、云知声、Rokid、思必驰、云天励飞、依图科技等都推出了基于自己算法定制的AI芯片。

显然，对于这些AI算法厂商来说，自己来做AI芯片或模组，都是希望脱离单纯的AI算法授权的商业模式，脱离AI算法领域的激烈竞争，通过向产业链上下游延伸，拉高竞争壁垒，提升自身的核心竞争力，推动生态建设，加速AI算法的产品化落地。

▲耐能CEO刘峻诚

耐能CEO刘峻诚也表示，AI算法厂商来做AI芯片是大势所趋。“AI算法的门槛在降低，而芯片的门槛却比较高，做AI芯片将可帮助AI算法厂商提高竞争壁垒；另一方面，即使是非常好的AI算法，也是需要通过芯片、通过产品才能落地到实际的应用场景当中。”

做AI芯片门槛更高

不过，在刘峻诚看来，做AI芯片的难度要远远高于做AI算法，特别对于很多原来根本就没有芯片研发经验的厂商来说。比如一颗28nm的芯片流片一次就需要100-200万美金，如果是12nm可能就需要1000万美金，这还只是一次流片的费用，如果连续几次流片不成功，可能几千万美金就打了水漂。而且，这还没有包括研发及量产的费用。另外，芯片的研发周期一般都相对较长，如果无法按照规划如期量产，则可能错过市场的最佳窗口期，导致上市即落后。即使成功如期量产，芯片性能与现有竞品是否有足够的竞争力？怎么定价？卖给谁？怎么卖？而且一颗芯片开放出来，往往可能需要卖出几十万、甚至是上百万颗芯片之后才能够获利。这些都是需要解决的问题。

显然，对于AI算法厂商来说，做AI芯片的并不是一件容易的事。所以我们可以看到，一些AI算法厂商的AI芯片是通过传统的芯片厂商来定制的，比如Rokid、云知声的首款AI芯片都是由杭州国芯定制的。但是，这里遇到的一个问题是，这些AI芯片是基于传统芯片厂商现有的一些处理器IP内核来进行定制，因此相对于专为特定的AI算法而设计的处理器内核架构来说，在性能、功耗等方面的表现上将会差不少。

那么耐能是如何来解决从AI算到AI芯片的问题呢？

三大跨越，四年不间断研发终获成功

“耐能并不是从做了AI算法之后才来做的AI芯片！”刘峻诚告诉芯智讯：“耐能在2015年公司成立之初就开始了AI算法和AI芯片的同步研发，我们核心团队不仅有软件研发经验丰富，同时还有着多年的丰富的半导体硬件研发经验。”

从耐能展示的公司的核心团队成员资料来看，其中有多位都有着多年的半导体从业经验，多位成员都曾在高通以及三星担任要职。比如CEO刘峻诚就曾在高通、三星、晨星半导体担任研发与管理职务；首席科学家李湘村博士曾在高通担任多媒体研发总监，还曾在华为、vivo、展讯担任AVP；技术总结陈云刚曾长期任职于贝尔实验室、三星研发部门。此外，首席架构师袁红岗曾是金蝶中间件的首席架构师。

刘峻诚表示：“我们的核心团队实现了三个跨度：一个是跨软件与硬件；一个是跨年龄段，既有非常年轻的有创造力的年轻人，也有二三十年从业经验的资深老专家；最后，是跨地域和时区，我们在美国圣地亚哥、深圳、珠海、台北新竹都设有研发中心，由于公司结构是非常的扁平化，研发也是跨地区和时区的联合研发，这也使得我们能够持续不间断的研发。”

成立仅两年多的时间，仍处于低调研发当中的耐能就得到了众多资本的追捧。

2017年11月，耐能宣布获得超过千万美金的A轮融资，本轮融资由阿里创业者基金领投，奇景光电、中华开发资本、高通、中科创达、红杉资本、创业邦跟投。

2018年5月31日，耐能又宣布完成由李嘉诚旗下维港投资领投的1800万美元A+轮融资。

得益于强大的研发团队以及众多知名资本及其背后资源的助力，经过四年来的持续不间断的研发，耐能到目前为止已经成功开发了三款AI芯片。其中在2018年就推出了KDP300和KDP500，不过这两款产品耐能并未直接将其做成芯片，而是以IP授权的形式开放给了合作客户，前者卖给了一家国外手机大厂，后者则卖给了一家家电厂商（获得了几百万美金的收入）。而KL520则是耐能推出的第一颗真正芯片化的产品。

KL520：可重构设计，语音AI/视觉AI均可适用

众所周知，AI芯片是针对特定的AI算法所设计的，比如做语音AI的芯片，最适合做语音AI，做视觉AI的就最适合做视觉AI，因为不同的神经网络的应用是不一样的。要想一颗AI芯片同时适用于语音AI和视觉AI，就必须同时在芯片当中融入语音AI的算法和视觉AI的算法，但是这么做必然会带来芯片面积的增大，功耗的大幅提升以及性能的浪费。那么有没有一种方法可以解决这个问题呢？

可重构的NPU设计

据介绍，耐能在做最新的AI内核NPU KDP520设计时，创新性的采用了具有完全自主知识产权的可重构的设计。“我们发现很多AI神经网络在很多的区块上是具有相似性的，所以我们采用了搭积木的方式来进行设计，即将神经网络打散成很多个不同模块，当用户需要做语音AI时，就通过选择特定的区块来进行组合，从何实现语音AI功能。当用户需要做视觉AI时，就重新将‘积木’打散，根据需要来进行组合使用。这样既可以做到更强的适应性，同时又能保持小体积、低功耗以及够用的性能。”刘峻诚非常形象的解释到。

所以我们可以看到，耐能的这款AI芯片支持的框架和CNN模型非常的全面。可支持主流的ONNX、Tensorflow、Keras、Caffe框架，支持Vgg16、Resnet、GoogleNet、YOLO等主流的CNN模型。对比其他同类竞品来看，KL520的扩展性更强。

据介绍，KL520在模型经过40-50倍的压缩之后，压缩精度损失仍＜0.5%。在人脸识别、物品识别、身体与手势识别、3D传感等应用上都有不俗表现。

特别值得一提的是，耐能的可重构式NPU还可支持神经网络不同层级，每一层的精度的动态调整，比如有些层级可以用低精度的int8，有些层级可以用高精度的int16，有些则可以用更高精度的32bit，这样的动态调整实际可以形成一个最具效率的组合。但是，如果全部都用32bit，显然会造成很大的浪费。

而为了便于客户能够很好的利用耐能的可重构式NPU，耐能还提供了配套的编译器，开发者只需通过KL520支持的开发框架进行开发，然后通过耐能的编译器即可实现对于耐能的可重构式NPU的灵活运用。另外，对于那些开发能力较弱的厂商，耐能还表示可以提供Tunkey的解决方案。

为什么用40nm以及Cortex-M4内核？

此次耐能推出的KL520实际上是一颗AI SoC，其不仅集成了KDP520 NPU还集成了双核的Arm Cortex-M4 MCU（使得KL520更具易用性，不需要再去额外的搭配CPU，即可独立工作，当然也可以当做协处理器来使用），同时还集成了LPDDR2、OTP，以及丰富的外接接口。

对于为什么选择Arm Cortex-M4内核，刘峻诚坦言，主要是因为便宜，可以将整体的成本降低。同样，KL520选择相对较老的40nm工艺，也正是出于成本考虑。正如前面所提到的，12nm流片一次大概需要1000万美金，28nm流片一次大概需要100-200万美元，而40nm流片一次大概只需要40-50万美金，显然从成本角度考虑40nm更具性价比。

对于一款主要针对物联网领域的轻量级终端AI芯片来说，成本是极其重要的。一款芯片再好，如果成本太高，也是难以成功的。这也迫使耐能想尽办法去做出一颗既要有足够的性能，又要功耗够低，还要价格够便宜的AI芯片，于是就有了KL520。

刚好够用的性能

通常来说，一款AI芯片的算力越高，性能也就越强，但是正如前面所说的，如果脱离功耗和成本来谈性能是没有意义的。因为算力的提升可以简单的通过MAC数的堆积以及制程工艺的提升来实现，但是这会带来芯片功耗和面积的提升，以及成本的大幅增加。特别是对于针对物联网领域的AI芯片来说，成本和功耗更是至关重要。

所以我们可以看到，耐能并未刻意追求更高的算力，而是在保证低功耗、低成本的基础上去提供刚好够用的性能。虽然，KL520的NPU的算力只有0.345TOPS，但是在实际的测试中，KL520却取得了相比采用28nm工艺具有1TOPS算力的竞品更出色的成绩。而且对算法的适应性更广，同时功耗也只有竞品的1/5-1/2。

那么，为什么KL520能够在工艺、算力全不占有优势的情况下，取得了竞品更好的表现呢？

对此，耐能将其归结于KL520更为高效的MAC利用率。根据耐能公布的数据显示，能耐KL520运算效率达到了70-90%，与竞争对手的产品相比，跑ResNet50的效率达到了竞品的3.15倍，跑GoogleNte的效率达到了竞品的1.71倍。

“这就好比你有两辆车，一辆最高时速可以跑到200km/h，另外一辆最高能跑到100km/h，但是如果你平时90%的时间都只跑在80km/h，那么用第一辆车就能够满足你的实际出行需求了，即使前一辆车性能更强、造价更高。”刘峻诚举例解释到。

刘峻诚总结表示：“一款成功的终端AI芯片的关键在于：足够的算力，最有竞争力的成本，最高的兼容性和最低的功耗。KL520就是这样一款产品。”

携手合作伙伴，KL520落地三大应用场景

前面有介绍到，KL520是一款针对物联网市场的AI芯片。而在耐能看来，KL520非常适合于3D传感、智能家居（比如智能冰箱、空调、扫地机器人等）、智能硬件（比如无人机、机器人、智能玩具等）

在3D传感领域，耐能KL520不仅可以支持采用普通RGB摄像头+普通红外摄像头组成的轻量级的3D传感方案，同时也可支持基于ToF/结构光/双目的3D传感器模组。

▲台湾钰创展示的基于耐能KL520的轻量级3D视觉解决方案

在目前的智能家居市场，智能门锁算是一个热度比较高，出货量也比较大的一个品类。而对于智能门锁来说，安全性是至关重要的，目前智能门锁大多采用的是指纹识别，虽然有一些厂商也有开始采用人脸识别，但是都是基于2D/2.5D的安全性非常的差，相比之下3D人脸识别安全性更高，甚至相比指纹识别的安全性还要高，而且更具便利性（非接触式）。不过，目前3D人脸识别的成本还是非常的高。

大唐半导体研发部技术总监母大学表示，随着3D产业链的成熟，以及3D人脸识别门锁市场的打开，3D模组的成本必然会持续下滑。只要3D人脸识别门锁足够安全，体验足够好，成本足够低，就不愁没有市场。

母大学指出，耐能3D方案在专属打造的轻量级AI芯片强大的AI算力的支持下，不仅利用了人脸识别、人脸比对、活体检测等红外人脸信息，而且通过红外相机和彩色相机得到的特征点视差计算出人脸的3D信息，然后将得到人脸3D信息和人脸2D红外图像信息、RGB图像信息通过耐能融合算法与原始数据进行匹配，结果都和录入数据匹配才算认证成功，安全性得到极大的提升，误识率仅为数十万分之一。同时，对包括室内室外的光线环境均能很好适应，也能有效地防止多种材质的相片、显示屏甚至人脸模型的攻击。更为重要的是，KL520的功耗也是非常的低，有助于门锁续航时间的提升。

在本次发布会上，国内3D传感领域的独角兽——奥比中光（估值已超100亿人民币）的高级战略BD总监彭勋禄也表示，未来3D传感的市场前景非常的广阔，但是目前不论是对于ToF还是3D结构光方案来说，整个系统的功耗仍是比较高，所以目前应用在智能门锁（智能门锁如果两三个月就要更换电池，用户是难以接受的）等对于功耗要求较高的领域，仍有一定的难度。

▲奥比中光的高级战略BD总监彭勋禄

另外，目前3D传感模组的AI应用仍然是需要依赖于其他的计算单元来完成。虽然，奥比中光的3D结构光方案也有配套的自研的ASIC芯片，但是这个ASIC主要是用作对于采集到的数据进行转化成3D模型，并不能用于AI运算。而如果搭配耐能KL520则可以无需外挂其他计算单元即可实现3D成像及AI应用。

因此，奥比中光也是对于与耐能的合作充满了期待。

彭勋禄在现场就表示：“希望耐能基于奥比的3D摄像头能够尽快调通。帮助奥比中光的3D模组实现系统功耗的进一步降低以及AI能力的进一步提升。”

作为耐能在与语音AI相关的领域的合作伙伴，蓦然认知是智能语⾳座舱及对话应用生态的开创者，专注于认知计算、自然语言理解，拥有自主的语音交互全栈技术（降噪+语音+语义+多轮对话+知识图谱）。同时，以车机为入口，以对话OS为中心，⽀持多屏互动，多设备协作，车家互联，与IoT深度融合，助力智能互联生活。

蓦然认知创始人兼CEO戴帅湘表示，未来将会与耐能深度合作，把云端认知计算与本地端感知计算相结合，提供以自然语言交互为核心的多模态多轮交互整体方案，深入渗透汽车及消费电子终端OS，为用户带来全新多模交互方式下，去APP化的应用体验。

除了以上提及的钰创、大唐、奥比中光、蓦然认知之外，格力电器、奇景光电、搜狗、和硕等在耐能的客户名单当中。此外，还包括国际知名的EDA工具厂商Synopsys、Cadence，当然这两家厂商并不是买耐能的IP或者芯片来用，而是将其IP搭配自己的EDA工具一起来销售。耐能强调，由于与很多客户有保密协议，所以还有很多客户没能放到列表当中。

未来规划

根据耐能的规划，目前合作客户基于KL520的一些产品正在研发当中。此外，耐能还有一款更为轻量级的NPU内核KDP320也已经推出。而在今年四季度，耐能还将推出一款主打高性能的AI芯片KL720，基于28nm工艺，算力将达到2.0 TOPS。明年还会推出28nm的KL530和16nm的KL730。

作者：芯智讯-浪客剑

国产存储两大主力首次同台：长江存储与长鑫存储进展如何？

美国公布3000亿美元商品清单：哪些电子产品将受影响？

力挺长江存储，江波龙携手天猫加速存储国产化！

花4亿定制芯片也不灵？传小霸王游戏机团队解散！官方独家回应来了！

5G终端商用大幕开启：深度解析射频前端产业链！

台系代工厂领衔，电子制造业外迁加速！

算法即芯片时代开启！依图发布AI芯片questcore：能否挑战英伟达、特斯拉？

2018手机ODM产业白皮书：头部厂商逆势增长，强者恒强格局已定！

5G应用的关键材料，一文看懂GaN产业链！