独创可重构NPU内核设计!耐能推出物联网AI芯片KL520!
5月15日,人工智能(AI)初创公司——耐能(Kneron)在深圳召开媒体沟通会,正式发布了新一代针对智能物联网市场的AI(人工智能)芯片KL520。耐能的投资方高通创投、维港投资的代表,以及大唐半导体、奥比中光、蓦然认知等合作伙伴代表均到场支持并发表演讲。
AI算法的芯片化已成大势所趋
近年来随着AI技术的发展,涌现出了一大批的AI算法初创公司,与此同时谷歌、BAT等互联网公司也纷纷杀入,但是随着AI技术的逐步成熟,这个领域的竞争变得越来越激烈。
特别是在谷歌、百度等厂商将很多AI算法及工具开源之后,开发AI算法及应用的门槛开始大幅降低,与此同时很多AI算法厂商还纷纷将一些基础的AI算法能力免费向开发者提供,比如百度将其语音AI能力免费开放,虹软也将其基础的视觉AI能力免费对外开放。这些都加剧了AI算法市场的竞争。
此外,美国高通公司风险投资总监毛嵩认为,在很多的实际应用场景当中,可能并不需要高精度的算法,可能60-70%的精度就可以了。比如在餐厅厨房通过AI摄像头监控厨师有没戴帽子,在工地上监控工地工人有没有戴安全帽。这类的应用,对于算力要求不高,精度也不需要太高,但能够替代一定人力,市场对于这类低成本的AI解决方案还是有着很大的需求。这也推动了对于低成本的终端AI芯片的需求。
而随着终端侧AI计算的兴起,自去年以来,国内众多的AI算法厂商都开始纷纷进入AI芯片及模组领域。比如像百度、云知声、Rokid、思必驰、云天励飞、依图科技等都推出了基于自己算法定制的AI芯片。
显然,对于这些AI算法厂商来说,自己来做AI芯片或模组,都是希望脱离单纯的AI算法授权的商业模式,脱离AI算法领域的激烈竞争,通过向产业链上下游延伸,拉高竞争壁垒,提升自身的核心竞争力,推动生态建设,加速AI算法的产品化落地。
▲耐能CEO刘峻诚
耐能CEO刘峻诚也表示,AI算法厂商来做AI芯片是大势所趋。“AI算法的门槛在降低,而芯片的门槛却比较高,做AI芯片将可帮助AI算法厂商提高竞争壁垒;另一方面,即使是非常好的AI算法,也是需要通过芯片、通过产品才能落地到实际的应用场景当中。”
做AI芯片门槛更高
不过,在刘峻诚看来,做AI芯片的难度要远远高于做AI算法,特别对于很多原来根本就没有芯片研发经验的厂商来说。比如一颗28nm的芯片流片一次就需要100-200万美金,如果是12nm可能就需要1000万美金,这还只是一次流片的费用,如果连续几次流片不成功,可能几千万美金就打了水漂。而且,这还没有包括研发及量产的费用。另外,芯片的研发周期一般都相对较长,如果无法按照规划如期量产,则可能错过市场的最佳窗口期,导致上市即落后。即使成功如期量产,芯片性能与现有竞品是否有足够的竞争力?怎么定价?卖给谁?怎么卖?而且一颗芯片开放出来,往往可能需要卖出几十万、甚至是上百万颗芯片之后才能够获利。这些都是需要解决的问题。
显然,对于AI算法厂商来说,做AI芯片的并不是一件容易的事。所以我们可以看到,一些AI算法厂商的AI芯片是通过传统的芯片厂商来定制的,比如Rokid、云知声的首款AI芯片都是由杭州国芯定制的。但是,这里遇到的一个问题是,这些AI芯片是基于传统芯片厂商现有的一些处理器IP内核来进行定制,因此相对于专为特定的AI算法而设计的处理器内核架构来说,在性能、功耗等方面的表现上将会差不少。
那么耐能是如何来解决从AI算到AI芯片的问题呢?
三大跨越,四年不间断研发终获成功
“耐能并不是从做了AI算法之后才来做的AI芯片!”刘峻诚告诉芯智讯:“耐能在2015年公司成立之初就开始了AI算法和AI芯片的同步研发,我们核心团队不仅有软件研发经验丰富,同时还有着多年的丰富的半导体硬件研发经验。”
从耐能展示的公司的核心团队成员资料来看,其中有多位都有着多年的半导体从业经验,多位成员都曾在高通以及三星担任要职。比如CEO刘峻诚就曾在高通、三星、晨星半导体担任研发与管理职务;首席科学家李湘村博士曾在高通担任多媒体研发总监,还曾在华为、vivo、展讯担任AVP;技术总结陈云刚曾长期任职于贝尔实验室、三星研发部门。此外,首席架构师袁红岗曾是金蝶中间件的首席架构师。
刘峻诚表示:“我们的核心团队实现了三个跨度:一个是跨软件与硬件;一个是跨年龄段,既有非常年轻的有创造力的年轻人,也有二三十年从业经验的资深老专家;最后,是跨地域和时区,我们在美国圣地亚哥、深圳、珠海、台北新竹都设有研发中心,由于公司结构是非常的扁平化,研发也是跨地区和时区的联合研发,这也使得我们能够持续不间断的研发。”
成立仅两年多的时间,仍处于低调研发当中的耐能就得到了众多资本的追捧。
2017年11月,耐能宣布获得超过千万美金的A轮融资,本轮融资由阿里创业者基金领投,奇景光电、中华开发资本、高通、中科创达、红杉资本、创业邦跟投。
2018年5月31日,耐能又宣布完成由李嘉诚旗下维港投资领投的1800万美元A+轮融资。
得益于强大的研发团队以及众多知名资本及其背后资源的助力,经过四年来的持续不间断的研发,耐能到目前为止已经成功开发了三款AI芯片。其中在2018年就推出了KDP300和KDP500,不过这两款产品耐能并未直接将其做成芯片,而是以IP授权的形式开放给了合作客户,前者卖给了一家国外手机大厂,后者则卖给了一家家电厂商(获得了几百万美金的收入)。而KL520则是耐能推出的第一颗真正芯片化的产品。
KL520:可重构设计,语音AI/视觉AI均可适用
众所周知,AI芯片是针对特定的AI算法所设计的,比如做语音AI的芯片,最适合做语音AI,做视觉AI的就最适合做视觉AI,因为不同的神经网络的应用是不一样的。要想一颗AI芯片同时适用于语音AI和视觉AI,就必须同时在芯片当中融入语音AI的算法和视觉AI的算法,但是这么做必然会带来芯片面积的增大,功耗的大幅提升以及性能的浪费。那么有没有一种方法可以解决这个问题呢?
可重构的NPU设计
据介绍,耐能在做最新的AI内核NPU KDP520设计时,创新性的采用了具有完全自主知识产权的可重构的设计。“我们发现很多AI神经网络在很多的区块上是具有相似性的,所以我们采用了搭积木的方式来进行设计,即将神经网络打散成很多个不同模块,当用户需要做语音AI时,就通过选择特定的区块来进行组合,从何实现语音AI功能。当用户需要做视觉AI时,就重新将‘积木’打散,根据需要来进行组合使用。这样既可以做到更强的适应性,同时又能保持小体积、低功耗以及够用的性能。”刘峻诚非常形象的解释到。
所以我们可以看到,耐能的这款AI芯片支持的框架和CNN模型非常的全面。可支持主流的ONNX、Tensorflow、Keras、Caffe框架,支持Vgg16、Resnet、GoogleNet、YOLO等主流的CNN模型。对比其他同类竞品来看,KL520的扩展性更强。
据介绍,KL520在模型经过40-50倍的压缩之后,压缩精度损失仍<0.5%。在人脸识别、物品识别、身体与手势识别、3D传感等应用上都有不俗表现。
特别值得一提的是,耐能的可重构式NPU还可支持神经网络不同层级,每一层的精度的动态调整,比如有些层级可以用低精度的int8,有些层级可以用高精度的int16,有些则可以用更高精度的32bit,这样的动态调整实际可以形成一个最具效率的组合。但是,如果全部都用32bit,显然会造成很大的浪费。
而为了便于客户能够很好的利用耐能的可重构式NPU,耐能还提供了配套的编译器,开发者只需通过KL520支持的开发框架进行开发,然后通过耐能的编译器即可实现对于耐能的可重构式NPU的灵活运用。另外,对于那些开发能力较弱的厂商,耐能还表示可以提供Tunkey的解决方案。
为什么用40nm以及Cortex-M4内核?
此次耐能推出的KL520实际上是一颗AI SoC,其不仅集成了KDP520 NPU还集成了双核的Arm Cortex-M4 MCU(使得KL520更具易用性,不需要再去额外的搭配CPU,即可独立工作,当然也可以当做协处理器来使用),同时还集成了LPDDR2、OTP,以及丰富的外接接口。
对于为什么选择Arm Cortex-M4内核,刘峻诚坦言,主要是因为便宜,可以将整体的成本降低。同样,KL520选择相对较老的40nm工艺,也正是出于成本考虑。正如前面所提到的,12nm流片一次大概需要1000万美金,28nm流片一次大概需要100-200万美元,而40nm流片一次大概只需要40-50万美金,显然从成本角度考虑40nm更具性价比。
对于一款主要针对物联网领域的轻量级终端AI芯片来说,成本是极其重要的。一款芯片再好,如果成本太高,也是难以成功的。这也迫使耐能想尽办法去做出一颗既要有足够的性能,又要功耗够低,还要价格够便宜的AI芯片,于是就有了KL520。
刚好够用的性能
通常来说,一款AI芯片的算力越高,性能也就越强,但是正如前面所说的,如果脱离功耗和成本来谈性能是没有意义的。因为算力的提升可以简单的通过MAC数的堆积以及制程工艺的提升来实现,但是这会带来芯片功耗和面积的提升,以及成本的大幅增加。特别是对于针对物联网领域的AI芯片来说,成本和功耗更是至关重要。
所以我们可以看到,耐能并未刻意追求更高的算力,而是在保证低功耗、低成本的基础上去提供刚好够用的性能。虽然,KL520的NPU的算力只有0.345TOPS,但是在实际的测试中,KL520却取得了相比采用28nm工艺具有1TOPS算力的竞品更出色的成绩。而且对算法的适应性更广,同时功耗也只有竞品的1/5-1/2。
那么,为什么KL520能够在工艺、算力全不占有优势的情况下,取得了竞品更好的表现呢?
对此,耐能将其归结于KL520更为高效的MAC利用率。根据耐能公布的数据显示,能耐KL520运算效率达到了70-90%,与竞争对手的产品相比,跑ResNet50的效率达到了竞品的3.15倍,跑GoogleNte的效率达到了竞品的1.71倍。
“这就好比你有两辆车,一辆最高时速可以跑到200km/h,另外一辆最高能跑到100km/h,但是如果你平时90%的时间都只跑在80km/h,那么用第一辆车就能够满足你的实际出行需求了,即使前一辆车性能更强、造价更高。”刘峻诚举例解释到。
刘峻诚总结表示:“一款成功的终端AI芯片的关键在于:足够的算力,最有竞争力的成本,最高的兼容性和最低的功耗。KL520就是这样一款产品。”
携手合作伙伴,KL520落地三大应用场景
前面有介绍到,KL520是一款针对物联网市场的AI芯片。而在耐能看来,KL520非常适合于3D传感、智能家居(比如智能冰箱、空调、扫地机器人等)、智能硬件(比如无人机、机器人、智能玩具等)
在3D传感领域,耐能KL520不仅可以支持采用普通RGB摄像头+普通红外摄像头组成的轻量级的3D传感方案,同时也可支持基于ToF/结构光/双目 的3D传感器模组。
▲台湾钰创展示的基于耐能KL520的轻量级3D视觉解决方案
在目前的智能家居市场,智能门锁算是一个热度比较高,出货量也比较大的一个品类。而对于智能门锁来说,安全性是至关重要的,目前智能门锁大多采用的是指纹识别,虽然有一些厂商也有开始采用人脸识别,但是都是基于2D/2.5D的安全性非常的差,相比之下3D人脸识别安全性更高,甚至相比指纹识别的安全性还要高,而且更具便利性(非接触式)。不过,目前3D人脸识别的成本还是非常的高。
大唐半导体研发部技术总监母大学表示,随着3D产业链的成熟,以及3D人脸识别门锁市场的打开,3D模组的成本必然会持续下滑。只要3D人脸识别门锁足够安全,体验足够好,成本足够低,就不愁没有市场。
母大学指出,耐能3D方案在专属打造的轻量级AI芯片强大的AI算力的支持下,不仅利用了人脸识别、人脸比对、活体检测等红外人脸信息,而且通过红外相机和彩色相机得到的特征点视差计算出人脸的3D信息,然后将得到人脸3D信息和人脸2D红外图像信息、RGB图像信息通过耐能融合算法与原始数据进行匹配,结果都和录入数据匹配才算认证成功,安全性得到极大的提升,误识率仅为数十万分之一。同时,对包括室内室外的光线环境均能很好适应,也能有效地防止多种材质的相片、显示屏甚至人脸模型的攻击。更为重要的是,KL520的功耗也是非常的低,有助于门锁续航时间的提升。
在本次发布会上,国内3D传感领域的独角兽——奥比中光(估值已超100亿人民币)的高级战略BD总监彭勋禄也表示,未来3D传感的市场前景非常的广阔,但是目前不论是对于ToF还是3D结构光方案来说,整个系统的功耗仍是比较高,所以目前应用在智能门锁(智能门锁如果两三个月就要更换电池,用户是难以接受的)等对于功耗要求较高的领域,仍有一定的难度。
▲奥比中光的高级战略BD总监彭勋禄
另外,目前3D传感模组的AI应用仍然是需要依赖于其他的计算单元来完成。虽然,奥比中光的3D结构光方案也有配套的自研的ASIC芯片,但是这个ASIC主要是用作对于采集到的数据进行转化成3D模型,并不能用于AI运算。而如果搭配耐能KL520则可以无需外挂其他计算单元即可实现3D成像及AI应用。
因此,奥比中光也是对于与耐能的合作充满了期待。
彭勋禄在现场就表示:“希望耐能基于奥比的3D摄像头能够尽快调通。帮助奥比中光的3D模组实现系统功耗的进一步降低以及AI能力的进一步提升。”
作为耐能在与语音AI相关的领域的合作伙伴,蓦然认知是智能语⾳座舱及对话应用生态的开创者,专注于认知计算、自然语言理解,拥有自主的语音交互全栈技术(降噪+语音+语义+多轮对话+知识图谱)。同时,以车机为入口,以对话OS为中心,⽀持多屏互动,多设备协作,车家互联,与IoT深度融合,助力智能互联生活。
蓦然认知创始人兼CEO戴帅湘表示,未来将会与耐能深度合作,把云端认知计算与本地端感知计算相结合,提供以自然语言交互为核心的多模态多轮交互整体方案,深入渗透汽车及消费电子终端OS,为用户带来全新多模交互方式下,去APP化的应用体验。
除了以上提及的钰创、大唐、奥比中光、蓦然认知之外,格力电器、奇景光电、搜狗、和硕等在耐能的客户名单当中。此外,还包括国际知名的EDA工具厂商Synopsys、Cadence,当然这两家厂商并不是买耐能的IP或者芯片来用,而是将其IP搭配自己的EDA工具一起来销售。耐能强调,由于与很多客户有保密协议,所以还有很多客户没能放到列表当中。
未来规划
根据耐能的规划,目前合作客户基于KL520的一些产品正在研发当中。此外,耐能还有一款更为轻量级的NPU内核KDP320也已经推出。而在今年四季度,耐能还将推出一款主打高性能的AI芯片KL720,基于28nm工艺,算力将达到2.0 TOPS。明年还会推出28nm的KL530和16nm的KL730。
作者:芯智讯-浪客剑
花4亿定制芯片也不灵?传小霸王游戏机团队解散!官方独家回应来了!
算法即芯片时代开启!依图发布AI芯片questcore:能否挑战英伟达、特斯拉?
行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116