全球首位3D AI主播亮相!AI 芯片市场还有哪些机会?
全球首位3D版AI合成主播“新小微”在全国两会开幕前夕正式亮相,这是继全球首位AI合成主播、站立式AI合成主播、AI合成女主播、俄语AI合成主播之后,新华社智能化编辑部联合搜狗公司最新研发的智能化产品。 和前一代AI合成主播相比,“新小微”实现了从单一景深机位到多机位多景深、微笑播报到多样化精微表情播报等进步,播报形态可通过不同角度全方位呈现,立体感和层次感明显增强。3D版AI合成主播在今年全国两会期间将为观众奉上全新的新闻资讯体验,也将为新闻生产的“未来场景”开辟新空间。
注:手机芯片是目前是相对独立的芯片生态,因此本文不做讨论
(点击直通VIP!领取300+份行业研究报告!)
如果说 NVIDIA 是云端 AI 芯片的开创者,那么 Movidius 应该是端侧 AI 芯片的“开始者”,为什么是开始者而不是开创者呢?因为 NVIDIA 现在还是大 BOSS 一样的存在,而 Movidius 早已被 Intel 收入囊中,并在 2018 年并入 IOT 事业部成为了非独立的研发部门,技术革新往往是这样,第一个“吃螃蟹”的人往往不是笑到最后的人,但让一切开始的人应该被大家尊重。
Movidius Myriad 2
图片来源:Movidius
在拿到谷歌 tango 项目背书之后,Movidius 在 16 年推出了 myriad2 系列,并在 17 年在中国推广,myriad2450 最大创新就是集成 12 个矢量处理单元,提供了 200Gflops 算力,相比现如今动辄上 T 的算力确实不够看,不过 在2016 年,这 200G 算力+2MB 片上 RAM 的配置已经十分领先。
AI 芯片的算力到底是如何服务于实际应用的呢?可以给大家举个例子,对于大家的熟知的人脸识别算法,1 万人最大库容相同误识及误拒率的情况,如果用 ARM A17 运行特征提取模型,大概耗时 300ms,而当时 Movidius 则可以做到 85ms,在 2017 年那个各大算法公司只能用 CPU 落地前端智能产品的时代,Movidius 是一枝独秀。
可惜好景不长,Movidius 逐步被大家遗忘,并在新一代 myriadx 系列,正式被定义为服务器端 AI 加速子模块,就是服务于服务器市场。那么是什么让这个端侧 AI“芯星”离场的呢?我猜测了以下几种可能:
1)加速器的不足。可能是由于当时技术的瓶颈,其内置的12个矢量核心更类似DSP。虽然这些矢量加速器有一定的可编程能力,但对灵活的神经网络的支持并不友好;另外12个核心同时工作的功耗也十分感人,前端设备一般体积很小,大多采用被动散热,因此功耗限制芯片能力。
2)其他IP积累欠缺。芯片设计公司除了产出关键IP外,能够整合其他IP的能力也很关键,毕竟客户需要的是SOC,除了加速器之外,摄像头\ISP\显示\IO\外设等这些模块也在他的心里预期,而新兴芯片公司恰恰缺少这类IP积累,Movidius努力集成了很多,但实际使用效果却不佳。
3)开发难度大。由于Movidius没有使用标准Linux系统,而选用了RTOS,并自己有一些私有规则,导致曾经有开发同事跟我调侃“如果干两年Movidius,我出去可能找不到工作”,而开发的困难直接提高了芯片的门槛,同时大大加长了产品研发周期(要知道NVIDIA之所以成为老大,CUDA生态功不可没)。
4)技术支持问题。我接触Movidius的开始,首先是一份2000页+的英文datasheet,当时很庆幸自己只是产品经理,需要datasheet获取的信息不多,英语也不用太好。但工程师出现技术问题时只能叫苦不迭了,虽然Movidius很努力的给每个客户都安排了FAE,但收效甚微。有这样喜感的场景,中国的客户提了问题,6小时后欧洲团队上班看到了邮件,然后再等6小时跟美国团队开会讨论。中国市场速来以效率为王,在没有形成技术独占性的壁垒前,客户是等不起的。
在Movidius、xilinx、CEVA等第一轮AI芯片公司的探索之后,端侧AI芯片开始逐渐向最终的SOC形态演进。入场选手有老牌的国外芯片公司赛灵思、瑞萨、NXP、TI、安霸,也有老牌的国内芯片公司海思、MTK、展锐、瑞芯微、全志、芯原,同时有新兴的AI芯片公司地平线、寒武纪等(数量较多不一一列举),就连不少算法公司都开始跑步入场加入AI芯片赛道。
从供给侧来讲,新老原厂齐上阵,让端侧AI芯片的市场出现了“大繁荣”,并且大多新兴AI芯片公司也已经的成功流片。不过在需求侧来说,虽然智能硬件产品大量输出,真正使用这些AI芯片来研发产品的却很少,而老牌芯片公司在仍然是量产的主力,比如赛灵思的驾驶辅助应用、全志的AI音箱&机器人,海思的人脸识别摄像头&门禁等等。
这里我们可以挑一个全志的例子,首先全志在的第一个AI应用没有使用专用AI加速器芯片,它的算法是运行太ARM CPU上的,并且CPU也只是4核A7水平。但是大家熟知的小爱同学、叮咚音箱都使用了这颗芯片,如果你买过扫地机器人的话,石头扫地机器人也同样使用了这颗芯片。
也许你很奇怪为什么一颗没有AI加速器的芯片被大量使用在智能硬件上呢?其实从产品和技术的角度去分析,就不难理解其中的内在逻辑。
图片来源:摄图网
首先我们需求AI芯片做什么?客户并不直接需求AI加速器,他需要的是AI算法能够在芯片上运行,体验达到用户的心理预期,并且整体成本既在用户的接受范围内,也在硬件厂商盈利区间内。很幸运在那个时间窗口下,全志以整体解决方案成本最优的成绩(注意是解决方案成本不是单芯片成本),拿到了市场份额。
其次是技术,很多人问深度学习算法能运行在性能这么低的处理器上吗?我在没有了解AI行业的时候也持同样的观点。入行之后,芯片公司的PM经常问我一个有意思的问题“你们这个算法需运行需要什么样的硬件算力”,我觉得可以通过回答这个问题来解释算法对算力的需求。
第一,算法的指标是根据场景定义的。大家熟知的人脸识别算法能不能运行在A7这类较弱核心呢?答案是可以的,如果你愿意牺牲检测帧率、跟踪帧率、模型精度、特征提取时间,同时输入分辨率也能够缩小的话。
第二,高性能计算加速库得益于开源社区的支持,如NCNN、TensorFlow lite、openblas这样开源项目在持续不断地优化神经网络在ARM CPU上的运行效果。跑一些轻量级网络未必就要使用专用的AI加速器,而且这些友好开源项目从ARM指令集架构的维度进行适配,使得在ARM上运行算法比适配一款专用加速器更容易(只要查一查客户的芯片ARM是V7还是V8架构即可)。
第三,芯片厂商的优化。每次大嘴哥发布会提出“华为通过软件优化让硬件性能大幅提升”论点时,总有弹幕大神大喊“灵魂优化”。我想说在芯片领域这是合理的。如果我们简单地把处理器操作定义为让一组数据变换成另一组目标数据,那么今天的SOC就是这类海量操作集合体。如果芯片厂商针对一款算法把不必要的内存拷贝减少,把单线程改多线程,把图像变换操作用专用模块加速,造成的结果会是相同算法在同一硬件跑出完全不同的效果,毕竟自己的芯片自己最熟悉不是。
图片来源:摄图网
所以在端侧AI芯片这个圈子,传统芯片厂商用自己的一直以来的“落地”商业思维,在许多领域开花结果。与这类芯片公司相对的的是以AI加速器为核心的“技术”思维,他们虽然掌握了目前的核心IP,却需要补上传统大厂过去十几年的积累,成本规划也不尽如人意。尤其到了在18年底,传统大厂陆续推出了自己的AI SOC(通过自研或外购的方式快速补齐加速器短板),这算是给看似繁荣的AI芯片初创公司一发重击。
以前芯片产业链主要以芯片原厂和硬件厂商为主,而在端侧AI芯片市场上,发生了巨大商业关系改变,由于算法的技术必要性,算法公司与硬件、芯片形成了三角关系。现在做一款智能硬件需要芯片原厂、硬件厂商、算法公司三方加入才能成功推向市场。
随着AI算法技术重要性提升,发生了奇妙的现象——这三方正在自身的优势为出发点,向其他两方的地盘延伸,形成了各方既竞争又合作的态势。比如算法公司做硬件、算法公司做芯片、硬件厂商做算法,芯片公司做算法等,都有具体案例。我们先不评价这么做是否合理,而是先从做决策的基本准则出发——决策者是否真的看清了对方在产业链的价值。
首先聊聊算法公司做硬件,大多数算法公司的眼里,硬件厂商的只是提供PCBA主板、模具设计、生产组装这样的价值,可以通过自己组建硬件团队和生产外包的方式快速替代。如果只看到这里,那公司可能需要重新审视决策,因为和芯片原厂存在一样久的参与者,他们强大的供应链管理能力、基于平台的产品研发能力(芯片平台少产品形态多)、标准化生产的能力、对市场渠道的把控能力、繁琐售后的服务能力,才是硬件厂商大杀器。正如最近的热点新闻“美国鼓励将制造业撤离中国”备受嘲笑一样,中国制造业早已过了“堆人”时代,设计人员和体系是核心。
其次看看硬件厂商做算法,跟几个硬件公司的老板聊天的时候,他们经常调侃“你们算法公司基本是开源框架采数据训练模型产出算法,数据我也有,是不是几个算法工程师就可以搞定”,这句话其实对算法公司的工作流程理解是对的,并且理论上10w帧就可以训练一个初版分类器。不过算法公司的核心价值并不在不停产出算法,而是改进和优化算法应用后的Cornercase,在各种情况下保障算法效果,这就需要投入大量人员和高额数据成本,例如客户发现一些特殊场景会误识,那算法公司就需要采数据重新调整模型(这种维护几乎每天都在发生)。这也是为什么总看算法公司有很多demo但量产算法只有几个的原因。如果再考虑硬件厂商核心器件的各不相同的现状,需要额外安排人员对接适配,算法公司的研发投入是巨大的。
图片来源:摄图网
第三是算法公司做芯片,如果忽略某些算法创业者眼馋芯片公司高市盈率的情况(追求高估值),个别算法公司的如果真的觉得目前芯片都不能满足要求,是可以自己开芯片的。但是最好考虑清楚卖给谁、为什么更好、18个月研发周期、巨大的IP购买费用和流片费用等,开芯片必备知识。
最后是芯片公司做算法,这里有两种思路存在。第一种是向算法公司推推广芯片困难,觉得做算法也不难,自己登场,这里可以参考硬件公司做算法的例子。第二种是芯片业务需要有熟悉算法的研发人员,为辅助硬件加速器开发而存在,做算法为了让下游客户更方便地开发自己的芯片硬件,这是可以理解的。
芯片、算法、硬件这三方,因为任何一方即使下决心去做另一方的事,短时间内是无法完成追赶甚至超越对方的,短期内还是会以合作共赢的模式向大家输出产品。由芯片原厂搭台,算法公司充当核心角色,硬件厂商执导,给消费者带来一出出好戏。
经过2016年到2019年的几年尝试,市场基本达成共识,包含加速器SOC类的芯片在未来将会是端侧AI芯片的主流,因为AI正像水和电一样进入我们的生活,每个芯片原厂都无法回避客户对AI的需求。这一部分我更想从具体处见微知著,聊聊一个AI芯片落地的具体过程和踩过的坑。
首先是算法公司芯片选型的过程,以往做芯片的推广时,原厂的sales一般将CEO/产品总监/研发总监当成“keyman”。于是他们以同样的方式向算法公司推广芯片,而算法公司多数算法公司的实际情况是,CEO不关注芯片这一层选型,产品总监虽然有一定建议权,但真正占主导地位的会是算法负责人,原因很简单,即使芯片再好,算法说不,一个AI应用是万万进行不下去的。那么算法人员看重什么呢?他们看重芯片的算力、网络运行的效率、仿真工具是否能快速得到结果。这里额外提一点,他们还看中芯片公司对算法的专业度,我曾经就见过谈判桌的一边是强调芯片性价比的原厂sales,另一边是对成本毫无感知的算法博士,共同语言可想而知...
如果通过了算法这道关,再确认好成本范围,项目大概率就可以启动了。不过启动不代表成功,真正干活的人才刚刚出现,那就是嵌入式和应用工程师,由于现在各家AI芯片的模型转换工具都做的不错,所以算法人员很容易完成工作,而真正将模型集成到芯片上则是嵌入式人员,他们将算法移植到芯片上,再交由应用开发人员开发算法应用。
这里额外为“被忽视的工程师们”讲句公道话,嵌入式和应用工程师发挥的关键作用目前还没被大家察觉,我们可以试想十年之后各类算法成熟后大量开源,到时候除了头部AI公司,行业是否还有如此大算法人员缺口?如果把AI比作电力,现阶段我们需要密集建设发电设施(算法人员),但电站未来会饱和,而承担电力传输/管理角色人们(嵌入式人员)会不会成为“铁饭碗”呢?
辛苦等到一家算法公司顺利量产,一颗芯片的α项目就到了市场复制阶段,芯片公司为了扩大收益的需要,必须把让方案能够批量复制。但是,这时原厂的PM往往是傻眼的,因为AI应用和以往的芯片方案完全不同,A公司和B公司的需求天壤之别,复制方案就等同重开项目。不少原厂这时会用“抓大放小”策略,最后发现没有大客户可抓,因为目前AI应用的现状就是碎片化的,创新发生在各个领域,都还没有完全形成规模化,定制需求到处都是。
首先,芯片原厂应该清楚“2004年的MP3/2012年的平板电脑/近几年的手机”这类爆炸式增长在AI应用很难见到;其次,可以利用原厂的上游优势,推荐一些硬件设计资源给算法公司,帮助其完成产品落地,同时也有效缓解原厂的直接支持压力。总之,原厂需要从以往的Turkey模式转向分工合作资源整合的新模式中区。
有人说销售的职责是让产品卖好,产品经理的职责是让产品好卖。写这一章完全是出于产品经理的本能和主观角度,一家之言,抛砖引玉。我想主要从务虚的策略方面和具体的产品方面谈谈端侧AI芯片的规划。
1、专注。我记得曾经在原厂,老板最关注的就是产品,甚至是一颗芯片做不好公司会死掉。而在今天的AI圈,可能大多数CEO最关注的是明天融资能不能按时到位。同时今天的AI有数据、算法、整机产品各种值得投资的业务,如果选择了芯片业务请保持专注。
2、耐心。一颗从规划到量产基本都在十八个月甚至更长,并且伴随着极高的失败风险。严格来说这是一个不友好的投资项目,当我们下决心做芯片,请给给它时间。
3、IPD。大多数人听过IPD(产品集成开发),但又不了解IPD。在我看来IPD最大意义在于告诉大家“需求既不在于我们技术有什么,也不在于老板喜欢什么,而在于我们需要解决什么产品问题”,并且IPD是目前唯一被很多芯片公司证明过,在硬件研发领域行之有效的方法论。
1、NPU设计。很多芯片很迷信VGG16这样高复杂度网络在NPU上的效果,真实情况是在边缘应用中算法模组的组成很少是这种单一的高复杂度网络,而是很多低复杂度网络组成。所以在VGG16的算力表现是4T,跑小型网络就未必了,为了适应这种设备端的网络结构,不知道以后是否会有NPU大小核心的架构呢?
2、NPU配套设计。NPU只是解决卷积运算部分,一个完整算法除了网络还有算法逻辑、图形放缩、网络结果后处理(有些网络的输出需要后处理后才能交给上层应用),每一个部分出现瓶颈都会影响最终效果。
3、ISP或DSP设计。目前量产最多还是视觉和语音应用,图像/语音数据源的信号处理单元作用巨大,最近看到商汤公众号已经开始分享一些图像处理领域的算法,大牛也许已经意识到AI技术壁垒在AI技术之外了。
4、外设匹配。SOC芯片目的是做一款产品,除了基本的DDR和flash往往需要camera、4G、wifi、显示屏等等多样的外设,这些就需要PM仔细分析场景得出外设接口。尽可能的多兼容一些场景,因为我曾经关注过对于外设部分DIE面积增加大概率不会超过总面积的10%(科普一下,芯片DIE的成本跟我们买房一样是按面积计算的,可能换算成平方米比某些城市的房价还贵),但要注意如做了太多的兼容,芯片的封装成本会因为更多的pin而增加,这里可以推出同一系列芯片的不同封装。
5、操作系统选型。记得几年招我入行的老前辈说过“他工作的时代芯片是没人写代码的”,今时今日软件已经成了芯片的核心组件。在大家争相追逐Linux/RTOS的时候,安卓系统仍具有强大的优势。第一它大幅降低了芯片开发难度(你永远不知道下游工程师技术能力如何?),第二目前大量的AI设备都需要跟云交互,很多云服务都使用Java形式的API,甚至多数公司的设备端服务就集成在安卓APP中。
6、易用性设计。这里的易用性排除现在各家都不错的模型评估/转换工具,重点指现在不足的算法移植支持。在芯片选型章节中讲过,算法公司大多的是“芯片是算法选,工作是嵌入式干”,如何快速让嵌入式和应用工程师开展移植工作是易用性关键。这点前段时间很火的在线教育可以给大家提供思路,用在线的方式打通信息链路,用授课的方式让做事的工程师快速上手。
7、成本设计。这是一个老生常谈的话题,在AI领域我们会因为过分强调技术而高估芯片溢价。真实情况是目前大多SOC都是性能过剩的,硬件厂商并不排斥高端芯片,他们的最大困扰是如果竞争对手在成本更低的芯片上实现了体验无差别的应用,该如何应对?因此成本竞争会是未来AI芯片公司不可回避的问题,建议芯片整体方案成本最好不要高于直接竞争对手,注意这里指整体方案成本,应该是芯片成本、运输&交易成本、外围成本、开发成本、PCBA制造成本及售后返修成本的综合。
芯片不是AI行业的开端,而芯片一直是硬件产品产业链的上游,AI正以一种渗透的方式赋能各个行业,芯片行业也不例外。抛开令一波波公司倒下的残酷市场竞争,最终还是AI带来的产业升级还是值得期待,它让我们生活中的每个人获益。期待AI芯片的未来。
已有310+会员加入VIP群!
先人一步掌握行业投资机会!
▼ 往期精彩回顾 ▼ASML的光刻机和氢弹,哪个更难搞?
芯人必读 | 读完这篇,终于学会半导体产品分类了!
美国限制华为的封喉之剑,究竟是什么?从补洞到求生存,华为主题词的变化透露了什么?中芯国际背后的“中国芯”概念股台积电官宣在美建5nm工厂!美国添新筹码?刚刚!特朗普将华为供应链禁令再延一年半导体营销鬼才速成秘籍!
推荐关注:全球物联网观察
微信号:gsi24-iot
您的物联网中央情报局!