中国初创公司在AI芯片(IP)领域的机会
去年11月的时候第一次思考这个题目,今年3月做过一次更新。短短几个月,AI芯片领域变化不断,新闻不断,有必要再更新一下这个讨论。希望这次能把一个更为完整的分析呈现给大家。
我认为相关的市场主要可分成三大类。第一类是Data Center(Cloud)中用于training和inference的专用芯片或者FPGA(非GPU/CPU芯片)。第二类是需要较强智能的终端芯片(面向手机,安防监控,无人机,机器人,自动/辅助驾驶,VR/AR等),或许可以叫“泛手机终端芯片”。这类应用主要也是inference功能,不排除未来有training的需求;第三,是智能需求较低的终端芯片(穿戴,玩具,智能家居等等),以下叫“弱智能终端芯片”。当然,终端设备对智能的需求是相对的,可能覆盖很大范围。这里说的第三类实际上也可以看作是指受到成本,功耗等因素限制的inference需求。(参考,如何做神经网络处理器的需求分析?)
还是先说结论:
Cloud training/inference(专用芯片/FPGA):可以一搏;
泛手机终端芯片:机会很小;
弱智能终端芯片:充满变数;
先说说第二类吧。为什么说第二类对于初创公司基本没有机会?因为这是目前芯片产业竞争最激烈的战场。手机芯片大厂(高通,MTK,海思,展讯,苹果,三星)已经非常强大,而且还在不断把自己的技术能力推广到无人机,机器人,安防监控,自动驾驶,VR/AR等领域。很难想象会有初创公司能够再挤进来。
那么以IP形式进入是否有机会?个人的看法也是机会很小。第一,从技术能力来讲,这些公司都有实力(多年做通信基带和多媒体的经验)自己设计复杂的加速器或者专用处理器;第二,传统的IP厂商,比如CEVA,Synopsys,Cadence(tensilica)和Vericilicon也都盯着AI IP这个机会。最近这些公司也都频繁发布支持AI应用的DSP和硬件加速器产品(参考神经网络DSP核的一桌麻将终于凑齐了)。初创公司的IP如果有一定的技术特点和价格上的灵活性,有可能在大厂预热过程中得到试用的机会。但最终出现在量产芯片中的可能性非常小。第三,目前很多带AI性质的应用,要么是在cloud端实现,要么就直接拿现有的硬件资源来实现,比如ARM CPU/GPU或者已有的multimedia DSP来实现。手机芯片巨头都在定义AI相关的user case,是否有killer app需要在手机芯片中增加额外的硬件代价还有待观察。最后,ARM前段时间也推出了面向AI的DynimicIQ方案,其中定义了CPU和DL加速器的接口;后续还可能有更多动作,可能会对这个领域有很大的冲击。而Nvidia开源xavier DLA,会进一步拉低inference实现的门槛(从Nvidia开源深度学习加速器说起)。最近MTK最近也有所动作,可以看出AI在其未来战略中的重要性。
不过在这个Deep Learning IP领域,国内的一个Startup可能会给我们带来好消息,值得期待。
•••
第三类弱智能计算应用,实际上可以也和第二类应用一起叫做边缘计算应用。这里加以区别,是因为这类应用对功耗、成本甚至尺寸的压力更大,主要包括一些物联网,可穿戴应用。其硬件平台的处理器能力非常有限(传统的MCU领域)。这类应用的总量很大,但差异化明显,需求五花八门,存在很多变数,技术上很难用一种架构来实现。相对泛手机芯片而言,这类芯片的资金投入门槛不高。随着Nvidia开源DLA,如果配合开源的RSIC-V CPU,门槛可能会进一步降低(当然,用开源的东西,技术门槛可能会更高)。所以,能不能成功的关键还得看芯片的spec定义是不是合理,能不能在市场出现的时候及时拿出芯片。相信未来可以看到不少初创公司在这个领域出现和死亡。目前看得比较清楚的是智能语音应用,从技术的可行性到市场的驱动都已经具备了芯片化的条件。
在这个领域,我还是比较看好由应用驱动芯片研发的公司。目前国内有很多Startup在图像处理,声音处理的算法和应用方面已经有了不错的积累。如果它能在某个细分领域获得领导地位,并根据应用定义和开发自己的芯片,巩固技术优势,则是一个比较好的状态。简而言之,就是顺势而为,水到渠成,而不是为了做芯片而做芯片。(当然,很多公司也是为了拿到投资而把设计芯片作为噱头的,这种情况我就不予置评了。)
•••
在Cloud和Data Center的training和inference领域,最近Nvidia和Google的密集发布引来不少口水战。我在“AI芯片架构的争论真有意义吗?”这篇文章中已经介绍了目前的这个领域大家的竞争的重点是什么。
“对于Data center的training和inference系统来说,竞争已经不是在单一芯片的层面了,而是看能否扩展到exascale的问题(exaFLOPS,10的18次方)。而和TPU2的同时发布TensorFlow Research Cloud (TFRC),对于发展TPU2的应用和生态,才是更为关键的动作。”
所以,除了基本的需求,比如Training需要的强大处理器能力,高精度,高灵活性;Inference需要的低延时,高吞吐率,高功耗效率这些因素之外;对于异构的大规模分布处理系统的Knowhow已经生态系统的建设也非常重要。而这一点往往是Startup非常欠缺的。
不过,个人还是比较看好国内的这块市场的。第一,目前很多中国的互联网巨头(包括很多小巨头)都把AI作为重点发展的方向,也有非常实际的需求,比如下图就是蚂蚁金服在GMIS上介绍的AI业务。
第二,从竞争态势来说,目前是NVIDIA一家独大,利润空间很大;Intel虽然也有很多动作,但多长时间能推出可以和NVIDIA抗衡的产品还很难说。第三,国内目前对server芯片自主设计的呼声很高,容易得到国家支持。相对server CPU(已经有海光和华芯通在做)的复杂度和生态环境,Machine Learning专用芯片在技术实现和应用渗透方面都要简单不少(Google的TPU就是个很好的例子)。所以,目前这个领域对于国内公司来说是值得一搏的机会。成功立足的话,很有可能做大做强。不过这个领域需要大量烧钱,必须有资本实力作保障。
总的来说,不管是从技术层面,还是资金层面来看,如果能找到一个有一定规模和实际需求的互联网公司合作,也许是成功的关键。
最后,Cloud端还有一个比较有趣的市场:基于FPGA的inference应用(比如对图像、连续视频和语音的检测和识别,实时翻译等等)。这类应用除了需要强大的处理器能力能力外,对实时性要求非常高。这类应用对成本不是很敏感,适合用FPGA来。首先,通用的GPU做inference,不一定能满足实时性的要求,而针对特定应用优化过的FPGA设计,inference效率会高很多;其次,和用专用的芯片做inference对比,FPGA的灵活性又有很优势,改变算法或者网络的成本很低,非常适合人工智能领域的快速发展和变化;第三,FPGA进入Cloud市场是个趋势,目前Amazon,阿里云和腾讯云都开始提供(或者试用)FPGA资源,机器学习应用是一个重要内容。而FPGA的固有缺点:成本高,能耗大(和专用芯片相比),在这个应用场景下基本可以忽略。在今年的GMIS上,蚂蚁金服介绍了他们的机器学习平台,其中FPGA已经是重要的组成部分。
以上分析只是个人一点浅见,如果有不对的地方,欢迎大家批评指正,也欢迎大家和我交流。
T.S.
题图来自网络,版权归原作者所有
推荐阅读长按二维码关注