查看原文
其他

45家国产AI芯片厂商调研分析报告

顾正书 电子工程专辑 2022-05-20


AspenCore声明:感谢安谋科技、合见工软与瀚博半导体在本报告的调研和撰写过程中提供专业的技术指导、应用案例分析和行业洞察。我们将邀请来自这三家公司的技术专家参与EE直播间在线讲座:Fabless技术和应用系列-AI芯片的设计挑战与应用市场分析。


国内外调研机构、行业专业人士和媒体对AI及AI芯片的技术发展趋势和应用场景都已经做了全面和深入的分析,本报告就不再赘述了。AspenCore分析师团队主要从以下几个方面对AI芯片产品及国产AI芯片厂商进行深入分析。

(每个部分单独成篇,请点击浏览相应内容)


1.AI芯片的设计流程和挑战

2.全球AI芯片Top 10

3.国产AI芯片Top 10

4.15家国产边缘/端侧AI芯片厂商及其代表产品

5.AI芯片价值链

6.45家国产AI芯片厂商信息汇总


AI芯片的设计流程和挑战


芯片是一个产品,同时也是一个服务于商业客户的行业,AI芯片自然也不例外。一个芯片从无到有通常需要经过定义、设计、制造和流通几个重要环节,除了制造环节会外包给Foundry和封测厂之外,一个芯片设计公司需要做好芯片定义、设计(包含芯片、系统和软件)、寻找客户(渠道建设)几个环节。简单地说,就是要明确:做什么芯片?怎么做出来?怎么卖出去?无论拥有成熟品牌的大型公司,还是初创公司,同时做好上述三点都是一个很大的挑战。


那么,在AI芯片的不同阶段(规划、设计、验证、流片、板卡/系统集成、应用方案)分别面临什么挑战呢?


1.规划阶段。最大的挑战是如何明确市场定位,规划出最有竞争力的方向。对于AI芯片设计初创公司来说,在早期阶段就引入战略合作伙伴能更好地理解市场需求,确保开发的AI芯片符合客户需要。同时,在规划阶段就要软件和硬件协同开发,因为AI芯片设计在很大程度上是软件定义硬件。如果硬件对软件和应用需求不友好,单纯从性能指标上看起来可能很好,但却很难实现产品化。


2.设计及验证阶段。这是整个芯片开发流程中非常核心的部分,也是非常考验工程团队研发能力的阶段。怎么按计划做出符合规划目标的AI芯片是最大的挑战。


3.板卡/系统集成。这是产品化的另外一个关键阶段,再好的芯片如果没有一个稳定可靠的硬件平台,也没有办法交付给客户使用。在保证稳定性及可靠性的前提下,实现最佳的性能和效率比是最主要的追求目标。面向云端AI的高性能芯片大都以加速卡的形式集成到服务器中,整体能耗和使用成本也是客户考虑的一个重要指标。


4.应用方案。这是连接客户与研发团队的桥梁,要确保研发符合客户的使用习惯,让客户能够以最小的代价导入到其系统设计中。


下面以面向视频处理应用的瀚博半导体为例,来看国内AI芯片初创公司是如何应对这些挑战的。


从算力高低的角度来看,AI芯片的应用领域依次为数据中心(云)、边缘网关或服务器(边)、终端设备(端)。瀚博开发的是面向云端AI推理的大芯片,主要面临以下三大挑战:


1.随着摩尔定律的放缓,综合利用各种架构优势的异构运算(heterogeneous computing, DSA架构)成为推动算力增长的新趋势, 但随之而来的是系统架构和软件的复杂性;


2.算力越高,通常芯片面积就越大,需要堆积的晶体管数量越多, 这对达成最佳PPA(性能、功耗和面积)带来了额外的挑战;


3.芯片越大越复杂,开发周期、研发成本和制造成本都随之增高,如何精准地定位一个有足够大体量的应用市场是AI芯片公司在运营层面的挑战。


据瀚博半导体联合创始人兼CTO张磊介绍,其创始团队在GPU领域拥有非常丰富的经验,但公司并没有首选做GPU,而是选择通过DSA架构来做面向AI+视频市场的芯片,从而在PPA和成本上具有明显市场优势。同时,相比于很多公司临时招募组建的研发团队,瀚博的创始团队有着多年相互配合的默契,以及大芯片研发和量产的管理经验和实战经验。该公司的第一颗芯片开始测试8分钟即点亮,这是通过完美执行而应对以上三大挑战的一个最好佐证。


•为什么选择AI芯片而不是GPGPU?


PC时代随着图形操作系统的出现,大量需要3D图形运算的工具软件和游戏对于浮点运算的要求急剧升高,传统的X86 CPU处理器并不擅长这类任务,于是诞生了更擅长浮点运算的GPU。在这类应用中,系统会把图形渲染等任务offload到GPU上去。随着神经网络研究和应用的发展,GPU中的浮点运算能力在这些领域的应用逐渐发展起来,英伟达敏感地抓住了市场机会,将其GPU在保留传统渲染能力的同时增加了对于通用计算和神经网络运算的能力,并称之为GPGPU。


英伟达的GPGPU是包含渲染以及神经网络(“NN”)运算的。这种架构在同时需要两个能力的应用上会有一定的优势,但很显然对于技术积累要求也非常高。目前一些AI芯片初创公司所自称的GPGPU架构是指没有渲染的NN运算,而有一些声称做GPU的公司则是狭义的渲染GPU,二者都不是通常英伟达所指的GPGPU。英伟达由于有长年渲染GPU的技术积累,同时基于先发优势通过CUDA积累了生态优势,因此选择了GPGPU路线。但是,其他公司在这条路线上与其正面竞争是胜算很小的,即使国际知名公司(像英特尔和AMD)在GPGPU市场与其竞争都有相当的难度。


然而,没有一个技术是完美的,由于GPGPU保留了大量神经网络运算所不需要的单元,在单纯的神经网络运算上并不是最高效的,因此谷歌基于特定域架构(DSA)为自己的特定应用做了TPU。DSA架构给其他芯片公司带来了希望,包括Intel、特斯拉等知名公司都开始在这条路线上发力。


芯片设计是一个国际化的产业,知识产权在其中扮演着很重要的角色。渲染GPU由于发展历史久远,专利壁垒较高,即使与之相关的不带渲染的GPGPU也容易踩雷。相反,DSA由于出现较新,国际大企业和创业公司在知识产权上的差距并不大。选择针对AI+视频市场来做DSA架构的AI芯片,这对瀚博来说也是最明智的选择,其研发团队在视频领域的经验和对于大芯片的驾驭能力也得到了充分发挥。


•项目研发团队是如何分工协作的?


瀚博SV100研发团队成员主要来自AMD、Cisco、意法半导体、华为、高通和Microchip等公司,其核心团队都有超过十年的开发协作经验。具体来说,瀚博有架构/IP开发、芯片验证、SoC实现、硅后验证,以及软件5大部门。


架构/IP团队负责芯片的整体架构规划以及核心IP的设计开发,某种程度来说架构和IP直接决定了一个产品的成败;芯片验证团队负责IP以及SoC验证,确保功能和性能符合设计要求;SoC实现团队基于架构设计,将各种IP集成到SoC,并且以尽量小的面积和尽量低的功耗来实现最大的性能;硅后验证团队主要负责芯片的功能性能验证,以及验证板和系统板的开发,同时也负责芯片产品化的各个方面;软件团队负责固件、驱动和编译器等软件方面的开发,可以说硬件定义产品的“身体”,而软件赋予产品的“灵魂”。


•国内AI芯片公司相比国际巨头有什么优势和劣势?


与大多数科技行业的企业一样,国内AI芯片公司的最大优势就是贴近市场和客户,近水楼台先得月。中国市场对于AI芯片的发展有如下几个优势:


1. AI应用本身就是一个新兴市场,很多应用场景都是在摸索中成长的。国内企业在近20年的迅速发展中耳濡目染,对于新鲜事物的尝试意愿是很高的。


2. 中国近年的数字化基础设施建设带来的红利,比如中国拥有世界上最大规模的宽带及4G/5G通信网络;中国的互联网企业迅速成长为全球巨头,这些都为AI应用创造了良好的发展土壤。


3. 中国很多传统行业处在转型期,比如中国的工业升级是天然建立在数字化前提上的,这给AI带来了巨大的发展空间。


4. 国家政策鼓励芯片创业,新基建和“东数西算”等重大工程都为AI芯片公司提供了坚强的后盾。


国内AI芯片企业的劣势在于技术和IP积累不足,具体体现在:软硬件生态、知识产权和人才等方面。


AI芯片价值链


自从上世纪50年代人工智能(AI)出现以来,AI的发展已经取得了极大的进步,但真正的技术突破和AI应用爆发还是最近10年的事。从2012年开始,AI开发者开发出复杂的机器学习(ML)算法,尤其是深度学习(DL)算法,借助GPU及AI硬件来处理大量的数据集,处理效率和准确度都得到了极大提升。


根据麦肯锡的一份有关AI技术及半导体价值的报告,要实现高效而准确的AI训练和推理,需要九层AI技术堆栈(见下图),其中最底层的硬件加速器可以实现高能效的并行处理,涉及处理器、内存、储存和网络方面的芯片。目前,执行AI加速的处理器仍然以GPU为主,虽然CPU、FPGA和ASIC也有各自特定的AI应用优势。


九层AI技术堆栈,其中硬件加速器提供AI训练和推理所需要的算力。(来源:McKinsey)


据麦肯锡研究报告预测,AI 芯片将是半导体产业在未来20 年内最佳的应用市场机遇。在其它科技领域,芯片通常只占整个技术价值链10%的价值。但在AI领域,芯片将从整体人工智能的技术价值链中获得40~50%的价值。AI芯片已经成为半导体增速最快的细分市场之一,预计到2025年全球AI芯片市场将达到100亿美元的规模,现已成为国际芯片厂商、互联网巨头和初创公司争相角逐的前沿阵地。


作为一个新兴的半导体市场,AI芯片的产业链涉及多个价值节点,其中有一些是高性能处理器芯片所共用的,但也有AI芯片所独有的价值链节点。从半导体产业的角度来看,AI芯片价值链包括风险投资(VC)、技术人才(Talent)、芯片设计工具(EDA)、晶圆代工(Foundry),以及封装测试(OSAT)。下面我们将逐一阐述每个环节的价值。


•VC


从AI爆发中获益最大的当数英伟达,其GPU至今仍是全世界绝大多数数据中心AI加速的首选。英特尔和并购赛灵思之后的AMD也都在加大数据中心AI训练/推理及边缘计算AI推理方面的资源投入。作为云端AI加速最大的应用场合,云计算平台服务商都在开发和部署各自的AI芯片和AI加速器。Google基于特定域(DSA)架构的TPU已经发展到第四代,据称其第五代TPU将能够利用AI自动进行芯片布局设计。AWS自研的高性能机器学习推理AI芯片Inferentia也已经批量部署到AWS EC2中。


再看国内AI芯片市场,阿里平头哥于2019年发布的数据中心AI推理芯片含光800基于自研架构,采用12nm工艺,集成170亿晶体管,性能峰值算力达820 TOPS,主要应用于阿里云服务平台。从百度独立出来的昆仑芯科技开发的R系列昆仑芯2代芯片是第二代云端通用AI推理处理器,基于Arm处理器平台,采用XPU-R架构和7nm先进工艺,算力达到256 TOPS@INT8;128 TFLOPS@ XFP16/FP16。该芯片及加速卡已经在百度搜索引擎等广告等业务平台中部署超过2万片。


除了半导体和互联网巨头外,风险投资也纷纷在AI芯片赛道布局。据统计,截止2022年1月,2021年国内AI芯片相关领域的融资共计92起,总金额约300亿人民币。下表列出了2021年国产AI芯片初创公司的融资情况。




2021年中国AI芯片公司VC投资情况。(来源:亿欧智库)


获得融资的AI芯片公司超过25家,其中多家公司获得多轮融资,比如专注于云端AI推理芯片的瀚博半导体分别在4月和12月完成A轮和B轮融资,累积融资金额超过21亿元;地平线从1月到6月完成从C1轮到C7轮的融资,总额高达15亿美元;昆仑芯融资金额20亿元;燧原科技融资金额18亿元;芯驰科技融资金额近10亿元。


•技术人才


工信部人才交流中心发布的数据显示,人工智能不同技术方向岗位的人才供需比均低于0.4(人才供需比=进入该岗位的人才意向数量/岗位需求数量),其中AI芯片岗位人才供需比为0.32;机器学习、自然语言处理等技术人才供需仅0.2;而更为专业细分的智能语音、计算机视觉的人才供需比低至0.09。



AI领域和半导体领域的人才都比较短缺,而融合AI和芯片设计的分支领域更是急缺技术和设计人才。我们以“中国AI芯片第一股—寒武纪”为例,来看一下AI芯片设计公司都需要哪类技术人才。


1.芯片类:芯片设计工程师、芯片验证工程师、智能芯片(架构/设计)研究员、数字芯片设计工程师(DFT/综合/时序)、数字芯片设计工程师(逻辑设计/SOC设计)、芯片后端工程师、逻辑验证工程师、ESL建模工程师、处理器开发工程师、前端CAD工程师、SRAM版图工程师


2.硬件类:SPICE Model工程师、工艺工程师、固件开发工程师、芯片应用工程师、封装设计工程师、自动化测试开发工程师、SIPI工程师


3.软件类:分布式训练研发工程师、深度学习图编译器工程师、AI平台研发工程师、高性能机器视觉库软件开发工程师、AI高性能计算库研发工程师、AI应用工程师、工程效率研发工程师、编译器研发工程师、计算机视觉软件工程师、虚拟化研发工程师、软件测试开发工程师、系统软件开发工程师、深度学习框架研发工程师、性能优化工程师


4.算法类:高性能深度学习库开发工程师、媒体算法工程师、深度学习算法研究员、AI/算法技术研究员(博士后)


5.智能驾驶类:芯片、软件和算法方面的工程师。


国内AI芯片设计初创公司的创始团队大都拥有英伟达、AMD和英特尔等全球高性能处理芯片巨头的工作经历,而一家融资过亿元的AI芯片公司的钱主要就是花费在技术研发人才的工资和福利待遇上,虽然芯片流片也花费不菲。经常有媒体报道芯片设计工程师的工资高达百万元,就连刚出校门的毕业生工资都达到40多万。这么高的工资待遇是不正常的,但市场供需就是这样也不得不接受。


国内大学开始设立集成电路学院和学科,但从头培养需要时间,有经验的研发工程师更需要实际设计的实践才行。芯片设计公司融资难,但拿到钱后招人更难。国内AI芯片公司去台湾、美国和欧洲招人,去国际芯片公司挖人,以及相互之间挖墙脚,自然也就不足为怪了。


•EDA


芯片的前端设计、验证和仿真,以及后端的工艺设计,都离不开EDA工具。据Global Industry Analysts(GIA)最新发布的EDA工具报告统计预测,全球EDA工具市场规模2020年约有91亿美元,2021年约为99亿美元,预计到2026年将增长到149亿美元,从2020到2026的年复合增长率(CAGR)为8.7%。2021年,美国市场约有18亿美元,占全球EDA市场的19.5%。中国市场的增长率为9.8%,预计到2026年将达到28亿美元。


多年来,全球EDA市场一直被EDA三巨头所统治,中国市场也不例外。EDA可谓是半导体这个皇冠上的明珠,只有100亿美元规模的EDA却驱动着5000亿美元规模的全球半导体产业。鉴于其高度集中的技术和智力含量,以及其重要的“咽喉要塞”地位,EDA也成了美国限制中国先进半导体发展的“卡脖子”武器。


半导体业界人士都知道EDA全流程的重要性,但国内EDA公司很少能够覆盖设计和验证全流程,大部分还是在“点工具”上突破,然后再往外拓展。像华大九天、概伦电子、国微思尔芯,以及芯和半导体等国产EDA厂商都在各自擅长的EDA流程上深耕多年,同时开始借助资本市场融资或上市,以便为快速增长和长远发展奠定坚实的基础。


最近几年有50多家本土EDA初创公司进入市场,我们以“合见工软”为例来看一下国产EDA的技术水平、解决棘手问题的能力及未来发展潜力。2021年3月投入运营的合见工软由武岳峰资本创始人潘建岳担任董事长,原Cadence 副总裁、中国及东南亚区总经理徐昀和原Synopsys Fellow、研发副总裁郭立阜担任联席总裁,员工超过400人。合见工软拥有强大的投资人团队,除了武岳峰科创、国家集成电路产业投资基金(“国家大基金”)、红杉资本、中国互联网投资基金外,合见工软的股东还包括联发科、韦尔股份、闻泰科技、澜起科技、瑞芯微、卓胜微、中兴通讯、华勤通讯等领先的芯片设计公司及其关联基金。到目前为止,合见工软融资近20亿元。


AI芯片大都采用先进工艺节点(16nm以下至5nm,甚至3nm)。随着芯片规模、集成度及设计复杂度的大幅提升,芯片设计、封装设计到系统设计的各个环节都对EDA工具提出了更高的要求。因此,先进的EDA解决方案是确保并加速AI芯片成功实现的强大支撑。合见工软着眼于数字验证全流程覆盖和系统级电子设计的EDA解决方案布局,已经陆续发布和规划了多款EDA产品以满足AI芯片的开发需求,其中包含原型验证系统、数字仿真器、验证效率提升平台、协同设计环境,以及设计数据管理平台等。


  • 原型验证系统是AI芯片数字验证必不可少的EDA工具。合见工软的原型验证系统除了具备超大容量、高性能和缩短芯片开发周期等特点,还可以支持不同场景下不同硬件平台的自由切换,可以执行应用软件驱动的系统级验证、性能和调试并重的软硬件系统验证、仿真加速、虚拟原型、混合仿真验证等任务。已经发布的UVAPS-VU19P还提供了丰富的接口子卡,以适配各种接口验证,提供充足的互联通道;同时,它还能够配合深度调试方案,缩短测试周期,加快AI芯片上市。该产品采用Xilinx VU19P FPGA,适用于大规模ASIC原型验证及SoC开发,容量高达46亿门,可灵活堆叠,以满足超大规模原型验证需求。



  • 数字仿真器是数字验证解决方案的核心引擎。合见工软已发布的数字仿真器产品(UVS)利用业界领先的编译及运行性能提升技术,可为客户设计提供可靠的数字验证运行环境。该产品支持业界标准的Verilog、System Verilog以及UVM验证方法,且支持通过DPI进行混合协同仿真。为便于产品快速升级迭代,该仿真器基于组件式设计,支持用户需求定制化,也可以分布式实施与云部署。此外,UVS采用处理器架构原生目标代码生成方式和高性能约束求解引擎等先进技术,可将仿真容量提升到数亿门级的设计规模。


  • 合见工软正在逐步建立完善的数字验证生态体系,其中“验证效率提升平台”是一套完整的方法学、工具与解决方案的有机集成,可帮助AI芯片设计公司有效缩短产品开发周期。该平台可帮助用户精确对齐项目实施需求,从初期的验证计划制定、对所有验证任务的整体规划,到计算资源的高效分配与管理,再到对项目进度及覆盖率目标的精确追踪管理,并最终提供直观有效的分析报告,实现对验证计划的闭环迭代,进而从不同维度提升整体验证效率。另外,在验证过程中还可以对问题进行快速定位,这也是保证验证效率的必备组件。



  • 众所周知,AI芯片大都采用先进封装技术。先进封装设计与传统封装设计存在较大差异,除电磁场、热、应力等问题以外,使用传统设计工具或方法无法应对协同设计上的挑战。合见工软针对这一痛点发布的协同设计环境(UVI)采用了业界首创的系统级网络连接检查技术,可在同一设计环境中导入各种格式的IC、Interposer、Package和PCB数据,并支持设计数据的灵活操作。UVI能够基于物理、图形和数据等信息,根据不同应用需求,自动产生系统级互连关系网表、互连错误信息、网络断开类型及互连叠层信息等关键报告。此外,UVI在处理大规模互连管脚数据时非常迅速,无论是命名一致性检查、链路通断检查还是管脚缺失互连检查,对于100万Pin的规模都可以在8秒内完成,并且可以支持一对多Pin的基于面积算法的互连检查。开发人员利用UVI工具可以简化设计流程、提升工作效率、提高设计质量、精准定位设计错误,并覆盖所有节点和网络的检查。



除了合见工软外,很多国产EDA公司的产品也都获得了市场认可和客户验证,比如杭州行芯的Signoff工具链,鸿芯微纳的布局布线工具软件。EDA这一利基市场的本土厂商将对中国半导体产业的长远发展创造巨大价值。


•IP/Chiplet


现在的高性能AI芯片大都是采用异构集成、芯粒(Chiplet)和先进封装的系统级芯片。除了微处理器内核、GPU、高速网络互联NiC和eFPGA等高性能IP外,AI芯片设计越来越多开始集成类似乐高积木的Chiplet。英特尔、AMD、TSMC、三星、Arm等最近联合发布统一的Chiplet接口标准Universal Chiplet Interconnect Express (UCIe)。


UCIe是一种开放的行业标准互连,可在芯粒(Chiplet)之间提供高带宽、低延迟、高能效且具有成本效益的封装连接,它解决了跨越云端、边缘、企业、5G、汽车、高性能计算和移动设备的整个计算领域对计算、内存、存储和连接的增长需求。UCIe 可支持来自不同厂家芯片的集成,包括不同的晶圆厂、不同的设计和不同的封装技术。



芯粒的封装集成能够以快速且经济高效的方式提供定制解决方案。例如,不同的应用可能需要不同的算力,但却采用相同的内核、内存和I/O,如上图所示。芯粒技术还可以根据功能需求选择最适合的芯粒进行封装,比如内存、逻辑、模拟和一起封装的光学器件都需要不同的工艺,这些不同工艺的芯粒可以封装在一起。由于封装走线较短并可以提供密集布线,高带宽存储器(HBM)访问等应用就可以实现封装集成。


Chiplet对于AI芯片的发展会有积极的影响,主要体现在以下几个方面:


1.工艺选择灵活性


Chiplet封装模式的最大优势之一就是在一个系统里可以集成多个工艺节点的芯片,因此可以支持AI芯片的快速开发,并降低设计实现成本。在目前的单芯片设计模式下,系统只能在一个工艺节点上实现。而对于很多功能来说,使用成本高、风险大的最新工艺即没有必要又非常困难,比如一些专用加速功能和模拟设计。采用Chiplet模式,AI芯片开发商在做整体系统设计的时候则有了更多的选择。对于追求性能极致的功能模块,比如高性能CPU,可以使用最新工艺。而其它特殊的功能模块,比如存储器、模拟接口和一些专用加速器,则可以按照需求选择性价比最高的方案。


Chiplet对于AI芯片初创公司的快速发展尤其有利。AI加速本身就是一个DSA(专用域架构),其架构本身就是专门为特定运算定制的,具有很高的效率,即使选择差一两代的工艺也可以满足很多应用场景的要求。但目前大多初创公司都面临工艺选择的困境,如果选择先进工艺,可能一次投片就需要数千万元。如果不选最新工艺,好像就输在了起跑线上。如果Chiplet模式可行,工艺选择就会更加理性,工艺虽不是最新但性价比最好的Chiplet会让所开发的AI芯片更有竞争力。


2.架构设计灵活性


以Chiplet构成的系统可以说是一个“超级”异构系统,可以为传统异构集成SoC增加新的维度,至少包括空间维度和工艺选择的维度。首先,先进的集成技术在3D空间的扩展可以极大提高芯片规模,这对AI算力的扩展和成本的降低有很大好处。第二,结合工艺灵活性,可以在架构设计上有更合理的功能/工艺权衡,有利于AI SoC或者AIoT芯片更好的适应特定应用场景的需求。第三,系统的架构设计,特别是功能模块间的互联,有更多优化的空间。在当前的AI芯片架构中,数据流动是主要瓶颈。虽然HBM可以在一定程度上解决处理器和DRAM之间的数据流动问题,但价格过于昂贵。对于云端AI加速,Host CPU和AI加速芯片之间,以及多片加速芯片之间的互联,目前主要通过PCIe、NvLink或者直接用SerDes等。如果采用Chiplet方式,则是裸片之间的互联,带宽、延时和功耗都会有很大的改善。最后,目前的片上网络NoC是在一个硅片(2D)上的,而未来的NoC则可以扩展到硅片之间,特别是和Active Interposer结合,就可能构成一个3D网络,其路由、拓扑及QoS都可以有更大优化空间。


3.商业模式灵活性


在传统的IP供应商和芯片开发商之外,Chiplet提供了一个新的选择。对于目前的AI芯片厂商来说,要么聚焦在AI加速部分,以IP形式或者外接硬件加速芯片的形式提供产品,要么走垂直领域,做集成AI加速功能的SoC。对于前者来说,Chiplet可以提供一个新的产品形式,增加潜在的市场应用,或者拉长一代产品(工艺)的生命周期。对后者来说,可以直接集成合适的AI chiplet而不是IP,从而大大节省项目开发的时间。因此,可以预见,AI Chiplet会成为AI硬件复用和集成的重要形式。


采用芯片设计平台即服务(Silicon Platform as a Service, SiPaaS)模式的芯原微电子提出芯粒平台服务(Chiplet as a Platform)的理念,从实现IP芯粒化 (IP as a Chiplet)进一步提升至实现芯粒平台化 (Chiplet as a Platform),将为客户提供更加完备的基于Chiplet的平台化芯片定制解决方案。该公司去年开发的高端应用处理器平台采用Chiplet架构设计,从定义到流片返回仅用了12个月的时间。此外,这个高端应用处理器平台还集成了芯原的很多IP,包括神经网络处理器NPU、图像信号处理器ISP、视频处理器VPU、音频数字信号处理器和显示控制器等。芯原计划今年在其高端应用处理器平台的基础上,进一步推进Chiplet技术和项目的产业化,主要面向手机、平板电脑、笔记本电脑等应用,同时还适用于自动驾驶应用。


在微处理器内核IP方面,AI芯片大都采用高性能的Arm Cortex A系列处理器内核,最近两年基于RSIC-V内核的AI芯片设计也开始多起来(特别是边缘AI)。针对中国市场和客户,安谋科技除了继续提供Arm微处理器系列IP外,还自主研发推出了XPU系列智能数据流计算平台,包括“周易”NPU、“星辰”CPU、“山海”SPU以及“玲珑”ISP和VPU处理器产品线。安谋科技董事长兼总经理吴雄昂表示,该公司将采用兼容Arm架构CPU +自研架构XPU的‘双轮驱动’战略,继续在自研架构智能数据流处理器和自主高性能处理器上充分发力,在智能汽车、边缘计算、数据中心、智能物联网、移动设备等各个领域全面支持中国半导体和科技产业的未来发展。这些应用领域都跟AI息息相关,自然AI芯片的设计也离不开XPU系列IP。


•晶圆代工(Foundry)和封装测试(ATP)


AI芯片大都采用16nm或更为先进的晶圆工艺。2021年有多家国产AI芯片公司发布了采用7nm工艺的AI芯片,其中包括:昆仑芯2、寒武纪思元290、天数智芯GPGPU芯片BI、芯擎科技“龍鹰一号”智能座舱芯片SE1000,以及瀚博半导体SV102等。7nm工艺芯片的流片成本高达数亿元,而芯片能否量产及未来应用前景尚不明确,为什么这些AI芯片初创公司仍趋之若鹜呢?难道只是拿着投资人的钱玩竞跑游戏吗?


美国乔治城大学发布的一份AI芯片研究报告对采用不同工艺节点的AI芯片进行了经济效益分析,通过量化模型揭示出先进工艺芯片相比旧的工艺节点的性能、效率和成本收益。


具有5nm芯片相对数量晶体管的不同工艺节点芯片的成本对比。(来源:CSET at Georgetown University)


该分析模型基于这样的假设:一颗跟英伟达16nm Tesla P100 GPU裸片尺寸类似的服务器级别5nm芯片包含约907亿个晶体管(P100裸片面积为610平方毫米,集成了150亿个晶体管)。假如从7nm往前直到90nm工艺节点的芯片都包含跟5nm芯片同样的晶体管数量,每个工艺节点的芯片在设计、晶圆代工、封装测试和工作运行阶段的不同成本有什么差别呢?


1.晶圆代工厂给IC设计公司的价格(折合到每颗裸片):5nm为238美元;7nm为233美元;16/12nm为311美元


2.IC设计公司的设计成本(假设芯片出货量为500万颗):5nm为108美元;7nm为110美元;16/12nm为136美元


3.装配、测试和封装成本(折合到每颗芯片):5nm为80美元;7nm为78美元;16/12nm为92美元


4.总生产成本(折合到每颗芯片):5nm为426美元;7nm为421美元;16/12nm为487美元


5.每年运营能耗成本(折合到每颗芯片):5nm为194美元;7nm为242美元;16/12nm为404美元


研究人员从该成本分析模型得出两个结论:第一,在正常运营两年内,先进工艺(7/5nm)芯片的能耗成本就超过了其生产成本,采用旧工艺的芯片(10nm及以上)能耗成本增长更快。若综合考虑生产成本和运营成本,先进工艺芯片的成本效益是旧工艺芯片的33倍。


第二,对比7nm和5nm芯片,当正常运营使用8.8年时,二者的成本相当。这意味着,如果在8.8年以内更换芯片,7nm更划算。鉴于数据中心AI训练和推理所用的AI加速器大都是3年更换一次,单从成本效益来看7nm芯片比5nm更划算。


以上分析也许适用于面向数据中心AI训练和推理的高性能AI芯片,但对面向边缘计算和终端设备的AI芯片来说,未必合适。针对高性能计算和云端AI的国产AI芯片设计公司为数不多,大部分AI芯片公司都是面向边缘和终端应用市场,尤其是AIoT和智能安防应用场景。


45家AI芯片厂商详细信息


下面我们将从核心技术、代表产品、典型应用场景和竞争优势等方面对这45家公司逐一分析。



瀚博半导体

核心技术:高性能通用AI处理架构

代表产品:SV100系列AI推理芯片、VA系列通用AI推理加速卡

应用场景:计算机视觉、智能视频处理应用、自然语言处理、云端和边缘计算应用

竞争优势:引入阿里巴巴和快手两家战略投资,在云端和边缘AI推理和视频处理方面已经落地。目前拥有超过400人的研发团队。


燧原科技

核心技术:面向数据中心的云端AI训练和推理计算芯片、原始创新的“驭算”计算及编程平台

代表产品:邃思2.0云端AI训练芯片、邃思2.5云端AI推理芯片、云燧T20 AI训练加速卡、云燧T21 AI训练加速模组、云燧i20云端推理加速卡

应用场景:面向数据中心的高性能云端训练和云端推理,针对泛互联网、传统行业如金融,交通,能源,医疗,以及智慧城市新基建等三大业务方向和应用场景。

竞争优势:2021年1月获18亿人民币C轮融资,国内首家同时拥有第二代高性能云端训练和云端推理产品线的公司。


灵汐科技

核心技术:类脑芯片领启® KA200采用异构融合、众核并行、存算一体的架构技术,支持计算机科学和神经科学的神经网络模型,并支持两者融合的混合神经网络计算模型。

代表产品:类脑芯片领启® KA200、基于 KA200的类脑计算板卡和服务器、软件工具链和系统软件。

应用场景:脑科学及脑仿真领域、拓展新的人工智能应用市场。

竞争优势:集成30个类脑计算核,各核可独立运行,支持矢量图计算。大规模片上分布式存储,计算存储融合,高带宽,算传并行。支持深度学习模型(DNN)、类脑计算模型(SNN)以及二者融合的异构模型,融合计算机科学的高精度和类脑计算的高能效优点。采用众核预编译模式,支持数据驱动的众核控制模式和自动化物理映射,支持条件跳转、分支合并、事件触发等流水调度模式。


墨芯

核心技术:双稀疏算法技术

代表产品:ANTOUM英腾处理器及疏云AI计算卡

应用场景:加速计算机视觉、自然语言处理、智能推荐、语音识别与合成、知识图谱等诸多云端推理场景。

竞争优势:ANTOUM可以支持高达32X稀疏率。相比于目前的行业旗舰产品,英腾处理器(ANTOUM)能效比提高了1个数量级,单卡算力提高了5-10倍。同时它支持目前市场主流的开发框架及广泛的AI算子库和模型,可编译通过的神经网络模型超200个。


时擎科技

核心技术:RISC-V端侧智能处理器Timesformer

代表产品:AT1611端侧智能处理芯片

应用场景:全向麦克风,如会议宝、拾音器;语音对讲,如无线门铃、对讲机;语音识别和控制等。

竞争优势:时擎科技AT1611端侧智能处理芯片是一款全部基于RISC-V指令集的人工智能语音芯片,基于自研创新的TIMESFORMER智能计算架构和DSA处理器,从落地场景出发进行芯片架构层面的定制与优化,具有待机功耗低(约10uA)、唤醒时间短 (百ms级别)的特点,芯片能效比、性价比突出,能以接近MCU的成本、功耗完成应用处理器级别的应用性能。


深聪智能

核心技术:人工智能语音专用芯片

代表产品:“算法+芯片”一体化解决方案。其中,太行一代芯片TH1520 是公司第一代人工智能语音芯片产品,高性能、全链路语音算法以及低功耗的优势,可满足各种IOT产品多设备协同的场景需求。

应用场景:智能家居,智能车载,智能办公等。主要客户包括美的,海信,小米,松下,海尔,华为盯盯拍,雅迪集团等。

竞争优势:软硬一体化,即“算法+芯片”软硬融合解决方案。


埃瓦科技

核心技术:3D视觉技术、AI芯片

代表产品:追萤3D AI芯片、3D人脸识别模组、深度相机

应用场景:机器人、扫地机、3D人脸识别门锁、刷脸支付、AR/VR等

竞争优势:自主研发3D+AI融合芯片,为客户提供高性价比的3D人脸识别和3D机器视觉解决方案。


沐曦集成电路

核心技术:高性能通用计算GPU芯片架构

主要产品:高性能GPU芯片及解决方案

关键应用:AI训练、AI 推理、数据中心、科学计算、云游戏和元宇宙等多个前沿领域

竞争力:沐曦拥有顶配全建制团队,丰富GPU量产经验,完整软件生态能力和大量自主创新专利等四大核心竞争优势。


锐思智芯

核心技术:融合传统CIS和仿生传感器的Hybrid Vision技术

主要产品:机器视觉传感芯片ALPIX

目标市场:汽车、机器人、AR/VR、工业监测、消费电子等。


深思创芯

核心技术:神经元状态共享技术、多模态感知和神经拟态计算、智能无线技术

代表产品:神经拟态芯片DeepBrain SS3301、深度学习芯片Abacus Vi SS6500F、AI Analog系列芯片

应用场景:图像识别、智能控制、机器人等领域

竞争优势:该公司在计算机视觉、智能无线以及神经形态芯片等多个领域均有完备的技术积累和成熟的定制方案。


千芯科技

核心技术:可重构存算一体计算技术

代表产品:存算一体AI芯片、AI计算IP核、CloudCard AI 推断/训练计算卡、EdgeCard边缘AI计算板卡

应用场景:自然语言处理、医药计算、工业视觉、自动驾驶、智慧城市等

竞争优势:千芯科技通过自研存算一体技术,可提供能效比超过10-100TOPS/W,优于其他类型AI芯片10-40倍的算力支持。


芯擎科技

核心技术:智能座舱核心自研技术

代表产品:“龍鹰一号”智能座舱芯片SE1000

应用场景:智能驾驶、智能座舱

竞争优势:吉利汽车和一汽战略投资,从智能座舱芯片切入智能驾驶市场,产品线将覆盖智能汽车应用全场景,包括“智能座舱芯片、自动驾驶芯片、车载中央处理器芯片”三条产品线。


芯驰科技

核心技术:智能驾驶、域控制器网关和微处理器

代表产品:智能座舱芯片X9;域控制器网关芯片G9;自动驾驶芯片V9;车规级MCU E3

应用场景:智能驾驶、汽车电子

竞争优势:产品覆盖智能座舱、自动驾驶、网关和MCU,涵盖了未来汽车电子电气架构最核心的芯片类别。获得ISO 26262功能安全流程认证、AEC-Q100可靠性认证、ISO26262功能安全产品认证以及国密认证。


后摩智能

核心技术:SRAM-CIM技术

代表产品:存算一体大算力AI芯片

应用场景:智能驾驶、泛机器人、无人车等边缘AI应用场景

竞争优势:与传统冯·诺依曼架构下的大算力芯片相比,后摩智能的存算一体芯片在算力、能效比和成本等方面,都能体现出显著的优势。该公司最近又完成数亿人民币Pre-A+轮融资。


物奇微

核心技术:人脸识别和3D深度成像技术

代表产品:AI能效管理SoC芯片、3D人脸识别SoC芯片

应用场景:可穿戴设备、智能安防终端应用

竞争优势:融合有线和无线通信技术,面向物联网和智能终端产品。


中星微

核心技术:边缘多维智能协同感知技术

代表产品:星光智能一号VC0718、星光智能二号VC0718P、星光智能三号VC0768

应用场景:智能安防摄像机、机器视觉AIOT应用

竞争优势:主导开发公共安全SVAC国家标准,针对边缘智能的协同感知机器视觉编解码标准,参与星光中国芯工程及一系列智能安防视频应用方案。


聆思智能

核心技术:MCU+DSP+NPU的多核异构芯片架构、BT+BLE+WIFI三合一无线通讯单元设计、多级感知音频处理专用芯片电路设计

代表产品:CSK系列芯片 已推出CSK3000、CSK4000两款芯片;CSK6000系列芯片将于今年Q2正式发售

应用场景:围绕家电家居、办公教育、车载等多领域定制化研发配套算法库,打造软硬一体解决方案。目前已有空调、冰箱、扫描笔、会议宝、头盔、车载等数十种解决方案。

竞争优势:软硬协同的智能算法库设计,与行业领先的科大讯飞深度合作,实现“芯片+算法”集成优化,为芯片提供配套的智能算法库。


爱芯元智

核心技术:混和精度NPU、AI-ISP

代表产品:AX630A、AX620A。其中AX620A 是一款高算力、高能效比、低功耗的AI SoC芯片,集成了四核Cortex A7 CPU,14.4TOPs@INT4 或3.6TOPs@INT8 的高算力NPU,支持4K@30fps的ISP,以及支持H.264、H.265编码的VPU。

应用场景:智慧城市、智能家居等领域,尤其在智能网络摄像机、智能工业相机、门禁设备、运动相机、快速唤醒类产品范畴

竞争优势:拥有混和精度NPU和AI-ISP两大自研核心技术,具备高算力、高能效比的技术特点,可有效提高芯片产品的能效比,获得更优的画质效果。


九天睿芯

核心技术:模拟预处理与模数混合信号存内计算技术

代表产品:ADA200 是基于感存算一体芯片架构的多传感器芯片融合处理芯片,可在超低功耗下(低于1mW)下进行声音、视觉,以及其他时序信号类传感器的融合处理,可广泛应用于智能手机,可穿戴,智能家居,工业,医疗等一系列对低功耗、高能效比有需求的应用场景。

应用场景:工业领域 -- AON 唤醒下的声音异常触发;安防领域 -- AON 下的人形检测触发;消费类领域 -- 个人设备(手机,手表)的人脸唤醒,图像识别;XR眼动追踪,视觉辨识;机器人、自动驾驶领域:视觉辅助系统。

竞争优势:九天睿芯自主创新的“感存算一体”芯片架构是由ASP(模拟特征预处理)+ADA(基于6T SRAM 的模数混合信号存内计算)两部分组成。ASP类似DSP(数字信号处理)模拟版本,可以在模拟信号端直接进行信号的特征分析和提取;这样可以在ADC 之前,有效提取有效信号,去除掉冗余信号;大大降低ADC 的工作负载,从而实现低功耗,高效率的计算工作。ADA基于6T SRAM 的模数混合信号存内计算AI 加速器,可实现超高能效比。


时识科技

核心技术:事件驱动的神经形态动态视觉处理、基于脉冲神经网络(SNN)的低功耗语音信号处理、身体信号实时检测处理,横跨类脑感知与计算

代表产品:SynSense时识科技“感算一体”动态视觉智能SoC—Speck,以单SoC芯片集成独有的DYNAP-CNN动态视觉专用处理器+DVS传感器阵列,基于类脑感知及计算、纯异步数字电路设计,对像素级大规模动态数据流实时处理,为针对设备端应用的亚毫瓦级、实时视觉边缘运算解决方案。

应用场景:针对端侧感知及计算,适用于手势控制、行为检测、跌倒检测、高速避障等场景,主要可应用于智能家居、智能玩具、智慧交通、智能座舱、无人机等领域。

竞争优势:SynSense时识科技仿生类脑智能,实现架构与算法的双重突破,视觉、语音类产品矩阵基于仿生神经网络优势,将响应延迟降低10-100倍,功耗降低100-1000倍,成本降低10倍。


清微智能

核心技术:可重构计算(CGRA)

代表产品:TX510面向边缘计算的超低功耗视觉处理芯片,以可重构计算架构实现高性能计算,低功率消耗,能效比达国际知名企业同类芯片的3-5倍,灵活支持多种目标识别、人脸识别、3D视觉等算法,支持丰富的扩展应用(在一些垂直领域,市场占有率达到60%以上)。

应用场景:智能安防、智能家居、机器人、航空航天等。

竞争优势:清微智能的可重构智能芯片是基于可重构数据流/控制流计算架构的AI芯片类型,具有按需即时重构、高能效、低功耗、通用性特点,可重构计算是后摩尔时代的颠覆性技术之一,清微是第一家将该技术大规模商用的公司。


华夏芯

核心技术:Unity 指令集架构

代表产品:GPTX1/GPTX2 CPU内核IP、GP3600 DSP芯片、GP8300 AI处理器

应用场景:嵌入式应用、辅助驾驶(ADAS)、智能监控、机器人、边缘计算等应用。

竞争优势:多核异构计算处理器IP。


平头哥

核心技术:自研NPU架构

代表产品:含光800 AI芯片

应用场景:阿里云平台、电商智能搜索

竞争优势:依托阿里平台,为阿里云提供AI计算能力。


昆仑芯科技

核心技术:自研XPU-R架构

代表产品:昆仑芯1代和2代芯片、K100/K200 AI加速卡、R200 AI加速卡、R480 -X8 AI加速器组

应用场景:互联网、智慧城市、智算中心、智慧工业、智慧应急、智慧交通、智慧金融等“智慧+”产业。

竞争优势:大规模落地验证、工程化经验积累;深刻的场景理解、全方位的产品视角;稳定的核心团队、全面的技术沉淀;自研核心架构、顶尖互联网公司软件栈水准。


华为海思

核心技术:自研华为达芬奇架构NPU、3D Cube技术;

代表产品:昇腾(Ascend)310是一款高能效、灵活可编程的人工智能处理器,在典型配置下可以输出16TOPS@INT8、8TOPS@FP16,功耗仅为8W。昇腾310采用华为自研达芬奇架构NPU,以高性能3D Cube计算引擎为基础,大幅提高单位功耗下的AI算力。全AI业务流程加速,大幅提高AI全系统的性能,有效降低部署成本。

昇腾(Ascend)910是海思系列中算力最强的AI处理器,基于自研华为达芬奇架构3D Cube技术,实现最佳AI性能与能效平衡,架构灵活伸缩,支持云边端全栈全场景应用。在算力方面,昇腾910在八位整数精度(INT8)下的算力达到640 TOPS,16位浮点数(FP16)下的算力达到320 TFLOPS,最大功耗仅为310W。

应用场景:海思以全场景AI芯片昇腾系列助力AI从中心侧向边缘侧延伸,面向数字中心、边缘、消费终端和IoT场景,可为平安城市、自动驾驶、云业务和IT智能、智能制造、机器人等应用场景提供完整的AI解决方案。


紫光展锐

核心技术:异构双核NPU架构、自研API

代表产品:虎贲T710采用异构双核NPU架构,支持业界主流AI训练框架,自研API可提高算法效率。性能:4 x A75 @ 2.0GHz + 4 x A55 @ 1.8GHz;影像:4800万(4in1)摄像头、4K@30fps编解码、超级夜景、防抖等功能。

应用场景:适用工业、商业、医疗、家居、教育等场景。


地平线

核心技术:人工智能专用计算架构 BPU

代表产品:车规级AI芯片征程2/3/5;AIoT边缘AI芯片平台旭日2/3。

应用场景:汽车ADAS/自动驾驶、AIoT边缘计算。地平线自主研发兼具极致效能与高效灵活的边缘人工智能芯片及解决方案,可面向智能驾驶以及更广泛的智能物联网领域,提供包括边缘 AI 芯片、丰富算法 IP、开放工具链等在内的全方位赋能服务。

竞争优势:中国唯一实现车规级AI芯片前装量产的企业。地平线第三代车规级产品征程5是遵循ISO 26262 功能安全认证流程开发,并通过ASIL-B 认证的车规级AI芯片;征程系列AI芯片出货量已经超过百万,与众多主机厂实现前装量产合作。


寒武纪

核心技术:智能处理器架构MLUarch03和MLUv02架构、Cambricon NeuWare、推理加速引擎 MagicMind

代表产品:思元290/270/370/220系列AI芯片;终端智能处理器IP、云端智能芯片及加速卡、边缘智能芯片及加速卡以及基础系统软件平台。

应用场景:通用型云端训练和边缘/终端推理AI方案。

竞争优势:AI核心技术和人才团队优势;同时为云端、边缘端、终端提供全品类系列化智能芯片和处理器产品的能力。


比特大陆

核心技术:自主研发TPU架构

代表产品:智算边缘AI芯片BM1682和BM1684,终端AI视觉处理器;智算卡和服务器

应用场景:视频分析、机器视觉、高性能计算环境

竞争优势:硬件和软件生态。


云天励飞

核心技术:算法+芯片+大数据,构建全栈AI

代表产品:DeepEye 2000、DeepEdge 10/50/100

应用场景:智能安防、新商业、智慧交通、智能制造、智慧仓储、智能家居、机器人、智能超算等多个行业及领域应用。


全志科技

核心技术:高清音视频编解码技术、高清数字电视信号解调技术

代表产品:V535是全志科技研发的新一代智能行车专用处理器,是集图像视频处理和AI视觉于一体的高性能、高集成度、高稳定性的工业级芯片;V535针对客户需求实现多项突破性创新设计及优化,可在多路图像实时编解码同时具备AI(如:车、人)检测识别等功能。

应用场景:智能行车记录和驾驶行为检测类产品,包括车载全盲区AI监测预警仪、驾驶员行为检测仪等。


瑞芯微

核心技术:应用处理器技术

代表产品:RK3588是瑞芯微新一代旗舰级高端处理器,具有高算力、低功耗、超强多媒体、丰富数据接口等特点。搭载四核A76+四核A55的八核CPU和ARM G610MP4 GPU,内置6 TOPs算力的NPU。其它产品还包括智能应用处理器芯片、智能物联应用处理器芯片、电源管理芯片等。

应用场景:平板/笔记本、智能物联硬件、AIoT行业类应用。


鲲云科技

核心技术:自主研发推出定制数据流CAISA架构和编译工具链RainBuilder

代表产品:数据流AI芯片CAISA搭载了四个CAISA 3.0引擎,峰值性能可达 10.9TOPs,具有超过1.6万个MAC(乘累加)单元以及所有辅助逻辑。为支持较高的硬件资源利用率,同时设计了分布式数据流缓存,为每个CAISA引擎提供超过340Gbps的带宽,可实现最高95.4%的芯片利用率;CAISA引擎本身基于对常用神经网络模型的计算量统计进行优化,其不仅为常见的神经网络计算(如Pooling,ReLU等)实现了专用的硬件计算模块,且与卷积计算的比例经过平衡,可在常用AI算法中实现最佳性能,满足不断增长的边缘侧和IDC算力需求,为客户提供更高的算力性价比。

应用场景:基于CAISA芯片,鲲云科技推出面向边缘端、数据中心进行深度学习推断的AI专用计算加速的星空加速卡X3,定位于高性能AI推断加速,星空加速卡兼容TensorFlow、PyTorch、Caffe、ONNX(MXNet) 等主流框架,可简单快速实现AI算法模型到硬件上的无缝迁移,充分体现其高算力性价比、高通用性和高软件易用性。目前星空加速卡X3已应用于航空航天、智慧城市、安防、安全生产、电力、工业等领域。


依图科技

核心技术:计算机视觉技术、语音识别技术、自然语言理解技术

代表产品:求索AI芯片,以及基于求索芯片的原石系列服务器、前沿系列边缘计算设备。

应用场景:人脸识别、语音识别、医疗等。

竞争优势:以人工智能芯片技术和算法技术为核心,研发及销售包含人工智能算力硬件和软件在内的人工智能解决方案。解决方案的形态主要包括软件、硬件、软硬件组合以及 SaaS 服务等。


启英泰伦

核心技术:脑神经网络处理器核(BNPU)、语音识别、声纹识别、自然语言处理、麦克风降噪增强技术

代表产品:CI100X系列、CI110X系列、CI112X系列。二代语音芯片CI110X系列(CI1102/CI1103)性能较一代芯片有了很大提升,增加了声纹识别、波束形成、语音定向、离在线识别、本地命令词学习等更丰富的功能,成本也下降了很多,功耗甚至降到1/3。成本更低的升级版语音芯片CI1122,在算法方面,5dB信噪比噪声环境下识别率可以达到85%以上,意味着像油烟机这种高噪声设备都可以轻松进行语音控制。

应用场景:智能语音、智能家居。


知存科技

核心技术:存算一体中最高效的存内计算技术,具备高算力、多应用、全面领先的优势特点。代表产品:WTM2101国际首个存算一体SoC芯片,基于存算一体技术,高算力与低功耗可兼得,50Gops 8-bit AI算力,5uA-3mA,同时实现NN VAD、上百条命令词连续识别、AI通话降噪、实时健康监测,WLCSP(2.6mmx3.2mm) 极小封装尺寸

应用场景:智能语音、智能视觉、可穿戴设备、移动设备等。

竞争优势:WTM2101的存内计算单元可以运行几十Mops到几Gops的不同类型深度学习算法,功耗低至亚毫安。可同时运行多个深度学习算法,应用在语音识别、语音增强、健康监测、环境识别、远场唤醒、事件检测等多个应用场景。与主流数字NPU、DSP相比,WTM2101可提高算力数十倍。2022年3月,WTM2101已正式量产并推向市场。


亿智电子

核心技术:NPU、多场景AI算法、数模混合类IP设计、操作系统及软件技术

代表产品:SV823系列AI芯片集成自研NPU、具备高性能的图像处理和编解码能力,主要应用于智能安防场景。该系列芯片采用智能H.265+编码技术,可降低编码码率,有效节省硬盘空间;并集成专业安防级别的ISP,支持2~3帧宽动态融合技术和自适应降噪技术,在逆光和低照度环境下表现出色,让摄像机看清丰富细节。

主要应用:SV系列芯片主要应用于视像安防领域,如:如前端智能摄像机、智慧门禁机等产品;SA系列芯片主要应用于汽车电子,如:DMS+BSD,智能DVR等;SH系列芯片主要应用于智能硬件,如:智能家电,教育类智能硬件等。

竞争优势:以SoC级的芯片整合设计和AI算法为核心的整体交付服务。IP高度自主研发,面向端侧AI场景可精准设计SoC芯片产品矩阵。


黑芝麻智能

核心技术:两大核心自研IP——NeuralIQISP 图像信号处理器及高性能深度神经网络算法平台DynamAI NN引擎。

代表产品:黑芝麻智能基于两大自研IP发布了多款芯片产品。华山二号A1000自动驾驶计算芯片算力达58-116TOPS,处于量产状态,今年量产上车,A1000已经完成所有车规级认证,是算力最大、性能最强的自动驾驶芯片,同时也将是首个量产的符合车规、单芯片支持行泊一体域控制器的国产芯片平台。

应用场景:黑芝麻智能能够提供完整的自动驾驶、车路协同解决方案,包括基于车规级设计、学习型图像处理、低功耗精准感知的自动驾驶感知计算芯片和自动驾驶计算平台,支撑自动驾驶产业链相关产品方案的快速产业化落地。

竞争优势:黑芝麻智能已经建立起完善的客户赋能体系,包含芯片、算法、数据、软件和工具,全维度赋能车厂安全、快速地实现产品落地。


肇观电子

核心技术:人工智能计算机视觉处理技术

代表产品:N系列、D系列、V系列芯片。N系列芯片是针对超高清AI智能摄像头产品开发的低功耗高性能SoC芯片,分别提供8M/4M/2M像素级别图像采集处理能力,最高算力可达到2.4TOPS。支持高质量的ISP处理,内置3D降噪和动态对比度提升模块,并集成了HDR专利技术。D163A芯片是针对机器人和3D视觉智能摄像头产品开发的一款低功耗高性能SoC芯片。在N163芯片的基础上,增加了高性能的双目深度视觉处理的独立硬件IP,能够实时输出深度图像。同时,提供了更加丰富的外围接口,以适用机器人等智能终端的开发需求。V163A 芯片在D163的基础上,性能更进一步, 已通过AEC-Q100 Grade 2 标准。

可用于ADAS辅助驾驶等专业车载应用。

应用场景:专业安防、辅助驾驶、机器人、家用摄像、人脸识别等领域。


探境科技

核心技术:存储优先的芯片架构SFA (Storage First Architecture ),以存储驱动计算打破存储墙针对AI计算“高差异、高并发、高耦合”特性。

代表产品:语音芯片第一代产品VOI611,具备识别好、功耗低、易集成等特点

语音芯片第二代产品,在集成度、功耗和低BOM成本都实现了新的突破,并支持离在线一体化设计,共包括经典版VOI311(可实现20字以内的语音命令)、升级版VOI621(第一代的继承版,可做更多的语音前端处理)和增强版VOI721(算力大幅提升,可进行动态的数据压缩,并支持高端的自然语义理解算法)三款芯片。

应用场景: 边缘计算、智能家居。


嘉楠科技

核心技术:基于RISC-V架构的边缘智能计算、神经网络加速器

代表产品:第一代AI芯片勘智K210,基于RISC-V架构自主知识产权商用边缘AI芯片;第二代芯片勘智K510比一代芯片提升了3倍的算力,主要针对端侧进行多路高清视频的处理。应用场景:AI STEAM教育、机器人、智能家居和辅助驾驶等领域。


云知声

核心技术:语音感知、认知和表达、超算平台与图像、机器翻译等多模态人工智能硬核技术。

代表产品:蜂鸟芯片是专为智能家居设计的异构SoC,是最新一代专门为离在线远场语音交互场景设计的高性能、高集成度、低成本的语音智能IoT芯片,主要面对智能家电、小家电、灯具、智能插座等产品领域。其特性如下:VAD+DSP+NPU+CPU 异步低功耗架构;前端信号处理DSP,性能是 HiFi4 的两倍;提供更好的降噪,增强,BF等功能;高效神经网络处理器提供更快速和准确语音识别;内置1.5MB SRAM;支持安全启动;支持100条本地离线指令识别;RTOS轻量系统;丰富的外围接口;芯片正常工作功耗 100mW。

应用场景:提供跨硬件平台、跨应用场景,端云一体的人工智能整体解决方案,广泛应用于家居、医疗、金融、教育、交通、汽车、地产等领域。


酷芯微

核心技术:智能感知、智能计算、智能传输三大核心技术

代表产品:AR9341采用CPU+DSP+NPU的异构运算,集成了酷芯微电子自研的第二代HiFi-ISP技术,在2D降噪、3D降噪、HDR、去雾、边缘增强等各方面达到行业极高的水平,同时内部集成红外热成像图像增强的技术,具有更加广泛的适应性。

应用场景:高端智能IPC、车载辅助驾驶、边缘计算盒子、智能机器人等。


杭州国芯

核心技术:神经网络处理器gxNPU技术、数字电视、IoT AI

代表产品:GX8002 超低功耗AI语音芯片;GX8010 物联网人工智能芯片;GX8009 AI语音SoC芯片;GX8008 AI语音处理芯片;GX8001 YOC芯片。AI产品采用多核异构,有NPU、ARM、C-Sky、DSP等架构,低功耗语音唤醒算法,双麦阵列降噪算法,VAD检测算法,离线ASR算法,神经网络压缩算法。

应用场景:智能车载、智能音箱、智能家居、智能穿戴等多个应用领域。已和阿里巴巴、京东、百度、360、Rokid、出门问问、科大讯飞、声智、思必驰、创维、TCL、海尔等公司达成深入合作。


北京君正

专业级视觉AI应用协处理器T02拥有高达8T的计算能力,全速运行情况下功耗仅需1.5W,可以搭配各大平台实现视频结构化——车牌、车型、人脸、人形,一颗芯片完成人形、车辆、非机动车检测及人脸识别、车牌识别、人车属性分析。搭载T02协处理器的产品已经广泛应用于平安城市、电力、学校等多种安防项目中。

最新一代智能视频SoC芯片T31系列采用22纳米工艺,拥有高达1.8G的主频,最高支持500万25帧,并有BGA和QFN两种封装方式。T31系列芯片包括T31L和T31A,可在设备端集成北京君正的系列深度学习算法,包括深度学习的人形、人脸、车牌的检测和识别。相较于传统的CV算法,北京君正深度学习算法更高效,在复杂环境如遮挡、大角度等场景下更准确,解决了CV算法的痛点,从容赋能端级AI。


结语


AI在数据中心和云计算、边缘计算,以及各种智能终端领域的应用为AI芯片带来了巨大的发展机会。在新兴的AI芯片细分市场,国产厂商与国际芯片巨头几乎在同一起跑线上,尤其是边缘和端侧应用场景。尽管国产AI芯片公司在高性能和先进工艺AI芯片的设计方面还面临诸多挑战,而且在AI芯片价值链的EDA和IP环节上还有不小的差距,但中国AI市场的体量和快速迭代发展仍然为众多国产AI芯片厂商提供了丰富的试验基地和应用设计机会,接下来的3-5年将是国产AI芯片厂商加速AI应用落地和大规模部署的快速发展时期。


作者:顾正书,AspenCore资深产业分析师


↓↓↓点击阅读原文下载《45家国产AI芯片厂商调研分析报告》PDF完整版!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存