天风·智能汽车 | 计算机:受益L3+渗透率提升,汽车智能化下一站:自动驾驶数据标注
【核心观点】
1.数据标注行业概览
1.1 数据标注
数据标注是人工智能的基础
数据标注是向训练数据集添加元数据的过程。这种元数据通常采用标签的形式,可以添加到任何类型的数据中,包括文本、图像和视频。添加高质量和高精准的标签是为机器学习开发训练数据集的一个关键过程。
人工智能数据标注是数据预处理中不可缺少的阶段,因为监督式机器学习模型可以学习识别标注数据中重复出现的模式。当一个算法处理了大量的标注数据后,算法可以在新的、未标记数据出现时识别相同的模式。因此,数据科学家需要使用清洗过后的标注数据来训练机器学习模型。
1.2 AI基础数据服务
中国AI基础数据需求促进数据标注行业快速增长
根据IDC发布的报告,到2025年,中国人工智能数据采标服务市场规模将达到123.4亿元人民币。市场的发展驱动力一方面来源于人工智能市场的迅猛发展,另一方面来源于行业用户加大数据采集力度。
自动驾驶领域发展需要海量数据支撑,也促进了基础数据服务市场的发展。
自动驾驶感知技术是自动驾驶的核心技术之一,训练自动驾驶感知模型需要使用大量数据,数据标注行业中与自动驾驶相关的数据标注也因此得到快速发展。
1.3 数据标注产业链与生态
行业图谱
2. 自动驾驶:分类、技术与数据需求
2.1 自动驾驶分类
自动驾驶的六个阶段
由于绝对的无人驾驶/自动驾驶在实现路径上无法在短期达到最终形态,根据美国NHTSA 和 SAE协会标准,自动驾驶根据其自动化程度的不同分为了“L0-L5”6个等级。
目前乘用车的自动驾驶呈现形式以驾驶辅助功能为主。具有明确的运行设计域。
2.2 L2级渗透率
L2级自动驾驶渗透率稳步上升,市场向L3+发展
目前在乘用车市场上实现落地的自动驾驶技术处于L2级水平,市场渗透率正稳步提升。实现的功能包括纵向的全速自适应巡航、横向的车道保持、低速场景的自动泊车等。
根据IDC发布了《中国自动驾驶汽车市场数据追踪报告》,2022年第一季度L2级自动驾驶在乘用车市场的新车渗透率达23.2%,整个市场处于L2向L3+级别发展的阶段。
随着激光雷达的铺货和成本的降低或将加速L3+的落地。
2.3 激光雷达
激光雷达放量,市场增速高
主机厂对激光雷达功能开发的深入及激光雷达成本的降低,激光雷达搭载车型数量将在短时间内保持较高增速。
Robotaxi在政府及下游企业的共同推动下持续发展新的城市,测试及运营车队数量或将保持稳定增长。根据艾瑞咨询的报告,车载激光雷达市场有望自2021年4.6亿元增长至2025年54.7亿元,实现85.8%的年复合增长率。
2.4 L3+自动驾驶
激光雷达推动L3+自动驾驶落地
L3+级别自动驾驶对于车身周围环境信息感知要求将明显提高,对于除了特斯拉以外的大部分主流车厂,搭载激光雷达的配置方案是其共同选择;
而随着激光雷达成本的降低以及铺货或将加速L3+级自动驾驶的落地。
2.5 更高的数据要求
L3+级别要求海量且更高质量的数据
L3级别以上的自动驾驶系统主要由感知、定位、预测、决策和控制五部分构成,每部分均不可或缺。其对于计算机视觉技术的需求依赖度较高,系统需要对传感器采集的点云图像数据进行实时处理,构建车辆行驶环境,为预测和决策做依据,这对算法的准确性和实时性考验极大。
目前自动驾驶视觉技术主要以有监督深度学方式为主,是基于已知变量和因变量推导函数关系的算法模型,需要大量标注数据对模型进行训练与调优。根据英特尔推算,在全自动驾驶时代,每辆汽车每天产生的数据量将高达4000GB。
自动驾驶相关的数据标注行业有望迎来新一轮的涨幅。
3. 数据标注市场现状、门槛
3.1 模型训练所需的数据量更多
越来越多AI企业选择外包服务
根据Dimensional Research 的全球调研报告,72%的受访者认为至少使用超过 10 万条训练数据进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。
为应对训练数据所带来的多方面挑战,AI 企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务,调研结果指出,外包服务能够有效加快算法模型落地应用的速度。
3.2 行业门槛提升
3D标注难度加大,门槛提高
自动驾驶领域感知场景,要处理的数据类型包括2D图像数据和3D点云数据。
2D图像数据,通过摄像头进行采集,主要用于算法做2D目标检测、2D语义分割以及目标跟踪,涉及到的数据标注包含:点标注、线标注、框标注、语义分割.
3D点云数据,通过激光雷达(LiDAR)进行采集,主要用于算法做3D目标检测、3D语义分割以及3D目标跟踪,由于近年来激光雷达成本降低,3D点云数据的量级呈现爆发性增加,涉及到的数据标注包含:3D点云框标注、2/3D融合标注、3D点云语义分割。
L3级别以上自动驾驶需要大量的3D点云数据支撑,3D点云标注不仅要求对激光雷达回传的数据进行实时处理分析,大量的弯道车道线、日积月累的消耗和损坏等,带来的形状和反射率失真问题,也为识别准确率带来极大的挑战。
市场供不应求
行业从人到人机标注:对数据进行人工标注。这就为模型提供了高质量(和大量)的训练数据。机器学习算法学会根据这些数据做出决策。
不同于人工标注,人机协同标注在提升效率的同时能够节省成本。
4. 自动驾驶数据标注相关公司
4.1 四维图新
公司简介
四维图新成立于2002年,并发布商业化车载导航电子地图。目前公司服务已覆盖导航地图、导航软件、动态交通信息、位置大数据、以及乘用车和商用车定制化车联网解决方案等领域。
公司致力于以高精度地图、高精度定位、云服务平台、以及应用于ADAS和自动驾驶的车规级芯片等核心业务,打造“智能汽车大脑”,赋能智慧出行。
公司已研发多项自动驾驶相关技术
在自动驾驶地图更新及应用开发项目上,四维图新将依托自有专业采集+众包+车厂合作伙伴数据合作的模式,依托AI能力和制图工具链于云端和终端自动化成图,整合普通导航地图和高精度地图形成OneMap一体化地图应用,打造开放地图生态,以高品质、高鲜度、低成本、可交付的地图产品,服务、拓展自动驾驶应用场景。
公司业绩情况
四维图新2018-2021年,营业收入分别为21.34、23.10、21.48和30.60亿元,19-21年同比增长分别为8.25%、-7.02%及42.48%。
归母净利润分别为4.79、3.39、-3.09和1.22亿元, 19-21年同比增长分别为-29.20%,-191.25%和139.45%。
4.2 海天瑞声
公司简介
海天瑞声成立于2005年,致力于为AI 产业链上的各类机构提供AI算法模型开发训练所需的专业数据集。
公司所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个AI 核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。
公司的智能驾驶数据标注服务已覆盖多家头部传统企业、新势力车企、以及自动驾驶技术公司。
自动驾驶相关数据标注技术已基本覆盖
公司在自动驾驶领域进行了大量研发投入,建立了车载环境采集麦克风阵列、3D点云标注、2D&3D联合标注平台/工具研发团队等,并开始建立专门针对智能驾驶数据集的算法团队,同时积累自有知识产权的数据集产品。
公司业绩情况
海天瑞声2018-2021年,营业收入分别为1.93、2.38、2.33和2.06亿元, 19-21年同比增长分别为23.31%、-1.76%及-11.53%;归母净利润分别为0.67、0.82、0.82和0.32亿元, 19-21年同比增长分别为21.53%,0.61%和-61.49%。
2020及2021年营业收入及归母净利润同比增长为负,主要由于受新冠疫情影响境外业务展开缓慢及数据采买及收集受到影响。
4.3 Scale AI
公司简介
Scale AI 成立于2016年,是一家人工智能创业公司,致力于通过提供以数据为中心的可组合平台来管理整个机器学习生命周期,从而加速人工智能的发展。
Scale AI 将机器学习技术与人工相结合,为人工智能应用奠定了坚实的基础,并为各行各业的客户提供服务,包括Otto和丰田等汽车公司;Brex和Square等金融科技公司;Pinterest等电子商务企业;运输和物流公司,如Flexport;以及美国政府机构,如国防部。
总融资额达6.02亿美元,估值达73亿美元
2021年4月,公司进行了E轮融资,总金额在3.25亿美元,截至2021年,公司总募集金额超过6.02亿美元。
截至2021年4月,Scale AI 最新估值达到了73亿美元。
公司自动驾驶3D标注相关业务起步较早
营收高增长的背后源于公司在自动驾驶汽车行业中数据标注的起源,公司成立初期就开始构建激光雷达标注工具,以满足极其严格的标注标准。随着Scale AI发展到服务于其他行业,它利用其在自动化驾驶领域的标注经验,为公司提供服务等级协议(SLA)以保证质量。
大多数公司在将数据输入AI模型之前,需要人工用标签对其进行注释。而Scale AI正试图使用自动化系统完成大部分标记和识别工作并且推出“Scale Rapid”快速数据标签服务。
在自动驾驶领域,Scale AI支持动态3D激光雷达点云标注,点云分割,雷达等等,并对一组数据进行标注(行人、骑自行车的人、汽车等)。
5. 风险提示
1、新冠疫情的影响
2022年上半年,全国爆发新冠疫情,可能会影响到数据标注公司相关数据的采购和销售工作;
2、市场竞争加剧的风险
参与数据标注行业的公司不断增多,导致竞争加剧,可能会影响相关公司的盈利能力和发展潜力;
3、核心技术快速迭代风险
由于人工智能行业整体发展较为迅速,应用领域和应用场景不断拓展,下游需求随着行业发展不断发生变化,如果相关公司不能对行业发展趋势的洞察能力以及对研发人才的有效组织和研发经费的经济投入,可能对营收带来不利影响;
4、下游人工智能领域发展状况影响较大的风险
数据标注行业与人工智能关联较大。若未来人工智能领域景气度下降,或因技术更迭使得对训练数据的市场需求发生变动,或将对数据标注企业业绩产生较大影响。
注:文中报告节选自天风证券研究所已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
张若凡 SAC编号 S1110521090001
点击阅读全文: