查看原文
其他

戴剑 | 数据标注的产业地图

戴剑 剑胆琴新 2024-04-14

一、  标注公司排行

      1.标注公司排行

2020《互联网周刊》&eNet研究院选择排行:


表格1‑1 2020数据标注公司排行

排名

简称

全称

1

Testin云测

北京云测信息技术有限公司

2

数据堂

数据堂(北京)科技股份有限公司

3

龙猫数据

北京安捷智合科技有限公司

4

星尘纪元

北京星尘纪元智能科技有限公司

5

文德数慧

北京文德数慧科技发展有限责任公司

6

倍赛BasicFinder

北京深度搜索科技有限公司

7

标贝科技

标贝(北京)科技有限公司

8

爱数智慧

北京爱数智慧科技有限公司

9

梦动科技

贵州梦动科技有限公司

10

曼孚科技

杭州曼孚科技有限公司

11

点我科技

郑州点我科技有限公司

12

翊澳数据

河南翊澳信息科技有限公司

13

荟萃

上海丁火智能科技有限公司

14

智成长

宿州市智成长科技有限公司

15

笑猫科技

天津笑猫科技有限公司


表格1‑2 2020数据标注众包平台排行

排名

平台

企业

1

京东众智

京东数字科技控股有限公司

2

百度众测

百度在线网络技术(北京)有限公司

3

数据堂

数据堂(北京)科技股份有限公司

4

龙猫众包

北京安捷智合科技有限公司

5

格物钛

格物钛(上海)智能科技有限公司

6

MBH莫比嗨客

大连莫比嗨客智能科技有限公司

7

有道众包

网易有道信息技术(北京)有限公司

8

倍赛BasicFinder

北京深度搜索科技有限公司

9

淘金云

四川淘金你我信息技术有限公司

10

点我科技

郑州点我科技有限公司

 

2.云平台的标注公司

  • 腾讯云平台

  • 京东众智平台

  • 百度众测平台

  • 阿里数据标注平台

3.数据标注企业融资动态

  • Graviti获得Pre-A轮融资

  • Datasaur获得百万美元融资

  • 爱数智慧完成B轮融资

  • 倍赛科技完成B轮融资

二、商业模式

完整的数据标注流程需要经过任务分配、标记程序设计、进度跟踪和质量跟踪几个环节。其中涉及到标注员、审核员和管理员这几个角色,这些是数据标注团队的基本要素,不同的是组织工作的方式。


1   众包模式

最开始兴起的是众包结构,在众包平台上,一端对接需求公司,一端对接大量有空余时间的志愿者(兼职人员)。众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本,但缺点也很明显,就是众多分散的兼职人员之间合力完成一个大型标注任务,他们的专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难,一旦需求公司要调整原有标注需求,兼职人员流动性大,无法给与需求公司灵活服务。意识到自身的缺点,近年来一些众包平台也开始对入驻的数据标注团队进行测评,以及采取末尾淘汰等措施,提升平台整体的竞争能力。当前,市场上典型的数据众包平台有京东众智、百度众测等。

2   专有模式

即成立专门的数据标注公司,有稳定的标注人员。相对于众包结构,数据工厂的优势是标注人员稳定,需求方和数据标注方能即时沟通,沟通成本降低,同时,数据传递也有源可溯,降低了数据泄露的可能性。但工厂结构的公司的问题也不少。现在市场上工厂结构的数据公司两极分化明显,较大的长期员工可以达到上千人;而较小的,只有几个人,很多小团队还存在有项目时成立,没项目时解散的现象。由于人工成本风险较高,两极分化下的工厂结构市场还衍生出了这样的现象:大公司很少去对接短期且数据量较少的项目,小的公司可以承接这样的项目但是有大批量数据任务到来时,数据标注能力又会显得捉襟见肘。目前,市场上规模较大的专业的数据标注公司有Testin云测、星尘纪元、梦动科技等。

3   混合模式

即将众包和专有模式融合的新形态,这样的模式能够根据项目大小和数据保密要求灵活部署,例如数据堂和龙猫数据,都有自己的标团队,同时也运营数据标注众包平台。

 

这三种数据标注的市场结构都有各自的优势和局限性,结合众包+专有模式的第三种模式是否会成为未来数据标注行业的主流形式,还有待实践的检验。因为除了市场结构,准确率和灵活性在数据标注中的重要性正在变得越发突出。

三、核心能力

可以预见,数据标注行业有两类机构最笑到最后:一是注重质量及服务的中小型数据标注公司;二是自有整套数据技术,能依靠人工智能增加准确率的平台。

1   质量:准确率

无论是众包、专有模式,还是将两者结合的商业模式,都是在成本、准确率和灵活性上做选择,随着越来越多数据喂养给了人工智能算法,人工智能公司必须想办法积累更多更准确、符合自身应用的数据。某种程度上来说,高质量的标注数据,决定了人工智能公司的竞争力。

随着AI应用的加速落地,压低报价和提交更多的数据标注结果显得不再那么重要,准确率成为脱颖而出的命脉。在大型人工智能公司面前,数据标注企业的准确率提升一个百分点,竞争力将跃迁几个层级。

任何一个行业,在经历了早期的疯狂生长后,最终一定会经历一番洗牌,变得更为规范化、透明化。届时质量会取代成本,成为需求方最优先考虑的变量。

当AI完成初级识别,要进行深度学习训练后,甲方的人工智能公司对数据质量和效率的要求将超越对成本的顾虑。往金字塔的高层发展,这个行业的缺口仍然非常巨大。

2   成本:效率

数据标注行业现在还是劳动密集型产业。重复的拉框、标点,一个个数据标注员通过大量重复劳动为AI输送了几十亿甚至几百亿的喂养数据,这些数据标注员有一个被圈内人默认的外号:AI民工。他们是“人工智能背后的人工”。当前,人工智能行业依赖于大量的这种廉价的人工,因为算法和“机器学习”在很多情况下都是由真人训练。

如果能够实现AI标注数据,这既是在提升人力效率,又是行业发展的必然结果。一旦智能化的数据标注工具能够替代人工,即使是能部分替代,数据量和质量都会快速提升,进而推动算法成熟得更快。目前,市场上已有企业在开发自动化数据标注工具,尝试用AI取代“AI民工”。据悉,其预标注后,将提升30-40%的效率,高的宣称能够达到90%。

四、   剑识

数据已经作为核心资产,越来越受到重视。作为数据产业的一员,标注行业目前有两大挑战,这两大挑战会影响整个生态布局,即:

1   合规

2   规模化

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存