戴剑 | 数据标注的产业地图
一、 标注公司排行
1.标注公司排行
2020《互联网周刊》&eNet研究院选择排行:
表格1‑1 2020数据标注公司排行
排名 | 简称 | 全称 |
1 | Testin云测 | 北京云测信息技术有限公司 |
2 | 数据堂 | 数据堂(北京)科技股份有限公司 |
3 | 龙猫数据 | 北京安捷智合科技有限公司 |
4 | 星尘纪元 | 北京星尘纪元智能科技有限公司 |
5 | 文德数慧 | 北京文德数慧科技发展有限责任公司 |
6 | 倍赛BasicFinder | 北京深度搜索科技有限公司 |
7 | 标贝科技 | 标贝(北京)科技有限公司 |
8 | 爱数智慧 | 北京爱数智慧科技有限公司 |
9 | 梦动科技 | 贵州梦动科技有限公司 |
10 | 曼孚科技 | 杭州曼孚科技有限公司 |
11 | 点我科技 | 郑州点我科技有限公司 |
12 | 翊澳数据 | 河南翊澳信息科技有限公司 |
13 | 荟萃 | 上海丁火智能科技有限公司 |
14 | 智成长 | 宿州市智成长科技有限公司 |
15 | 笑猫科技 | 天津笑猫科技有限公司 |
表格1‑2 2020数据标注众包平台排行
排名 | 平台 | 企业 |
1 | 京东众智 | 京东数字科技控股有限公司 |
2 | 百度众测 | 百度在线网络技术(北京)有限公司 |
3 | 数据堂 | 数据堂(北京)科技股份有限公司 |
4 | 龙猫众包 | 北京安捷智合科技有限公司 |
5 | 格物钛 | 格物钛(上海)智能科技有限公司 |
6 | MBH莫比嗨客 | 大连莫比嗨客智能科技有限公司 |
7 | 有道众包 | 网易有道信息技术(北京)有限公司 |
8 | 倍赛BasicFinder | 北京深度搜索科技有限公司 |
9 | 淘金云 | 四川淘金你我信息技术有限公司 |
10 | 点我科技 | 郑州点我科技有限公司 |
2.云平台的标注公司
腾讯云平台
京东众智平台
百度众测平台
阿里数据标注平台
3.数据标注企业融资动态
Graviti获得Pre-A轮融资
Datasaur获得百万美元融资
爱数智慧完成B轮融资
倍赛科技完成B轮融资
二、商业模式
完整的数据标注流程需要经过任务分配、标记程序设计、进度跟踪和质量跟踪几个环节。其中涉及到标注员、审核员和管理员这几个角色,这些是数据标注团队的基本要素,不同的是组织工作的方式。
1 众包模式
最开始兴起的是众包结构,在众包平台上,一端对接需求公司,一端对接大量有空余时间的志愿者(兼职人员)。众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本,但缺点也很明显,就是众多分散的兼职人员之间合力完成一个大型标注任务,他们的专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难,一旦需求公司要调整原有标注需求,兼职人员流动性大,无法给与需求公司灵活服务。意识到自身的缺点,近年来一些众包平台也开始对入驻的数据标注团队进行测评,以及采取末尾淘汰等措施,提升平台整体的竞争能力。当前,市场上典型的数据众包平台有京东众智、百度众测等。
2 专有模式
即成立专门的数据标注公司,有稳定的标注人员。相对于众包结构,数据工厂的优势是标注人员稳定,需求方和数据标注方能即时沟通,沟通成本降低,同时,数据传递也有源可溯,降低了数据泄露的可能性。但工厂结构的公司的问题也不少。现在市场上工厂结构的数据公司两极分化明显,较大的长期员工可以达到上千人;而较小的,只有几个人,很多小团队还存在有项目时成立,没项目时解散的现象。由于人工成本风险较高,两极分化下的工厂结构市场还衍生出了这样的现象:大公司很少去对接短期且数据量较少的项目,小的公司可以承接这样的项目但是有大批量数据任务到来时,数据标注能力又会显得捉襟见肘。目前,市场上规模较大的专业的数据标注公司有Testin云测、星尘纪元、梦动科技等。
3 混合模式
即将众包和专有模式融合的新形态,这样的模式能够根据项目大小和数据保密要求灵活部署,例如数据堂和龙猫数据,都有自己的标团队,同时也运营数据标注众包平台。
这三种数据标注的市场结构都有各自的优势和局限性,结合众包+专有模式的第三种模式是否会成为未来数据标注行业的主流形式,还有待实践的检验。因为除了市场结构,准确率和灵活性在数据标注中的重要性正在变得越发突出。
三、核心能力
可以预见,数据标注行业有两类机构最笑到最后:一是注重质量及服务的中小型数据标注公司;二是自有整套数据技术,能依靠人工智能增加准确率的平台。
1 质量:准确率
无论是众包、专有模式,还是将两者结合的商业模式,都是在成本、准确率和灵活性上做选择,随着越来越多数据喂养给了人工智能算法,人工智能公司必须想办法积累更多更准确、符合自身应用的数据。某种程度上来说,高质量的标注数据,决定了人工智能公司的竞争力。
随着AI应用的加速落地,压低报价和提交更多的数据标注结果显得不再那么重要,准确率成为脱颖而出的命脉。在大型人工智能公司面前,数据标注企业的准确率提升一个百分点,竞争力将跃迁几个层级。
任何一个行业,在经历了早期的疯狂生长后,最终一定会经历一番洗牌,变得更为规范化、透明化。届时质量会取代成本,成为需求方最优先考虑的变量。
当AI完成初级识别,要进行深度学习训练后,甲方的人工智能公司对数据质量和效率的要求将超越对成本的顾虑。往金字塔的高层发展,这个行业的缺口仍然非常巨大。
2 成本:效率
数据标注行业现在还是劳动密集型产业。重复的拉框、标点,一个个数据标注员通过大量重复劳动为AI输送了几十亿甚至几百亿的喂养数据,这些数据标注员有一个被圈内人默认的外号:AI民工。他们是“人工智能背后的人工”。当前,人工智能行业依赖于大量的这种廉价的人工,因为算法和“机器学习”在很多情况下都是由真人训练。
如果能够实现AI标注数据,这既是在提升人力效率,又是行业发展的必然结果。一旦智能化的数据标注工具能够替代人工,即使是能部分替代,数据量和质量都会快速提升,进而推动算法成熟得更快。目前,市场上已有企业在开发自动化数据标注工具,尝试用AI取代“AI民工”。据悉,其预标注后,将提升30-40%的效率,高的宣称能够达到90%。
四、 剑识
数据已经作为核心资产,越来越受到重视。作为数据产业的一员,标注行业目前有两大挑战,这两大挑战会影响整个生态布局,即: