把AI不可分析的数据人工标记成可分析的,BasicFinde完成了千万级pre-A轮融资 | 早起看早期
公司已经获得过两轮融资,天使轮由个人投资数百万元,2017年3月份,完成了一千多万元pre-A轮融资。
文 | 徐宁 石亚琼
上图中的女员工,正把手写体的古德文转录为印刷体字母,经过培训,她已经可以熟练操作,每秒钟至少转换1个字母,要知道,即便是在德国,完全认识这种古老字体的人也寥寥无几。之后,转录出的文字会发给OCR(Optical Character Recognitio n,光学字符识别)公司,做为机器训练的数据材料。
另一边,员工在标记图片中汽车的可行驶区域,之后会用于无人驾驶场景的训练。
就像传统工厂一样,数据正在流水线上处理,被分块加工。这一切都源于人工智能行业的崛起。Tractica预测,2024年人工智能市场规模将增长至111亿美元。但AI要真正发挥作用,优质的数据必不可少,所以,前端的数据采集、加工环节单拎出来成为了新的机会点。
其实,数据标注并不算一个完全新兴的产业,成立于1998年的“海天瑞声”已在语音领域耕耘近20年,因为人工智能一词的提出,最早可以追溯到20世纪50年代,不过此前主流技术没有到“深度学习”的阶段,所以数据用的相对较少。目前这个赛道上,成立久的有“数据堂”,早期公司有获得明势资本Pre-A轮融资的“爱数智慧”,完成天使轮融资的“泛涵科技”,获得合力投资数百万天使的“丁火智能”,今天要讲的BasicFinder也是赛道上一员。
正如上面的场景,数据标记是个重人力的劳动密集型行业。这类公司的关键点就在于——人员效率、交付质量。
“市面上很多公司都采用众包模式,找人兼职做标记,亚马逊每天会发布任务给墨西哥以及印度兼职人员,但很多高精度工作是不适合众包的。”BasicFinder创始人杜霖告知,BasicFinder采用的是“自营”模式,目前拥有12家下辖数据工厂及2000余名数据操作员,为了保证质量,这些数据工厂有些是参与投资,有些是深度合作,操作员大多是经过培训的打字员,她们技能相对匹配、标记效率又高。杜霖补充,若是音频数据,BasicFinder会挑选听力较好的技术员,筛选通过率仅在30%。
具体到标记过程,BasicFinder都是流水线式的,从最前端的任务定义、采集数据,到中间的清洗、加工,以及后端的质量检测、训练迭代等全部环节分开作业,并开发了一套系统辅助人工提高效率。
举几个例子,拿视频标记骨骼来说,系统首先将视频的每帧切成画面,然后把没有人或者身体不全的画面去掉,这就完成了清洗过程。接下来,工人打点标记,若图中人物较多,系统会分割后派给不同标记员,以防单人作业眼花标乱。再比如,无人便利店的项目要求是框出商品,BasicFinder系统会提供辅助线帮人工标记,比无线情况下,至少提升1倍的效率。
加工完的数据,还面临一道不可缺少的步骤就是校验。相对而言,这是不能标准化的事情,BasicFinder目前用人工复查,跟标记的耗时相比,在1:1——1:3之间。
最后就是安全层面,杜霖告知,对于客户提供的数据素材,BasicFinder实行“交付即焚”,保证数据不会复用。若企业有非常严格的需求,BasicFinder还提供隔离标记房,数据不会经过BasicFinder服务器,并且房内有监控,客户可随时查看员工作业过程,以及每一台设备的标记情况。
不仅如此,在前端的采集,BasicFinder也不主张数据复用。“在人脸识别场景中,批量购买超市等摄像头的数据成本很低,但有法律风险,其实侵犯了个人肖像权,BasicFinder的解决方案是,跟每一个员工或者被采集人签订授权协议,即便有公司提出同样的需求,我们会用同样的方法再采集一遍,也不会私下复用。”杜霖强调,BasicFinder的定位不是数据买卖公司,而是在加工的质量上。
当然,对于一些公开的数据集,比如说景物的识别,BasicFinder也会自建数据库,供企业采购。但实际在人工智能行业里,数据素材可复用的机率相对较低,杜霖补充,“因为每家公司的要求都不一样,同是标记商品,有的公司会要求勾勒轮廓,有的会要求贴边打框,有的精度在10%的误差,有的在5%……”
值得一提的是,BasicFinder的工具平台正在内部试用中,并将于近期正式对外公布。客户在平台上直接简单组合,填写相关参数,即可以相对精准的定义任务。平台接受到任务后,会按照要求把数据任务轻松分配到数据工厂甚至个人,数据工厂的工人在平台上进行操作,并借助相关的工具提升作业效率,客户在后台就能及时来监控这些信息,不合格的数据也可以及时返工,最后保证会输出质量较高的数据。
系统之后会不断迭代,无非就是提高效率,问及是否会用机器替代人力进行标记,杜霖表示不会,因为人工标记出得数据在误差层面符合正态分布,而机器标记的都是同一水平,用机器生产的数据再训练机器,并不利于AI最后的训练效果。
至于收费模式,BasicFinder会根据样本耗时估算一个人力成本,走项目制。
据悉,现阶段,BasicFinder的订单多为数据标注,国内外客户占比接近1:1,包括中科院、搜狗、中国移动、华为、创新工场、云知声、国外知名科研院所等。这些客户多在使用深度学习相关的框架进行研发,因此对数据的需求量较大,客户的算法相对比较成熟,因此任务往往为个性化任务。客户中,最高订单定价在百万元,不少用户会多次下达不同的订单。
其实对于这一波因为深度学习而兴起的数据服务商来说,最大的潜在威胁很可能并非来自竞品,而是来自于增强学习、迁移学习等算法,后者仅需要少量的数据即可以达到一定的效果。杜霖表示,这方面公司也在密切关注,一方面目前增强学习、迁移学习等算法还不成熟,很难大规模应用;另一方面,这些算法也需要基础的学习数据,同时公司也有可能提供包含人工操作的数据以提供给这些算法。
BasicFinder注册成立于2015年,目前核心研发团队在20人左右。创始人杜霖是一个连续创业者,在上海交通大学计算机系读大二的时候,就开始了第一次创业经历,当时开发了一款SEM搜索引擎自动化营销工具,后以300万美元的价格打包卖给了一家土耳其电子商务网站。2010年大学毕业后,杜霖从事了数年TMT创投工作。2015年预感到深度学习的潜力及对数据的需求,成立了BasicFinder。公司已经获得过两轮融资,天使轮由个人投资数百万元,2017年3月份,完成了一千多万元pre-A轮融资,计划今年底或明年初再进行A轮融资。
我是36氪徐宁,企业服务负责人,关注SaaS、云计算、大数据等,如果你也在数据标记领域耕耘,可以与我联系,微信xu95704331。
36氪「没想到游乐园」
我们正在等你哦▼