把AI不可分析的数据人工标记成可分析的，BasicFinde完成了千万级pre-A轮融资 | 早起看早期 | 自由微信

把AI不可分析的数据人工标记成可分析的，BasicFinde完成了千万级pre-A轮融资 | 早起看早期

原创 2017-09-07 徐宁石亚琼 36氪

公司已经获得过两轮融资，天使轮由个人投资数百万元，2017年3月份，完成了一千多万元pre-A轮融资。

文 | 徐宁石亚琼

上图中的女员工，正把手写体的古德文转录为印刷体字母，经过培训，她已经可以熟练操作，每秒钟至少转换1个字母，要知道，即便是在德国，完全认识这种古老字体的人也寥寥无几。之后，转录出的文字会发给OCR（Optical Character Recognitio n，光学字符识别）公司，做为机器训练的数据材料。

另一边，员工在标记图片中汽车的可行驶区域，之后会用于无人驾驶场景的训练。

就像传统工厂一样，数据正在流水线上处理，被分块加工。这一切都源于人工智能行业的崛起。Tractica预测，2024年人工智能市场规模将增长至111亿美元。但AI要真正发挥作用，优质的数据必不可少，所以，前端的数据采集、加工环节单拎出来成为了新的机会点。

其实，数据标注并不算一个完全新兴的产业，成立于1998年的“海天瑞声”已在语音领域耕耘近20年，因为人工智能一词的提出，最早可以追溯到20世纪50年代，不过此前主流技术没有到“深度学习”的阶段，所以数据用的相对较少。目前这个赛道上，成立久的有“数据堂”，早期公司有获得明势资本Pre-A轮融资的“爱数智慧”，完成天使轮融资的“泛涵科技”，获得合力投资数百万天使的“丁火智能”，今天要讲的BasicFinder也是赛道上一员。

正如上面的场景，数据标记是个重人力的劳动密集型行业。这类公司的关键点就在于——人员效率、交付质量。

“市面上很多公司都采用众包模式，找人兼职做标记，亚马逊每天会发布任务给墨西哥以及印度兼职人员，但很多高精度工作是不适合众包的。”BasicFinder创始人杜霖告知，BasicFinder采用的是“自营”模式，目前拥有12家下辖数据工厂及2000余名数据操作员，为了保证质量，这些数据工厂有些是参与投资，有些是深度合作，操作员大多是经过培训的打字员，她们技能相对匹配、标记效率又高。杜霖补充，若是音频数据，BasicFinder会挑选听力较好的技术员，筛选通过率仅在30%。

具体到标记过程，BasicFinder都是流水线式的，从最前端的任务定义、采集数据，到中间的清洗、加工，以及后端的质量检测、训练迭代等全部环节分开作业，并开发了一套系统辅助人工提高效率。

举几个例子，拿视频标记骨骼来说，系统首先将视频的每帧切成画面，然后把没有人或者身体不全的画面去掉，这就完成了清洗过程。接下来，工人打点标记，若图中人物较多，系统会分割后派给不同标记员，以防单人作业眼花标乱。再比如，无人便利店的项目要求是框出商品，BasicFinder系统会提供辅助线帮人工标记，比无线情况下，至少提升1倍的效率。

加工完的数据，还面临一道不可缺少的步骤就是校验。相对而言，这是不能标准化的事情，BasicFinder目前用人工复查，跟标记的耗时相比，在1:1——1:3之间。

最后就是安全层面，杜霖告知，对于客户提供的数据素材，BasicFinder实行“交付即焚”，保证数据不会复用。若企业有非常严格的需求，BasicFinder还提供隔离标记房，数据不会经过BasicFinder服务器，并且房内有监控，客户可随时查看员工作业过程，以及每一台设备的标记情况。

不仅如此，在前端的采集，BasicFinder也不主张数据复用。“在人脸识别场景中，批量购买超市等摄像头的数据成本很低，但有法律风险，其实侵犯了个人肖像权，BasicFinder的解决方案是，跟每一个员工或者被采集人签订授权协议，即便有公司提出同样的需求，我们会用同样的方法再采集一遍，也不会私下复用。”杜霖强调，BasicFinder的定位不是数据买卖公司，而是在加工的质量上。

当然，对于一些公开的数据集，比如说景物的识别，BasicFinder也会自建数据库，供企业采购。但实际在人工智能行业里，数据素材可复用的机率相对较低，杜霖补充，“因为每家公司的要求都不一样，同是标记商品，有的公司会要求勾勒轮廓，有的会要求贴边打框，有的精度在10%的误差，有的在5%……”

值得一提的是，BasicFinder的工具平台正在内部试用中，并将于近期正式对外公布。客户在平台上直接简单组合，填写相关参数，即可以相对精准的定义任务。平台接受到任务后，会按照要求把数据任务轻松分配到数据工厂甚至个人，数据工厂的工人在平台上进行操作，并借助相关的工具提升作业效率，客户在后台就能及时来监控这些信息，不合格的数据也可以及时返工，最后保证会输出质量较高的数据。

系统之后会不断迭代，无非就是提高效率，问及是否会用机器替代人力进行标记，杜霖表示不会，因为人工标记出得数据在误差层面符合正态分布，而机器标记的都是同一水平，用机器生产的数据再训练机器，并不利于AI最后的训练效果。

至于收费模式，BasicFinder会根据样本耗时估算一个人力成本，走项目制。

据悉，现阶段，BasicFinder的订单多为数据标注，国内外客户占比接近1：1，包括中科院、搜狗、中国移动、华为、创新工场、云知声、国外知名科研院所等。这些客户多在使用深度学习相关的框架进行研发，因此对数据的需求量较大，客户的算法相对比较成熟，因此任务往往为个性化任务。客户中，最高订单定价在百万元，不少用户会多次下达不同的订单。

其实对于这一波因为深度学习而兴起的数据服务商来说，最大的潜在威胁很可能并非来自竞品，而是来自于增强学习、迁移学习等算法，后者仅需要少量的数据即可以达到一定的效果。杜霖表示，这方面公司也在密切关注，一方面目前增强学习、迁移学习等算法还不成熟，很难大规模应用；另一方面，这些算法也需要基础的学习数据，同时公司也有可能提供包含人工操作的数据以提供给这些算法。

BasicFinder注册成立于2015年，目前核心研发团队在20人左右。创始人杜霖是一个连续创业者，在上海交通大学计算机系读大二的时候，就开始了第一次创业经历，当时开发了一款SEM搜索引擎自动化营销工具，后以300万美元的价格打包卖给了一家土耳其电子商务网站。2010年大学毕业后，杜霖从事了数年TMT创投工作。2015年预感到深度学习的潜力及对数据的需求，成立了BasicFinder。公司已经获得过两轮融资，天使轮由个人投资数百万元，2017年3月份，完成了一千多万元pre-A轮融资，计划今年底或明年初再进行A轮融资。

我是36氪徐宁，企业服务负责人，关注SaaS、云计算、大数据等，如果你也在数据标记领域耕耘，可以与我联系，微信xu95704331。

36氪「没想到游乐园」

我们正在等你哦▼

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！