查看原文
其他

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

Lionbridge AI AI科技大本营 2020-10-16

 作者 |  Lionbridge AI

译者 | 天道酬勤 责编 | 徐威龙

封图| CSDN│下载于视觉中国

出品 |  AI科技大本营(ID:rgznai100)

在机器学习领域,训练数据准备是最重要且最耗时的任务之一。实际上,许多数据科学家声称数据科学的很大一部分是预处理的,并且一些研究表明,训练数据的质量比你使用的算法类型更为重要。
事实上,越来越多的公司进入了人工智能市场,来帮助满足这种对训练数据的需求。

 你如何获取机器学习训练数据?

获取训练数据的主要方法有以下三种:
  • 开源数据集:通过Kaggle、Google数据集搜索或数据集聚合器等网站在线查找。
  • 自己构建数据集:收集/创建数据并在内部进行注释。
  • 外包数据收集和注释服务:训练数据提供商提供的服务。
对于个人项目或学校作业,有时打开的数据集可以为你需要完成的任务提供足够的数据量。但是,在为商业目的构建和训练人工智能解决方案时,开源数据集通常无法用于你的用例,也不能用于商业化获利。
此外,当你拥有数千条数据并且只有少量员工时,内部采购和注释训练数据通常效率不高。这给我们提供了第三个选择:外包训练数据服务
 

机器学习训练数据服务


 

 Lionbridge通过各种机器学习训练数据服务来帮助客户改善其模型。

目前,有一家相关的企业:Lionbridge 就正在做这类型的工作。当我们去了解之后,发现 其中的一些核心服务如下:
  • 数据收集:语音/话语数据,手写数据,聊天机器人训练短语。
  • 图像和视频注释:边界框,多边形,圆形,直线,关键点。
  • 文字注释:情感,实体,实体链接,分类。
  • 音频注释:逐字记录,智能逐字记录,音频分类。
  • 内容评估:广告评估,搜索评估,地理位置数据评估。


从翻译到训练数据


Lionbridge 利用他们的全球数据科学家、计算语言学家、翻译和注释者的专业知识,为各种用例创建机器学习训练数据。
为什么翻译公司适合数据注释?
例如 Lionbridge ,是意识到他们的全球社区是进行数据注释的理想劳动力。      
尤其是对于自然语言处理(NLP),专业的语言学家是实体提取、搜索查询分类和其他基于语言的注释项目的理想注释者。经过全面的测试和培训之后,这些相同的员工可以轻松地执行各种图像注释任务,来实现计算机视觉。
 

翻译质量等于训练数据质量吗?

        

没必要质量相等。但是,翻译中的质量保证过程非常类似于人工智能训练数据的质量检查协议。
例如,本地化项目的质量检查流程之一就是编辑审查。在进行翻译时,通常我们需要一位或多位编辑来审核翻译人员的输出。同样,在我们的许多人工智能项目中,我们有多个贡献者注释同一条数据来检查是否一致。 
很多时候,质量管理意味着对贡献者的管理。为了确保准确性,你的数据必须经过许多流程。
  • 管理输出       


社区需要有许多协议可以确保每个贡献者都尽其所能。例如检查注释者之间的协议,来确保每个注释正确。此过程还可以帮助其验证数据本身是否清晰以及任务是否简单。对于某些项目,最多有五个贡献者对同一数据进行注释。此外,还可以实施自我协议检查,来确保每个贡献者与其工作保持一致。

机器学习训练数据质量保证的一个很好的例子,是他们的话语/语音数据收集过程:

  • 首先,我们有声音工程师确保每个贡献者正确地说出该短语,他们确保贡献者没有遗漏任何单词,并以自然的语调说话(与单调阅读相反)。
  • 接下来,我们将音频文件发送给每种语言的母语者,他们来根据脚本检查声音片段。
  • 最后,他们发送文件以进行音频质量检查,以确保在特定阈值内没有噪音,以及客户要求的其他标准。
这些只是他们已经实施的质量检查措施中的一部分,看起来正在持续完善中。

 

数据质量是主观的

归根结底,数据质量的定义取决于项目。“当谈到训练数据的质量时,没有客观的定义。这取决于用户要尝试做的事情。” Lionbridge日本AI服务总监Cedric Wagrez说。  “质量与用户的最终目标和各种因素有关,例如用户的KPI、精度和量身定制的用例。”
高质量的机器学习训练数据是以可以帮助用户实现目标的方式收集、注释和校准的数据。
在开始管理质量之前,首先必须了解这对用户的意愿是什么。
  • 试验项目

在项目开始之前会提供免费咨询,来解释收集或注释数据的最佳方法。
接下来,运行测试和试验项目以符合客户预期。假设你有10,000条要注释的数据。为确保所有人都在同一页上,他们将获取前100个数据,在系统中设置项目,并让社区为数据添加标签。如果最终结果与你的想象完全一样,那么将继续处理其余数据。如果需要更改,将根据反馈进行重新校准。
重要的是,质量数据不仅仅是关于清晰的图像和紧密的边界框。你必须考虑选择标签数据的人员,提供数据的准则以及收集数据的环境。


 文本、音频、图像和视频的数据收集和注释工具
       
有员工为你的数据添加标签,但是需要一个平台对其进行标签?如今,类需求也得到了满足,已经有服务商将数据注释平台发布为消费产品。
人工智能行业有望在未来十年内为世界经济增加15万亿美元。随着市场的持续增长,对训练数据的需求也将不断增长。因此,我们可能会看到更多类似的服务公司进入机器学习训练数据行业。
一切都在发展,这个行业将会越来越丰富,越来越值得期待!
原文:
https://hackernoon.com/get-machine-learning-training-data-using-the-lionbridge-method-a-how-to-guide-ay4f32xi
【end】


原力计划


《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战
推荐阅读


    你点的每个“在看”,我都认真当成了AI

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存