构建高质量数据集 推动人工智能快速发展

构建高质量数据集推动人工智能快速发展

王尧王文跃等中国信息通信研究院CAICT 2019-05-25

现阶段，缺乏高质量的数据集已经成为制约人工智能领域发展的瓶颈之一，如何构建人工智能数据集已成为各国政府和产业界关注的焦点。

一、人工智能强国从战略高度支持构建数据集

美国提出支持构建高质量人工智能数据集，并将构建行业资源数据集定位为产业界不可能解决需政府层面推动的难题。2016年10月，美国先后发布《美国国家人工智能研究和发展战略计划》和《为未来人工智能做好准备》，确定构建人工智能数据集为联邦政府人工智能战略重大计划之一。

英国认为人工智能行业数据集的匮乏已严重阻碍人工智能的发展，将提高数据获取性和行业数据访问的便利性列为未来提升英国人工智能能力的首要任务。2017年10月，英国发布《在英国发展人工智能》的报告，报告认为由于隐私、安全、商业利益等因素，英国缺乏足够的人工智能行业数据集，已严重阻碍其人工智能的发展，并基于此提出四方面发力打造人工智能强国的建议，其中将提高数据获取性和行业数据访问的便利性列为首要任务。

我国将缺少有效的训练资源库列为影响人工智能发展的痛点问题之一，提出支持建设包括公共数据资源库、标准测试数据集、云服务平台等在内的人工智能基础数据平台。2017年12月，工业和信息化部发布《促进新一代人工智能产业发展三年行动计划》，行动计划解读明确“我国人工智能发展的痛点问题之一就是缺少有效的行业资源训练库等公共服务支撑体系，业界普遍反映已经影响了人工智能技术发展及在行业中的应用”，提出支持建设面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域的高质量人工智能训练资源库、标准测试数据集并推动共享。2018年11月工业和信息化部发布《新一代人工智能产业创新发展重点任务揭榜工作方案》，促进《行动计划》的进一步落实。

二、人工智能数据集采集策略分析

目前，人工智能领域相关科技企业在数据集的获取方面已经形成了多种策略，由于商业模式、公司的关注点以及融资情况的不同，人工智能领域大型企业和初创企业采用的采集策略也有所差异。大型的人工智能领域科技企业关注点主要在数据的质量、价值和获取难度上。目前大型企业的数据获取策略主要有以下几种：

策略一：数据并购。资金雄厚的企业可以通过并购获取数据。例如IBM在2016年斥资26亿美元收购了Truven健康公司。这笔交易为IBM在电子病历、遗传学和影像资料方面带来了2亿个项目数据。

策略二：产业数据协同。依靠企业的行业影响力，与产业链下游创业公司/行业公司或产业链上游的数据/平台型公司建立合作，以此获取所需数据资源。如IBM Watson先后与美国药品连锁商店CVS、安德森癌症中心、纪念斯隆-凯特林癌症研究中心（Memorial Sloan Kettering，MSK）、泰国康民国际医院等机构合作，进而获得医疗领域人工智能训练数据资源。

策略三：自筹数据。通过投入大量人力进行数据采集。如当前很多聊天机器人公司聘请AI教练团队对聊天应用程序进行性能评估和指导培训，所需人力随用户数量同步增加，直至引发数据网络效应，形成“更多用户——更多数据——更优智能算法——更好产品——更多用户”的正循环。此外，也可采取投入大量资金，向消费者提供特定领域免费应用的策略快速积累数据，如Madits、Clarifai等图像识别公司均推出了免费的照片应用程序，以便为图像识别核心业务积累更多图像数据。

策略四：创意产品撬动数据。通过创意产品吸引用户，在娱乐之余提供数据是获取人工智能数据集的一种创新手段。例如2016年11月，谷歌发布了名为“Quick, Draw！（猜画小歌）”的在线涂鸦App，该App要求用户根据文本提示绘制简单对象，由AI猜测所画内容。所采集数据不仅促进了该App自身AI的演进，还用来训练了2017年4月发布的素描AI机器人RNN。

策略五：开源测试环境或平台换取数据。此策略适用于科技巨头或行业巨头，科技巨头或行业巨头通过开源测试环境和训练、测试数据集，旨在提高AI开发者的用户粘性，并以此获取数据以及其他资源。

策略六：其他，如通过大赛机制完善数据集或利用虚拟环境产生数据等。一些人工智能领域竞赛要求协办方提供数据资源，促进数据共享。此外，利用虚拟环境也可产生数据资源。如斯坦福大学在训练远程遥控深海作业机器人OceanOne时，使用了很多由模拟场景（虚拟环境）产生的大量训练数据。

对于初创企业，影响数据获取的关键因素是成本，目前初创企业获取数据的主要策略有以下几种：

策略一：使用政府主导的公共数据。当前，各国政府、人工智能产业链相关企事业单位以及研发人员正联合促进人工智能数据集的公开可用，政府主导的公共数据集成为人工智能行业资源训练库的重要来源。美国联邦政府Data.gov数据平台已开放包括农业、气候、生态、教育、能源、金融、卫生、科研在内的等十余个领域的13万个数据集；英国、加拿大、新西兰等国自2009年前后开始建立政府数据公共平台；我国上海、北京、武汉、无锡、佛山等城市自2012年开始陆续推出数据平台。

策略二：购买商业数据集。数据资源的商业价值已得到普遍共识，商业数据集提供商使用最新的搜索算法收集、清洗和更新数据集，且开始出售其商业数据资源。商业数据集对于需要快速得到数据且没有内部资源来清洗和归类数据的人工智能初创企业来说是非常有益的，如道琼斯和Xignite已开始提供基于云平台的数据访问服务。

策略三：众包市场。众包模式已成为代替人工智能科技企业收集数据的主要手段。如通过国外的亚马逊Mechanical Turk，国内的百度数据开放平台等数据众包平台可以找到承包商做数据收集工作，减少了企业雇佣数据专家的相关成本。

从发展趋势来看，未来数据并购和众包市场将逐渐成为主要的数据获取策略。相较于其他数据获取策略，这两种方式能够较为便捷地获取数据并形成质量较高的数据集。据CBInsights的数据显示，人工智能领域中关于数据的并购现象将越来越明显。而对于初创企业，由于没有足够的资金，所以这类企业已将众包市场作为主要的数据来源；同时，一些大型互联网企业也将建设数据众包平台作为发展人工智能的战略布局之一。

三、众包模式成为人工智能数据标注的基本手段

采集获取的元数据需要通过进一步的标注才能对目前大部分的人工智能算法进行训练，而对海量元数据的处理需要大量的时间成本和人力成本。

数据标注通常有人工标注和智能/人工结合标注两种方式。人工标注是借助一定可视化工具对数据进行纯人工标注，由于元数据的数据量极大，通常采用人工方式进行数据标注的工作量非常大。在处理具有一定规律性的数据时，可以采用智能/人工结合的方式，并通过智能/人工的多级迭代保证输出数据的质量。以百度高精地图为例，其数据智能处理程度已达到90%，能自动识别包括交通标志、地面标志、车道线、信号灯在内的上百种目标。但是无论采用人工标注还是智能/人工结合标注，工作量仍然是非常大的，仅靠人工智能企业自身的力量难以完成，通常需要进行数据标注任务的再分配。

目前数据标注再分配的主流方式为众包模式。在没有第三方众包平台之前，人工智能科技企业一般自行招募数据标注员进行数据处理，这种方式数据标注和质量控制的成本极高且效率低下。人工智能数据标注的外包市场于2015年真正开始，2016年下半年出现收缩，2017年又有了新一轮的爆发，目前已形成相对完整的众包产业生态。比较著名的Google Open Image Datasets、Youtube-8M、ImageNet数据集等均通过众包平台完成。

众包模式主要有“众包”和“工厂”两种类型。“众包”是把任务通过平台转接分包给网民，如百度众包、京东众智、龙猫数据等平台主要采用这种方式，适用于不敏感数据；“工厂”则是平台自己经营团队，对整个流程进行控制，适用于企业敏感数据，如贵阳梦动科技经营了一个500人的“数据工厂”，在大型团队之外，还活跃着众多三五人到十几人规模不等的数据标注“小作坊”。

众包模式的选择需平衡任务费用、质量和时间三者的关系。任务费用、质量和时间三者之间的平衡与具体的众包任务性质密切相关。美国微软雷德蒙研究院在数据任务花费与质量的平衡之间设计了基于马尔科夫决策理论的数学模型（其内部称之为知识梯度的有效算法），以此确定哪类数据需要标注和雇佣谁进行数据标注，进而解决任务花费与质量之间的关系。一般来说，质量是最重要的指标，如果没有质量，较低的费用与较少的时间都会失去意义。

四、构建人工智能数据集存在的问题和策略建议

当前在人工智能数据集的获取和标注方面仍存在四方面问题。一是在元数据获取层面，企业出于自身利益考虑，难以实现真正的数据共享，而且某些特殊领域的数据获取和使用是否合规合法存在很大的争议。二是数据标注行业仍是被具体政策支撑忽视的死角，人工智能相关政策和社会关注点主要集中在算法、应用、芯片方面，针对数据标注和众包市场的政策支撑和社会关注较少。三是第三方众包平台市场仍处于发展初期的野蛮生长状态，缺乏相关行业管理规范和行业自律精神，有可能会发生一些损害客户利益的情况，如对众包数据进行二次转售外泄等。四是目前大型企业对自有数据的保护意识越来越强，但是目前众包平台主要由人工智能科技企业建设，不存在与其他众多人工智能科技企业完全没有利害关系的第三方众包平台。

针对构建人工智能数据集存在问题的策略建议分析。一是进一步加强顶层规划设计和体系化布局，完善配套措施，加快相关政策落地，通过政策手段促进人工智能数据在企业间的共享和合理化使用。同时加强数据标注和众包市场的政策支撑，提高社会关注度。二是推动人工智能数据领域相关管理规范的制定和落实，加强行业自律精神建设，建立投诉机制，保障企业数据安全。三是建议由国家层面统筹人工智能行业资源数据集建设，探索以政府数据开放为牵引、龙头数据为基础、行业数据合作驱动，由无利益关系的第三方维护数据集并建设数据众包平台。

作者简介

王尧，中国信息通信研究院泰尔系统实验室基础产品与设施部工程师，主要研究方向为通信基础设施测试技术和标准化研究、人工智能相关技术研究。

联系方式：wangyao@caict.ac.cn。

王文跃，中国信息通信研究院泰尔系统实验室基础产品与设施部工程师，主要研究方向为通信基础设施测试技术和标准化研究、人工智能相关技术研究。

联系方式：wangwenyue@caict.ac.cn。

刘泰，中国信息通信研究院泰尔系统实验室基础产品与设施部副主任、高级工程师、ITU-T SG15专家，主要研究方向为通信基础设施测试技术和标准化研究、人工智能相关技术研究。参与多项ITU标准、国家标准、行业标准编制工作及相关课题研究项目。

联系方式：liutai@caict.ac.cn。

校审 | 陈力、珊珊

编辑 | 凌霄

欢迎转发分享！

如需转载，请联系授权事宜：

电话：010-62300198

Email：media@caict.ac.cn

精彩推荐

”

推荐阅读

数据跨境流动的风险与隐忧

物联网网络信息安全问题浅析

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！