查看原文
其他

观点分享 | 百度智能云数据应用业务部产品经理张晓晓:AI数据的全生命周期质量管理

AIIA 人工智能产业发展联盟AIIA 2022-07-05

2021年12月30日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的 “AI数据治理技术沙龙”以腾讯会议的方式进行。来自百度智能云数据应用业务部产品经理张晓晓就AI数据的全生命周期质量管理进行了介绍,分享了数据服务中对质量控制的实践与思考。


以下为演讲实录:


01AI数据的生命周期和质量管控

人工智能数据的生命周期包括数据采集、数据加工、数据管理和运营流通四个阶段。数据采集的目标是采集原始的AI数据和少量的数据标签,并对数据进行处理,包括分类、清洗和标注,其中标注过程会占用大量时间和人力资源。企业在获得成品数据之后会面临数据管理的问题,同时也要对AI数据的应用、模型训练和数据流通进行管理。张晓晓强调生命周期中最重要的环节是质量管控数据安全管控


传统的质量管控在各个过程中的验收环节进行质量管控,但是如果采用比较严格的验收标准,只会获得少量的合格数据。为了质量和效率兼得,百度提出在AI数据的全生命周期中进行质量管控,为业内提供更好的AI数据,加速数据价值释放,更好的释放自己的价值。


02数据质量管理的三个方法

1、使用先进的自动化工具。将AI技术赋能于各个流程节点,使用内部的算法技术,充分运用到服务中。


2、使用智能化的调度机制。数据质量实时指导项目实施,线上化、流程化的数据可以通过调度机制进行管理与任务调控,以此保证数据的质量。


3、执行精细化的资源管理。重视人力资源,充分释放“人”力价值。


03高质量高效率的数据采集服务


数据采集阶段是难度高,成本高,时间长的过程。百度对资源、项目、质量控制成立单独分组,共同制定数据采集方案。在样本选择阶段对数据实施精细化管理,对样本进行标签化管理、筛选,使用算法对数据进行先验准入,将不符合的数据剔除。进入采集环节后,百度会充分使用AI技术和自动化能力,采用自研的采集工具完成采集工作,避免复杂的培训、操作失误带来的负能问题,使用本地化自动校验预先对数据进行检查,避免重复数据进入验收环节。在原始数据验收环节中,百度积累了数十种自动化质检工具,比如图像识别,音频空白阶段检测等,解决了人力无法解决的问题。


04高效的质量控制和项目管理


张晓晓提到传统的标注方法是采用外部标注员的方式,目前正在向标注基地标注员的方式转变。标注基地标注员是一种员工机制,实施企业级的绩效管理,以此保证标注人力的能力和质量。百度会对标注员进行培训、练习和考试,使用进入白名单的人员进行标注作业,同时也会实时进行质量监控,保证数据的质量。标注作业采用标注前预标注算法、标注中辅助标注算法、标注后自动质检算法,可将效率提升60%。


05数据集管理流程


对于一些已经积累了大量AI数据的公司、数据交互不足、数据使用效率低、存储方式不统一等问题,为了更好的对数据进行治理,挖掘数据的使用价值,百度提出了一套数据集管理流程。


数据集管理流程包括数据归档、分类、数据集加工、数据使用四个阶段。数据归档侧重更多业务部门,更多类型,更多数据库的数据进行接入,同时实施严格的数据权限管理,并对原始数据进行合并和拆分。分类分级决定了数据集的价格和使用方式,对数据集使用的价值和应用方向进行判断,并对使用权限进行分级。在数据集加工过程中,充分挖掘数据的价值,并将数据汇入资源池。在数据使用过程中,将过期和低质量数据淘汰,并随时补充新数据。









2022年1月,人工智能关键技术和应用评测工业和信息化部重点实验室工程化推进委员会正式成立,该委员会将聚集产业各方力量,以产业活动、研究报告、标准和评测、最佳实践等手段推动人工智能工程化相关的额工具、系统、流程和治理体系的完善。


AI数据治理工作组




面向人工智能数据集涉及到的采集、处理、质检、管理、共享和安全等全生命要素,对数据集项目质量、系统工具平台、生态建设以及交付组织建设、制度规范、人员意识、技术能力、管理流程等进行研究和标准制定。欢迎关注AI数据治理的企业加入工作组,就标准制定、评估测试、研究报告和产业活动展开合作交流。


联系人:李老师 18611353631


往期推荐:




中国信通院“AI产品研发原生可信评估”正式启动


关于征集人工智能关键技术和应用评测工信部重点实验室工程化推进委员会参与单位的通知


中国信通院筹建“内容科技产业推进方阵” 招募成员单位


关于征集《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准起草单位的通知


AIIA DNN benchmark v0.7-2021年结果发布

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存