观点分享 | 云测数据总经理贾宇航:AI数据高质交付的背后——服务、技术与流程介绍
2021年12月30日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的 “AI数据治理技术沙龙”以腾讯会议的方式进行。云测数据总经理贾宇航对AI数据高质交付背后的服务、技术与流程介绍进行了介绍。
01 行业趋势与痛点
人工智能从1956年首次提出到现如今第三次浪潮期,正在经历工程化过程。随着人工智能走向产业落地,对数据标注提出了更高的要求。现在已经有很多AI的产品化应用,这背后实际上是人工智能的三大基石:数据、算法、算力。AI数据的演进过程也伴随着自身选择的演化,体现在数据多维化、场景多元化、样本多样化、内容专业化、作业精细化、作业高效化等方面。
AI数据伴随着产品的迭代周期,也会有自身的演化。云测数据分析了一些企业对算法研发的过程,企业在算法的预研期需要数据集进行验证,在算法研发阶段,结合自己的场景和服务化的样本进行数据采集、清洗、标注,在算法部署后,根据用户的反馈进行算法修改,完善算法。
贾宇航提到,人工智能数据服务行业的应用场景愈发细分化、专业化,从业人员要具备领域知识,算法的精度要求更高。AI技术伴随产品化过程,对交付工期及质量要求变高。目前人工智能数据服务的痛点有:
1、数据行业门槛低,行业交付标准质量参差不齐。
2、行业内普遍企业对于定制化采集的构建能力欠缺。
3、输出高质量标注数据的管理能力欠缺,工具不足。
4、行业内公司规模普遍偏中小,交付工期难以掌控。
贾宇航提到,人工智能趋向于产业化,数据服务也要趋向于产业化。云测数据在各行各业积累了产业化的经验与能力,包括开发对应的工具链以应对不同行业的产业需求。云测数据在智慧金融、智能驾驶、智能安防和智能家居等方面可为众多企业提供定制化的解决方案,可应用在不同种类的落地场景中。
贾宇航强调,人工智能时代下,数据是重要一环,推动着算法的应用。算法是一项技术,不独立存在,需要嵌入到工程研发中,再通过市场的运营和竞争赢得相应的份额。在算法的研发中,从场景定义到算法部署,都与数据企业息息相关。
云测数据的发展策略是将产研做到全面覆盖,率先形成AI训练数据的“采、标、管、存”一站式服务,实现了从“数据原料”到最后的“数据成品”全链条打通,全方位赋能AI开发中数据引入这一环节。目前。云测数据已经建立了数据产品、数据处理工具与数据服务的“三螺旋”,为智能驾驶、智慧城市、智能IOT、智慧金融等行业提供高效率、高质量、多维度、场景化的数据服务与策略,最大化发挥训练数据的价值。其中,云测数据的工具链已经覆盖完整的AI数据全生命周期,包括多端数据融合、预设引导流程等。云测数据正在持续引领行业,推动行业发展。
2022年1月,人工智能关键技术和应用评测工业和信息化部重点实验室工程化推进委员会正式成立,该委员会将聚集产业各方力量,以产业活动、研究报告、标准和评测、最佳实践等手段推动人工智能工程化相关的额工具、系统、流程和治理体系的完善。
面向人工智能数据集涉及到的采集、处理、质检、管理、共享和安全等全生命要素,对数据集项目质量、系统工具平台、生态建设以及交付组织建设、制度规范、人员意识、技术能力、管理流程等进行研究和标准制定。欢迎关注AI数据治理的企业加入工作组,就标准制定、评估测试、研究报告和产业活动展开合作交流。
联系人:李老师 18611353631
关于征集人工智能关键技术和应用评测工信部重点实验室工程化推进委员会参与单位的通知
关于征集《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》标准起草单位的通知
AIIA DNN benchmark v0.7-2021年结果发布