浅谈以数据为中心的人工智能

原创张晴晴博士 DataFunTalk 2023-04-01

收录于合集

导读：Magic Data 创立于 2016 年，是一家全球领先 AI 数据解决方案提供商，为人工智能领域、研发企业和科研机构提供智能化标注平台、AI 数据集和采标服务三大核心产品。创始人张晴晴博士毕业于中科院，在人工智能领域从业已经近 20 年，本次带来题为《浅谈以数据为中心的人工智能》的分享，主要内容分为：

公司介绍
以数据为中心的 AI
Data-Centric MLOps 介绍
汽车行业应用实践
总结

分享嘉宾｜张晴晴博士 Magic Data 创始人兼CEO

编辑整理｜徐韵婉

出品平台｜DataFunTalk

公司介绍

Magic Data 是一家全球领先 AI 数据解决方案提供商，为人工智能领域研发企业和科研机构提供智能化标注平台、AI 数据集和采标服务三大核心产品，产品涵盖智慧出行、智慧金融、智能社交、智能家居、智能终端等五大行业，迄今服务了微软、高通、英伟达、阿里巴巴、百度、腾讯等国内外近 200 家合作伙伴。

以数据为中心的 AI

1. AI 新趋势

以数据为中心的人工智能是在近年来所提出的一个新名词。过去传统的人工智能是以模型为中心的，在这样的过程中大家更关注如何设计并训练更好的模型。但随着开源框架不断落地之后，大家开始关注数据能够带来的提升。以数据为中心的 AI 也成为了 AI 的新趋势：

经典路线（以模型为中心的人工智能）：关心如何迭代模型来提高效能
新趋势（以数据为中心的人工智能）：关心如何系统性地迭代数据输入和数据标签来提高效能

2. 优质数据的重要性

AI 系统的核心是训练的框架加上数据。在实际的工程应用中我们发现，AI 系统落地效果的好坏只有 20% 取决于算法，80% 取决于数据的质量。可以说数据是 AI 的“原油”。因此我们应该更加关注数据层面。

AI 需要优质的数据，而优质数据包括以下几个方面：

覆盖面广：只有获取的数据量足够多且覆盖范围足够广泛，AI 才能更好地进行学习和推理
多维度：数据标签的维度越多，越能对事物进行更加精细地刻画
时效性：不同的年份，不同的时间段采集的数据具有不同的价值
高精度：数据的精度不是越高越好，要根据成本进行取舍
合规性：只有当合规性存在时，数据其余的价值才会体现

Data-Centric MLOps 介绍

以“数据为中心的 AI”是 AI 的未来，而 MLOps 是实现“以数据为中心的 AI”高效系统的方法论。

1. MLOps 需要多方合作共建生态

机器学习的运维闭环（MLOps)，是指将数据的获取、测试、建模以及推理包含在一个完整的系统中。而这个机器学习运维闭环是要以数据为中心的。它几乎融合了目前大家所了解的全部的人工智能技术，在这样一个系统里面，不可能有任何一家企业来独立完成，它一定将是一个生态的概念，需要是多的伙伴一起手拉手来去完成这个闭环。

2. MLOps 的构成

在机器学习的运维闭环中，Magic Data 的核心能力是数据的采集、标注以及数据的检索，同时与多方伙伴的合作共同完成机器学习的运维闭环。

机器学习的运维闭环主要由以下几个步骤构成：

场景定义：首先要明确需要解决的问题是什么，这通常由行业专家来完成
数据采集：制定数据采集的标准，实施数据采集
数据标注：结合行业专家的行业经验进行多维度、高精度数据标注
再通过训练模型迭代数据直到达到生产标准
最后进行线上投产，这就形成了机器学习的运维闭环

整个系统耦合了非常多的专家经验。比如模型训练涉及了大量的参数调整，数据标注模块的标签体系也在不断更新迭代。整个系统也随着它的运行不断地注入更多的专家知识，不断更新升级。

汽车行业应用实践

在汽车行业，智能座舱是一个相对可落地的 AI 应用场景。智能座舱可以极大程度优化人在车里面的交互感知，使人们感知到车不再是一个冷冰冰的机器，而是可以和车内人员进行温暖交互，甚至可以作为一个助手。

1. 场景定义

智能座舱落地场景中我们最为熟悉的一类就是人机交互，比如导航、车控、音乐选择等。在这里会涉及到语音识别技术，自然语言处理，语音合成技术等等。但车中存在噪音，或者发音不标准等情况，会造成人机交互无法理解、无法听清。

2. 数据采集

基于上述提到的背景和问题，我们首先要做的就是听懂人在说什么，我们需要对座舱数据进行收集。数据采集过程通过 Magic Data 自研的众包平台来完成。通过在平台上面发布相应的数据采集的项目，然后 C 端的录音人员提交录音语料来采集相应的数据。

3. 数据标注

在模拟数据采集到之后，我们就要对这些数据进行标注。数据标注通过 Magic Data自研的 Annotator 智能化标注平台来完成。

数据标注主要分为三个场景：

ASR-语音数据标注：对采集到的语音数据进行高维度标注。比如语音录入者的性别、年龄、是否有口音等等。

域控制器-意图槽位分析：智能座舱内的语音指令要对应到域控制器的行为，首先要对语音信息进行意图槽位分析。比如在“来一首王心凌的《爱你》”中，意图是“播放音乐”，“王心凌”是歌手，“《爱你》”是音乐。经过意图槽位分析之后，就可以把需要完成的动作传达给域控制器。

OMS-图像标注：智能座舱里面很重要的一个应用场景就是乘客的行为监控（OMS），主要是在驾驶过程中关注乘客有没有出现一些异常情况。比如一些安全预警，或者驾驶员出现打瞌睡，或者后座有没有小朋友把头探出去等等。在对该类场景的模拟数据进行准备的时候，需要对人的姿态、人脸等等进行标注。

4. 训练模型

完成了数据的采集和标注之后，就是模型训练部分。Magic Data 认为所有的模型训练应该是去中心化的形态，每一家企业应该享有自己最独特的训练模型。Magic Data 会与客户一起构建机器学习运维闭环，最重要的一点就是数据和客户模型进行对接。

Annotator®智能标注平台提供了 API 来对接外部预识别模型。

训练模型对接的三种模式：

其他第三方提供模型
MD 生态伙伴提供模型
MD 自研模型

下图是一个模型对接接口的示例：

5. 实验效果

经过在机器学习运维闭环里的不断迭代，从 3000 小时的数据量不断迭代耦合得到了30000 小时的数据量之后，三个场景下的识别性能都大大提升：

客服对话：识别率提升提升 5%
直播社交：识别率提升提升 9%
车载导航：识别率提升提升 11%

由此可见，通过运维闭环确实可以不断提高识别性能。

6. MLOps 对智能座舱应用的性能提升

通过提供上万小时的 Magic Data 的对话成品数据集，显著提升了智能座舱内的软件性能：自然风格的语音识别错误率降低了 30%，噪音环境下的人机交互识别错误率降低了 10%。

总结

Data-Centric AI 相比于对模型的调优，更强调对数据的管理
AI 模型只有在业务闭环中更新迭代，才可以获取持续性优化
数据是解决 AI 的难点和重点，目前算法工程师有 80% 在解决数据问题
Data-Centric MLOps 可以降低机器学习技术门槛，帮助业务快速实现智能化

今天的分享就到这里，谢谢大家。

｜分享嘉宾｜

｜往期文章推荐｜

搜推广｜知识图谱｜NLP｜智能风控｜数据科学

决策智能｜图机器学习｜AI基础设施｜数字人

数据治理｜隐私计算｜大数据存储｜大数据计算

多维分析｜大数据基础设施｜产品经理

｜免费直播&资料｜

｜DataFun新媒体矩阵｜

｜商务合作｜

｜关于DataFun｜

专注于大数据、人工智能技术应用的分享与交流。发起于2017年，在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会，已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+，百万+阅读，15万+精准粉丝。

🧐 分享、点赞、在看，给个3连击呗！👇

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

浅谈以数据为中心的人工智能

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

浅谈以数据为中心的人工智能

您可能也对以下帖子感兴趣