查看原文
其他

浅谈以数据为中心的人工智能

张晴晴 博士 DataFunTalk 2023-04-01

导读:Magic Data 创立于 2016 年,是一家全球领先 AI 数据解决方案提供商,为人工智能领域、研发企业和科研机构提供智能化标注平台、AI 数据集和采标服务三大核心产品。创始人张晴晴博士毕业于中科院,在人工智能领域从业已经近 20 年,本次带来题为《浅谈以数据为中心的人工智能》的分享,主要内容分为:

  • 公司介绍

  • 以数据为中心的 AI

  • Data-Centric MLOps 介绍

  • 汽车行业应用实践

  • 总结

分享嘉宾|张晴晴博士 Magic Data 创始人兼CEO

编辑整理|徐韵婉

出品平台|DataFunTalk


01

公司介绍

Magic Data 是一家全球领先 AI 数据解决方案提供商,为人工智能领域研发企业和科研机构提供智能化标注平台、AI 数据集和采标服务三大核心产品,产品涵盖智慧出行、智慧金融、智能社交、智能家居、智能终端等五大行业,迄今服务了微软、高通、英伟达、阿里巴巴、百度、腾讯等国内外近 200 家合作伙伴。
02
以数据为中心的 AI
1. AI 新趋势
以数据为中心的人工智能是在近年来所提出的一个新名词。过去传统的人工智能是以模型为中心的,在这样的过程中大家更关注如何设计并训练更好的模型。但随着开源框架不断落地之后,大家开始关注数据能够带来的提升。以数据为中心的 AI 也成为了 AI 的新趋势:
  • 经典路线(以模型为中心的人工智能):关心如何迭代模型来提高效能
  • 新趋势(以数据为中心的人工智能):关心如何系统性地迭代数据输入和数据标签来提高效能
2. 优质数据的重要性

AI 系统的核心是训练的框架加上数据。在实际的工程应用中我们发现,AI 系统落地效果的好坏只有 20% 取决于算法,80% 取决于数据的质量。可以说数据是 AI 的“原油”。因此我们应该更加关注数据层面。
AI 需要优质的数据,而优质数据包括以下几个方面:
  • 覆盖面广:只有获取的数据量足够多且覆盖范围足够广泛,AI 才能更好地进行学习和推理
  • 多维度:数据标签的维度越多,越能对事物进行更加精细地刻画
  • 时效性:不同的年份,不同的时间段采集的数据具有不同的价值
  • 高精度:数据的精度不是越高越好,要根据成本进行取舍
  • 合规性:只有当合规性存在时,数据其余的价值才会体现
03
Data-Centric MLOps 介绍
以“数据为中心的 AI”是 AI 的未来,而 MLOps 是实现“以数据为中心的 AI”高效系统的方法论。
1. MLOps 需要多方合作共建生态

机器学习的运维闭环(MLOps),是指将数据的获取、测试、建模以及推理包含在一个完整的系统中。而这个机器学习运维闭环是要以数据为中心的。它几乎融合了目前大家所了解的全部的人工智能技术,在这样一个系统里面,不可能有任何一家企业来独立完成,它一定将是一个生态的概念,需要是多的伙伴一起手拉手来去完成这个闭环。
2. MLOps 的构成

在机器学习的运维闭环中,Magic Data 的核心能力是数据的采集、标注以及数据的检索,同时与多方伙伴的合作共同完成机器学习的运维闭环。
机器学习的运维闭环主要由以下几个步骤构成:
  • 场景定义:首先要明确需要解决的问题是什么,这通常由行业专家来完成
  • 数据采集:制定数据采集的标准,实施数据采集
  • 数据标注:结合行业专家的行业经验进行多维度、高精度数据标注
  • 再通过训练模型迭代数据直到达到生产标准
  • 最后进行线上投产,这就形成了机器学习的运维闭环
整个系统耦合了非常多的专家经验。比如模型训练涉及了大量的参数调整,数据标注模块的标签体系也在不断更新迭代。整个系统也随着它的运行不断地注入更多的专家知识,不断更新升级。
04
汽车行业应用实践

在汽车行业,智能座舱是一个相对可落地的 AI 应用场景。智能座舱可以极大程度优化人在车里面的交互感知,使人们感知到车不再是一个冷冰冰的机器,而是可以和车内人员进行温暖交互,甚至可以作为一个助手。
1. 场景定义
智能座舱落地场景中我们最为熟悉的一类就是人机交互,比如导航、车控、音乐选择等。在这里会涉及到语音识别技术,自然语言处理,语音合成技术等等。但车中存在噪音,或者发音不标准等情况,会造成人机交互无法理解、无法听清。
2. 数据采集
基于上述提到的背景和问题,我们首先要做的就是听懂人在说什么,我们需要对座舱数据进行收集。数据采集过程通过 Magic Data 自研的众包平台来完成。通过在平台上面发布相应的数据采集的项目,然后 C 端的录音人员提交录音语料来采集相应的数据。
3. 数据标注
在模拟数据采集到之后,我们就要对这些数据进行标注。数据标注通过 Magic Data自研的 Annotator 智能化标注平台来完成。
数据标注主要分为三个场景:
  • ASR-语音数据标注:对采集到的语音数据进行高维度标注。比如语音录入者的性别、年龄、是否有口音等等。

  • 域控制器-意图槽位分析:智能座舱内的语音指令要对应到域控制器的行为,首先要对语音信息进行意图槽位分析。比如在“来一首王心凌的《爱你》”中,意图是“播放音乐”,“王心凌”是歌手,“《爱你》”是音乐。经过意图槽位分析之后,就可以把需要完成的动作传达给域控制器。

  • OMS-图像标注:智能座舱里面很重要的一个应用场景就是乘客的行为监控(OMS),主要是在驾驶过程中关注乘客有没有出现一些异常情况。比如一些安全预警,或者驾驶员出现打瞌睡,或者后座有没有小朋友把头探出去等等。在对该类场景的模拟数据进行准备的时候,需要对人的姿态、人脸等等进行标注。

4.  训练模型
完成了数据的采集和标注之后,就是模型训练部分。Magic Data 认为所有的模型训练应该是去中心化的形态,每一家企业应该享有自己最独特的训练模型。Magic Data 会与客户一起构建机器学习运维闭环,最重要的一点就是数据和客户模型进行对接。
Annotator®智能标注平台提供了 API 来对接外部预识别模型。
训练模型对接的三种模式:
  • 其他第三方提供模型
  • MD 生态伙伴提供模型
  • MD 自研模型
下图是一个模型对接接口的示例:

5.  实验效果

经过在机器学习运维闭环里的不断迭代,从 3000 小时的数据量不断迭代耦合得到了30000 小时的数据量之后,三个场景下的识别性能都大大提升:
  • 客服对话:识别率提升提升 5%
  • 直播社交:识别率提升提升 9%
  • 车载导航:识别率提升提升 11%
由此可见,通过运维闭环确实可以不断提高识别性能。
6. MLOps 对智能座舱应用的性能提升

通过提供上万小时的 Magic Data 的对话成品数据集,显著提升了智能座舱内的软件性能:自然风格的语音识别错误率降低了 30%,噪音环境下的人机交互识别错误率降低了 10%。
05
总结
  • Data-Centric AI 相比于对模型的调优,更强调对数据的管理
  • AI 模型只有在业务闭环中更新迭代,才可以获取持续性优化
  • 数据是解决 AI 的难点和重点,目前算法工程师有 80% 在解决数据问题
  • Data-Centric MLOps 可以降低机器学习技术门槛,帮助业务快速实现智能化

今天的分享就到这里,谢谢大家。


|分享嘉宾|

|往期文章推荐|

搜推广知识图谱NLP智能风控数据科学

决策智能图机器学习AI基础设施数字人

数据治理隐私计算大数据存储大数据计算

多维分析大数据基础设施产品经理

|免费直播&资料|

|DataFun新媒体矩阵|

|商务合作|

|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。

🧐 分享、点赞、在看,给个3连击呗!👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存