疫情排查节时86%？不会代码也能玩转模型训练？腾讯大神揭秘语音语义及AutoML黑科技 | 内含福利 | 自由微信

疫情排查节时86%？不会代码也能玩转模型训练？腾讯大神揭秘语音语义及AutoML黑科技 | 内含福利

Original Aholiab AI科技大本营 2020-12-18

出品 | AI科技大本营（ID:rgznai100）

2020年7月3日，AI ProCon 2020 AI开发者万人大会，隆重举行！作为CSDN策划并主办的系列技术「开发者大会」之一，本次大会通过线上直播的方式，吸引到了10000+开发者/学习者、100+一线大厂AI技术领袖及核心业务线负责人参与，共话AI技术风云。

为了给开发者提供一站式的学习平台，本次大会一次性设置了6大主题论坛，20大精彩主题，AI技术、生态、行业、应用、职业规划、投融资等话题全覆盖。作为「技术大会」，AI ProCon 2020在技术议题的设置上也下足了功夫，兼顾了经典技术领域和开发者关注度较高的前沿技术领域，例如语音语义识别和AutoML等。

语音语义识别作为人工智能领域中的经典分支，以其应用面广，技术发展相对成熟等特点，长期受到开发者和学习者的追捧；而AutoML凭借其可以大量释放机器学习中人工干预的成分，近年来受到越来越多企业的重视。

为了让开发者更好地了解语音语义技术及AutoML技术的最新进展、应用场景，及技术原理。本届「AI ProCon 2020大会」邀请了两位来自腾讯的高级工程师——纪友升、赵勇皓，作为在上述领域拥有丰富经验的技术专家，他们深入浅出的分享，博得了参会者的好评。

不仅如此，为了帮助开发者会后能够快速上手，他们还带来了两大专属福利！（福利党直接扫描文末二维码，即可领取）。

下面我们就一起回顾下这两位大咖的演讲干货吧~

从疫情看语音语义技术在政务联络场景下的使用

2020年，一场突如其来的疫情给政务联络工作带来了新挑战，由于疫情影响地域广、人员多、环境复杂等特点，各级机关在进行辖区居民情况排查、重点人员情况跟踪、疫情信息通知等工作时面临巨大的压力。以辖区居民情况排查为例，传统的人工方式只能一天呼叫数个小时；排查、通知任务层层下发，导致任务启动慢；在收集完信息之后，由人工手动记录，不仅耗时较长，而且结果还容易受主观判断的影响。

在这一背景下，腾讯云AI语音语义与应用平台团队第一时间研发出了「政务联络机器人」，希望能通过AI技术的加持，提提升政务联络的效率。先看一组对比：

从上图可以看出，在2000人排查任务中，20个工作人员要花费7.3个小时，而政务联络机器人则只需要一小时，节约了86.3%的排查时间。

「政务联络机器人」是什么？

简单来说，「政务联络机器人」可以代替人工完成疫情相关通知和电话排查等任务。工作人员只需要在腾讯云智能联络平台上完成三步操作，机器人即可运行：

1. 选择工作任务（通知或排查）；

2. 上传联系人电话；

3. 确认通知内容或需排查的问题；

机器人不仅能够电话通知，还可以与通话者行对话，并从通话者的语言中获取关键信息，从而判断出对方是否是「可疑人员」。

机器人背后的语音语义技术

既然是「联络机器人」，能听懂话、会说话、能用更自然的语音语调和句法「说话」是基本要求，要达到这一目标，背后涉及到三个核心技术，即语音识别、语义理解、语音合成。为了让「联络机器人」更好地完成电话场景下的联络任务，腾讯云技术团队在技术上做了很多新尝试。

1. 语音识别

首先是语音识别，完整的语音识别对话系统如下图所示：

云系统识别到用户语音之后，生成语音文本并进入语义理解模块，对用户语言的意图和词槽进行理解之后，进入到对话管理模块。对话管理模块会对整个对话的流程进行把控，并在对用户意图和词槽理解的基础上，生成回复文本；最终，文本通过语音合成（TTS）形成语音，回复给用户。

然而在语音识别的过程中，最大的挑战在于VAD断句策略（即如何判断用户的一句话是否说完）、实时性和准确率。

在VAD断句策略方面，腾讯云技术团队通过以下三种方式来对断句策略进行调优：

1. VAD阈值：判断用户一句话后静音的时间，从而判断机器人是否该进行回复；

2. 降噪：对用户所处环境的背景噪音进行降噪，将用户语音从噪音中剥离；

3. 用户打断：在用户说完一句话停顿了较长时间继续说的情况下，机器人可以允许用户打断回复。

在实时性方面，由于电话场景下对于即时回复的要求较高，如果语音被转成文本后再去识别，无疑会大大降低对话的流畅性。为了提高实时性，「联络机器人」采用流式语音识别，省去了语音转文本的步骤。流式识别以每200毫秒的频率，对用户的语音做一次分片并上传到云服务器，在用户说话的同时，云服务器即可完成对语音内容的识别。

在语音识别准确率方面，腾讯云团队使用了目前业界较为先进的「热词、自学习模型」，对语音识别中声学模型及语言模型进行调优，确保识别准确率高于行业平均水准。

2. 语义理解

语义理解的核心是意图分类和槽位提取，比如「我上周去过武汉」，可以提取为：

意图：去过
地点：武汉
时间：上周

传统的做法是建立一个原始模板，对时间、返回的关键时和词槽进行定义。但这种模板的泛化能力非常的差，一旦用户的句子里多了或少了一个字，就无法准确识别；还有人通过机器学习的方式进行语义理解，但这种方式则需要大量的标注语料，对于初创项目不是特别友好。

而腾讯云团队则采用了「模板+模型」结合的方法，在冷启动阶段先定义一些模板快速启动，启动之后则可以通过模型来提升整体的效果；再通过对其他语义理解技术的应用，如分词、词性标注、NER等解析语句中的关键词和词槽；最后再通过去口语化、同义词挖掘与泛化、纠错、改写等辅助优化的手段，实现最终的效果

3. 语音合成

语音合成的目标是让电子音变得更接近人声，主要包括音色、拟真度、韵律等。目前腾讯云AI语音语义与应用平台的语音合成技术，已可以支持中文、英文、中英混读等语种；并且支持5种男声、9种女声，并且支持音色定制。

腾讯云，教你如何玩转语音识别

介绍完腾讯云语音语义的相关技术，相信你一定也想了解这些技术除了「政务联络机器人」外，还有哪些应用场景？其实，腾讯云早已将语音识别、语音合成、自然语言处理等技术能力释放，目前这些技术已应用在了多个产品和场景中。

先说语音识别，它的应用非常广泛，包括输入法、语音消息转写、音视频打标签/审核等。目前该服务已应用在多个知名产品和业务中，如下图所示：

此外，语音识别在客服电话质检中的应用比例也越来越高。在一个客户案例中，相比于传统的人工质检，语音识别技术可以提升250%的效率，减少质检团队规模（原先50人的质检团队可减少到12人，人力释放投入到其他产值更高的岗位），并且为企业节约综合成本约2000+万/年。

腾讯云语音识别服务目前支持中文、英语、韩语，以及粤语（方言），可以通过API、SDK、小程序插件、云函数等方式快速接入。

再说说腾讯云的语音合成，正如上面所说腾讯云的语音合成已经可以支持多语种、多音色的实现。不仅如此，它还支持基础语音合成（适用于较短的文本）、流式语音合成（适用于较长且实时性要求较高的文本）、语速调节（0.6-1.5倍）、音量调节（11档）等功能。

目前，语音合已为多个新闻客户端、资讯客户端、教育类应用、阅读类应用进行赋能。让用户在使用这些应用的时候，除了浏览，还可以「听见」对他们有价值的内容

最后是自然语言处理，它的应用面就更广了，腾讯云的自然语言处理，可对分词、情感分析、文本纠错、关键词提取、同义词等进行支持，从而大大降低开发者在处理这些流程上的时间。而自然语言处理几乎可以被应用到任何场景中，包括游戏、金融、教育等。

【专场特惠，福利时刻！】

看了上面的技术干货，想亲自体验一下？

原价90元的实时语音识别、一句话识别、录音文件识别服务，

大会期间通通9.9元！

另有腾讯云智能语音产品专享体验通道，

赶紧扫码试试吧！

智能语音产品体验

语音识别1折特惠

人人都能成为「炼金术师」，揭秘腾讯AutoML

AutoML是近年来比较火的话题之一，在腾讯云高级工程师赵勇皓的分享中，他开宗明义为大家科普了AutoML的起源。在机器学习过程中，算法工程师会花很多时间来调参数，整个过程非常单调，大家也都戏称他们为「炼丹师」。于是工程师们想到，是不是能用算法来解决「算法的问题」，从而解放一部分人力。AutoML的本质说的通俗点，就是用魔法来打败魔法。

然而算法调参只是AutoML试图优化的其中一个场景，实际上机器学习的整个过程中，都涉及了大量的人工干预，包括数据预处理、特征提取、模型选择、算法算则等。如何就这些过程进行自动化的学习，减少人工的干预是AutoML的关键。

通常来说，AutoML需要具备3个特征：

Better performance；（比人工更好的调参效果）
No human assistance；（更少的人工参与）
Lower computation budgets。（更少的计算资源使用）

为了加速机器学习的生命周期和模型的服务化，腾讯云推出了「腾讯智能钛机器学习」（TI-ONE，以下简称「智能钛」），智能钛是一站式机器学习解决方案。它整合了数据预处理平台、支持主流机器学习框架、内置常用算法，并且支持自动调参和多个层面的协作。赵勇皓将它形象的称为「腾讯云上的机器学习IDE」。

让新手也能玩转AI算法

通常，用户在模型调优、算法、计算框架方面会面临调参久、算法上手门槛高，以及计算框架维护繁琐等问题。针对这些问题，智能钛提供了自动调参、常用算法，以及各框架各版本等功能。无论是AI算法新手、非算法人员还是算法专家都能快速上手。真正做到让每个人都成为「炼金术师」。

智能钛拥有拥有以下6大特点：

1. 拖拽式任务流设计；

2. 运行模式灵活；

3. 支持多种机器学习框架；

4. 内置丰富机器学习算法；

5. 便捷的效果可视化；

6. 强大的团队协作和分享。

拖拽式任务流设计：数据、算法、组件直接拖拽，所见即所得。例如以下面的「数据分类任务」为例，用户在智能钛的界面中拖入数据集，并设定好迭代时间、目标准确率等基本参数后，系统即会自动帮用户选择最适合的模型。

此外，拖拽的节点还可以自动连线，用户还可以根据需要自定义工作流，也可多个模型并行训练，让训练事半功倍。

运行模式灵活：智能钛支持根据运行资源进行调度策略的设定，包括并行、串行；支持带参数运行，包括参数设定，以及提供数值型、枚举型的参数运行设置；支持周期性调度和定时调度；支持历史实例的详情查看、模型对比和续跑。

支持多种机器学习框架：包括Spark、Pyspark、TensorFlow、PyTorch、xgBoost、Caffe、Angel、torch、BigDL等。

支持多种机器学习算法：无论是特征工程中的离散、归一、降维；还是非深度学习中的回归、聚类、分类；还是深度学习中经典的CNN、DNN、RNN；亦或是图算法中的PageRank、LPA、KCore……智能钛全都覆盖。

效果可视化，多样的数据表现形式：数据结构化预览、直方图、柱状图、散点图、饼图……让用户快速掌握数据本质。

团队协作和分享：智能钛为用户提供了「模型集市」和「数据集市」两大开发者生态，在模型集市中，用户可以对模型进行收藏、复用；而在数据集市中，用户则可以对数据进行存放、标注。这两大生态让开发者对模型和数据的使用，像在应用商店使用App那样便捷。

目前，智能钛在金融、教育、商业、政务等领域都有广泛的应用。例如在金融领域中，智能钛帮助金融机构建立用户购买行为预测模型，及客户流失率预警模型；在商业场景中，帮助园区提高车牌、车标、垃圾桶等识别效果。

在分享的最后，赵勇皓也为开发者带来了智能钛的福利！如果你是算法工程师、AI学习者、想要引入AI技术的企业、开设AI课程的高校，那么这个福利一定不能错过！

扫描下方二维码参与问卷，

即可获得免费使用的机会！

AI 和中国正在成为未来科技世界关键词，每一位开发者都将是这股浪潮的亲历者和推动者。让我们一起学习AI技术，加速这一过程吧！

【本文所有福利集合】

智能语音、语音识别、智能钛福利大放送！

羊毛等你来薅~

智能语音产品体验

语音识别1折特惠

智能钛（TI-ONE）免费使用

推荐阅读

你点的每个“在看”，我都认真当成了AI

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足