查看原文
其他

疫情排查节时86%?不会代码也能玩转模型训练?腾讯大神揭秘语音语义及AutoML黑科技 | 内含福利

Aholiab AI科技大本营 2020-12-18

出品 | AI科技大本营(ID:rgznai100)


2020年7月3日,AI ProCon 2020 AI开发者万人大会,隆重举行!作为CSDN策划并主办的系列技术「开发者大会」之一,本次大会通过线上直播的方式,吸引到了10000+开发者/学习者、100+一线大厂AI技术领袖及核心业务线负责人参与,共话AI技术风云。

 

为了给开发者提供一站式的学习平台,本次大会一次性设置了6大主题论坛,20大精彩主题,AI技术、生态、行业、应用、职业规划、投融资等话题全覆盖。作为「技术大会」,AI ProCon 2020在技术议题的设置上也下足了功夫,兼顾了经典技术领域和开发者关注度较高的前沿技术领域,例如语音语义识别和AutoML等。

 

语音语义识别作为人工智能领域中的经典分支,以其应用面广,技术发展相对成熟等特点,长期受到开发者和学习者的追捧;而AutoML凭借其可以大量释放机器学习中人工干预的成分,近年来受到越来越多企业的重视。

 

为了让开发者更好地了解语音语义技术及AutoML技术的最新进展、应用场景,及技术原理。本届「AI ProCon 2020大会」邀请了两位来自腾讯的高级工程师——纪友升、赵勇皓,作为在上述领域拥有丰富经验的技术专家,他们深入浅出的分享,博得了参会者的好评。

 

不仅如此,为了帮助开发者会后能够快速上手,他们还带来了两大专属福利!(福利党直接扫描文末二维码,即可领取)

 

下面我们就一起回顾下这两位大咖的演讲干货吧~

 

 


从疫情看语音语义技术在政务联络场景下的使用

 

2020年,一场突如其来的疫情给政务联络工作带来了新挑战,由于疫情影响地域广、人员多、环境复杂等特点,各级机关在进行辖区居民情况排查、重点人员情况跟踪、疫情信息通知等工作时面临巨大的压力。以辖区居民情况排查为例,传统的人工方式只能一天呼叫数个小时;排查、通知任务层层下发,导致任务启动慢;在收集完信息之后,由人工手动记录,不仅耗时较长,而且结果还容易受主观判断的影响。

 

在这一背景下,腾讯云AI语音语义与应用平台团队第一时间研发出了「政务联络机器人」,希望能通过AI技术的加持,提提升政务联络的效率。先看一组对比:

 


从上图可以看出,在2000人排查任务中,20个工作人员要花费7.3个小时,而政务联络机器人则只需要一小时,节约了86.3%的排查时间。
 
「政务联络机器人」是什么?
 
简单来说,「政务联络机器人」可以代替人工完成疫情相关通知和电话排查等任务。工作人员只需要在腾讯云智能联络平台上完成三步操作,机器人即可运行:
1. 选择工作任务(通知或排查);
2. 上传联系人电话;
3. 确认通知内容或需排查的问题;
 
 
机器人不仅能够电话通知,还可以与通话者行对话,并从通话者的语言中获取关键信息,从而判断出对方是否是「可疑人员」。
 
机器人背后的语音语义技术
 
既然是「联络机器人」,能听懂话、会说话、能用更自然的语音语调和句法「说话」是基本要求,要达到这一目标,背后涉及到三个核心技术,即语音识别、语义理解、语音合成。为了让「联络机器人」更好地完成电话场景下的联络任务,腾讯云技术团队在技术上做了很多新尝试。
 
1. 语音识别
 
首先是语音识别,完整的语音识别对话系统如下图所示:
 

云系统识别到用户语音之后,生成语音文本并进入语义理解模块,对用户语言的意图和词槽进行理解之后,进入到对话管理模块。对话管理模块会对整个对话的流程进行把控,并在对用户意图和词槽理解的基础上,生成回复文本;最终,文本通过语音合成(TTS)形成语音,回复给用户。
 
然而在语音识别的过程中,最大的挑战在于VAD断句策略(即如何判断用户的一句话是否说完)、实时性和准确率。
 
在VAD断句策略方面,腾讯云技术团队通过以下三种方式来对断句策略进行调优:
1. VAD阈值:判断用户一句话后静音的时间,从而判断机器人是否该进行回复;
2. 降噪:对用户所处环境的背景噪音进行降噪,将用户语音从噪音中剥离;
3. 用户打断:在用户说完一句话停顿了较长时间继续说的情况下,机器人可以允许用户打断回复。
 
在实时性方面,由于电话场景下对于即时回复的要求较高,如果语音被转成文本后再去识别,无疑会大大降低对话的流畅性。为了提高实时性,「联络机器人」采用流式语音识别,省去了语音转文本的步骤。流式识别以每200毫秒的频率,对用户的语音做一次分片并上传到云服务器,在用户说话的同时,云服务器即可完成对语音内容的识别。
 
在语音识别准确率方面,腾讯云团队使用了目前业界较为先进的「热词、自学习模型」,对语音识别中声学模型及语言模型进行调优,确保识别准确率高于行业平均水准。
 
2. 语义理解
 
语义理解的核心是意图分类和槽位提取,比如「我上周去过武汉」,可以提取为:

  • 意图:去过

  • 地点:武汉

  • 时间:上周

 
传统的做法是建立一个原始模板,对时间、返回的关键时和词槽进行定义。但这种模板的泛化能力非常的差,一旦用户的句子里多了或少了一个字,就无法准确识别;还有人通过机器学习的方式进行语义理解,但这种方式则需要大量的标注语料,对于初创项目不是特别友好。
 
而腾讯云团队则采用了「模板+模型」结合的方法,在冷启动阶段先定义一些模板快速启动,启动之后则可以通过模型来提升整体的效果;再通过对其他语义理解技术的应用,如分词、词性标注、NER等解析语句中的关键词和词槽;最后再通过去口语化、同义词挖掘与泛化、纠错、改写等辅助优化的手段,实现最终的效果
 
3. 语音合成
 
语音合成的目标是让电子音变得更接近人声,主要包括音色、拟真度、韵律等。目前腾讯云AI语音语义与应用平台的语音合成技术,已可以支持中文、英文、中英混读等语种;并且支持5种男声、9种女声,并且支持音色定制。

腾讯云,教你如何玩转语音识别
 
介绍完腾讯云语音语义的相关技术,相信你一定也想了解这些技术除了「政务联络机器人」外,还有哪些应用场景?其实,腾讯云早已将语音识别、语音合成、自然语言处理等技术能力释放,目前这些技术已应用在了多个产品和场景中。
 
先说语音识别,它的应用非常广泛,包括输入法、语音消息转写、音视频打标签/审核等。目前该服务已应用在多个知名产品和业务中,如下图所示:
 

此外,语音识别在客服电话质检中的应用比例也越来越高。在一个客户案例中,相比于传统的人工质检,语音识别技术可以提升250%的效率,减少质检团队规模(原先50人的质检团队可减少到12人,人力释放投入到其他产值更高的岗位),并且为企业节约综合成本约2000+万/年。
 
腾讯云语音识别服务目前支持中文、英语、韩语,以及粤语(方言),可以通过API、SDK、小程序插件、云函数等方式快速接入。
 
再说说腾讯云的语音合成,正如上面所说腾讯云的语音合成已经可以支持多语种、多音色的实现。不仅如此,它还支持基础语音合成(适用于较短的文本)、流式语音合成(适用于较长且实时性要求较高的文本)、语速调节(0.6-1.5倍)、音量调节(11档)等功能。
 
目前,语音合已为多个新闻客户端、资讯客户端、教育类应用、阅读类应用进行赋能。让用户在使用这些应用的时候,除了浏览,还可以「听见」对他们有价值的内容
 
最后是自然语言处理,它的应用面就更广了,腾讯云的自然语言处理,可对分词、情感分析、文本纠错、关键词提取、同义词等进行支持,从而大大降低开发者在处理这些流程上的时间。而自然语言处理几乎可以被应用到任何场景中,包括游戏、金融、教育等。

 

【专场特惠,福利时刻!】

看了上面的技术干货,想亲自体验一下?

原价90元的实时语音识别、一句话识别、录音文件识别服务,

大会期间通通9.9元!

另有腾讯云智能语音产品专享体验通道,

赶紧扫码试试吧!

     

智能语音产品体验

     

语音识别1折特惠




    
 人人都能成为「炼金术师」,揭秘腾讯AutoML
 
AutoML是近年来比较火的话题之一,在腾讯云高级工程师赵勇皓的分享中,他开宗明义为大家科普了AutoML的起源。在机器学习过程中,算法工程师会花很多时间来调参数,整个过程非常单调,大家也都戏称他们为「炼丹师」。于是工程师们想到,是不是能用算法来解决「算法的问题」,从而解放一部分人力。AutoML的本质说的通俗点,就是用魔法来打败魔法。
 
然而算法调参只是AutoML试图优化的其中一个场景,实际上机器学习的整个过程中,都涉及了大量的人工干预,包括数据预处理、特征提取、模型选择、算法算则等。如何就这些过程进行自动化的学习,减少人工的干预是AutoML的关键。
 
通常来说,AutoML需要具备3个特征:
  • Better performance;(比人工更好的调参效果)

  • No human assistance;(更少的人工参与)

  • Lower computation budgets。(更少的计算资源使用)

 
为了加速机器学习的生命周期和模型的服务化,腾讯云推出了「腾讯智能钛机器学习」(TI-ONE,以下简称「智能钛」),智能钛是一站式机器学习解决方案。它整合了数据预处理平台、支持主流机器学习框架、内置常用算法,并且支持自动调参和多个层面的协作。赵勇皓将它形象的称为「腾讯云上的机器学习IDE」。
 
让新手也能玩转AI算法
 
通常,用户在模型调优、算法、计算框架方面会面临调参久、算法上手门槛高,以及计算框架维护繁琐等问题。针对这些问题,智能钛提供了自动调参、常用算法,以及各框架各版本等功能。无论是AI算法新手、非算法人员还是算法专家都能快速上手。真正做到让每个人都成为「炼金术师」。
 
智能钛拥有拥有以下6大特点:
1. 拖拽式任务流设计;
2. 运行模式灵活;
3. 支持多种机器学习框架;
4. 内置丰富机器学习算法;
5. 便捷的效果可视化;
6. 强大的团队协作和分享。
 
拖拽式任务流设计:数据、算法、组件直接拖拽,所见即所得。例如以下面的「数据分类任务」为例,用户在智能钛的界面中拖入数据集,并设定好迭代时间、目标准确率等基本参数后,系统即会自动帮用户选择最适合的模型。
 
  
此外,拖拽的节点还可以自动连线,用户还可以根据需要自定义工作流,也可多个模型并行训练,让训练事半功倍。
 
运行模式灵活:智能钛支持根据运行资源进行调度策略的设定,包括并行、串行;支持带参数运行,包括参数设定,以及提供数值型、枚举型的参数运行设置;支持周期性调度和定时调度;支持历史实例的详情查看、模型对比和续跑。
 
支持多种机器学习框架:包括Spark、Pyspark、TensorFlow、PyTorch、xgBoost、Caffe、Angel、torch、BigDL等。
 
支持多种机器学习算法:无论是特征工程中的离散、归一、降维;还是非深度学习中的回归、聚类、分类;还是深度学习中经典的CNN、DNN、RNN;亦或是图算法中的PageRank、LPA、KCore……智能钛全都覆盖。
 
效果可视化,多样的数据表现形式:数据结构化预览、直方图、柱状图、散点图、饼图……让用户快速掌握数据本质。
 
团队协作和分享:智能钛为用户提供了「模型集市」和「数据集市」两大开发者生态,在模型集市中,用户可以对模型进行收藏、复用;而在数据集市中,用户则可以对数据进行存放、标注。这两大生态让开发者对模型和数据的使用,像在应用商店使用App那样便捷。
 
目前,智能钛在金融、教育、商业、政务等领域都有广泛的应用。例如在金融领域中,智能钛帮助金融机构建立用户购买行为预测模型,及客户流失率预警模型;在商业场景中,帮助园区提高车牌、车标、垃圾桶等识别效果。
 
在分享的最后,赵勇皓也为开发者带来了智能钛的福利!如果你是算法工程师、AI学习者、想要引入AI技术的企业、开设AI课程的高校,那么这个福利一定不能错过!
 

扫描下方二维码参与问卷,

即可获得免费使用的机会!

 
AI 和中国正在成为未来科技世界关键词,每一位开发者都将是这股浪潮的亲历者和推动者。让我们一起学习AI技术,加速这一过程吧!

【本文所有福利集合】

智能语音、语音识别、智能钛福利大放送!

羊毛等你来薅~

  
    
智能语音产品体验
 
语音识别1折特惠
 
智能钛(TI-ONE)免费使用
 
 


推荐阅读
你点的每个“在看”,我都认真当成了AI

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存