查看原文
其他

华山论AI:气宗还是剑宗更强?丨AI公开课

AI公开课 科大讯飞 2020-11-15

自从我们月初推出了AI公开课:如何通过观察女友朋友圈维持异地恋?丨AI公开课之后,收到了不少有趣的回复……


比如有想殴打标题一顿并且感觉扎心的:


比如有毫不掩饰表达喜欢之情的:

为了让你们点进来学习新知识我容易吗?!


今天水哥将继续为大家开课,这次我们不说异地恋,也不聊朋友圈,我们要探讨的是一个武侠世界里的经典难题:究竟是气宗还是剑宗更强?


金庸先生的作品《笑傲江湖》中,华山派分为剑宗和气宗的原因竟是因为那本经典的《葵花宝典》……


主讲老师:

(仍然是)水哥

讯飞开放平台技术服务专家


毕业于中国科学技术大学,就职于科大讯飞开放平台事业部。

深度参与讯飞开放平台语音识别、语音合成、语音唤醒等多项产品研发。




传说在遥远的东方大陆上,流派纷众,厮杀不断——其中语音合成派凭借看家神功逐渐站稳了脚跟。


话说这语音合成派的看家神功号称TTS(Text to Speech),能让机器把枯燥的文字转换成语音,简而言之就是“让机器说人话”。历经两百余年的发展,语音合成派弟子遍布天下,不仅潜藏在QQ阅读、滴滴出行、高德导航这些知名大镖局里,还在智能硬件和一些特殊领域的大帮大派里担任重要职务。


根据武艺风格的分歧,语音合成派逐渐演化为气宗和剑宗。从此,他们之间的纷争便再没有停息过……

气宗:我简单粗暴。 剑宗:你没前途!

想当年气宗草创之初,创始人的想法很简单:人怎么发声的我就让机器怎么发声。机器发声山寨一下人体发声,能咋地?


但是有拨人认为:气宗你们这么搞没有前途,而且成效太慢,可操作性太差了,这拨人就是剑宗。剑宗表示,我们完全可以直接找人把语音里面所有的基础片段都录好,到时候想要说啥,拼起来就得了。

气宗的玩法挺特别,他们用气囊代替肺,接根管子代替气管,管子末端再装个气门代替声带,气门后面再装个橡胶做的碗状结构来模拟口腔。


要模拟人说话,气宗用一只手掐住脖子(就是气门),控制基频高低;另一只手操作口腔(就是那个橡胶碗),控制发什么音;剩下的那个用来模拟肺的气囊就只能用脚来踩了。大概就是下面这个样子↓↓

剑宗:……你是不是在逗我?


基频又是什么呢? 想想我们平时说的汉语普通话,除轻声以外还有四种声调,2声的基频就是前低后高,4声的前高后低,3声是先高后低再高。掐气门的手捏得越紧,声道越窄,振动的基频就越高。不过这当个发明爱好还可以,实际用起来肯定不靠谱——剑宗如是说。


剑宗的绝学听上去就好操作多了,直接找人把语音里面所有的基础片段都录好,按照需要直接拼就行了。这个基础片段可长可短,可以是音素,可以是音节,甚至是声韵母的拼音。这种方法只要会拼图就能操作,完全可以速成。

但在没有计算机的时代,大量单元的管理和拼接是很麻烦的工作,所以每个基础单元只保存了很少的样例让人选择。一旦合成千变万化的语句时,语音的起承转合难免就有些生硬和突兀,拼出来的语音虽然能让人听懂,但很难做到自然流畅。


剑宗:这是我的春天。 气宗:外援来了,你给我等着!

时光荏苒,剑宗的发展随着技术的提高迎来了春天。有了有了计算和存储能力更大的计算机,剑宗可以进行超大规模音库的制作,包括语料设计、音库录制、精细切分、韵律标注;同时进行规则统计,以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好,一般句子的自然度也不错。


从此,在很长一段时间内,剑宗对气宗在合成音的音质上占据了绝对优势,气宗只在嵌入式的小系统上保留着一小块领地。


https://v.qq.com/txp/iframe/player.html?vid=b0355ckbm3t&width=500&height=375&auto=0
语音合成派的功夫已漂洋过海,走向世界


剑宗和气宗之争似乎已有定论,剑宗取得了压倒性的胜利。然而语音识别领域大放异彩的HMM(隐马尔科夫模型)作为外援闪亮上线,为气宗成功引入,气宗的崛起又让这场腥风血雨的门派之争开始了新的故事……


江湖一程,山高路远……



想了解这位神秘外援HMM的请点这里:如何通过观察女友朋友圈维持异地恋?丨AI公开课



关于语音合成派的故事还有很多,下一期我们将继续详解语音合成派在江湖上的那些事儿。在感谢水哥辛勤讲课的同时,不知各位学员有什么学习心得?欢迎大家在下方留言区评论,提交学习感言,也可以告诉我们你们还想听什么课程内容~下堂课,我们再见啦!


想了解更多AI公开课的内容,长按识别下方二维码即可↓↓

文 | 编  阿序    素材 | 讯飞开放平台  责编 | 立刀刘

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存