查看原文
其他

这年头,连和尚也开始卖萌了?! | AI公开课

科大讯飞 2020-11-15


和尚为什么不能卖萌?!


说起卖萌的和尚,不少人的第一反应可能是那部经典的动画片《聪明的一休》。随着大家对这类人群有了更多的理解、关注,以及影视制作手段和脑洞的更新,可爱、有趣的和尚形象以不同的方式出现在形形色色的艺术作品中。


但如果你真的遇上了一个很会卖萌的小和尚,除了摸摸他的小光头,你还想说点啥?


这个小和尚,就是大名鼎鼎的贤二机器僧——



从漫画和动画里跳出来的贤二机器僧出身于卧虎藏龙的龙泉寺,不仅能够和你对话一些日常问题,还能和你讨论佛学佛理,甚至还会偷偷抱怨一下自己的师父。今天,AI公开课将继续上一课华山论AI:气宗还是剑宗更强?丨AI公开课语音合成的内容,带你了解萌萌的贤二是怎么和你侃天说地的。


https://v.qq.com/txp/iframe/player.html?vid=v0383b1g163&width=500&height=375&auto=0
贤二机器僧与Siri对话,视频来源于龙泉寺动漫中心


主讲老师:

(还还还还是)水哥

讯飞开放平台技术服务专家


(换上一身帅气西装的)水哥毕业于中国科学技术大学,就职于科大讯飞开放平台事业部。

深度参与讯飞开放平台语音识别、语音合成、语音唤醒等多项产品研发。



贤二机器僧是如何开口卖萌的?

想让贤二和你聊天,其实需要两个过程。第一个是语音库的制作过程,第二个是使用语音库将文本变成音频的过程。


语音库的制作首先需要收集对方的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。


当贤二的语音库制作完成之后,我们就可以考虑让贤二怎么开口啦。



在输入文本后,首先需要按照词典规则对文本进行语言处理。这个过程主要模拟我们真人怎么去理解自然语言,主要目的是为了让机器人能完全明白输入的文本在说什么,还要给出机器后面步骤的发音提示。


接着是韵律处理。人们在说话的时候,声音会根据不同情况有所变化;合成音也需要规划音高、音长和音强上的的音段特征,听起来更加自然、真实。最后根据前两部分处理结果的要求输出语音,即合成语音。


自90年代中期以来,在历次的国内外语音合成评测中,科大讯飞各项关键指标均名列第一;在第二代贤二机器人研发的过程中,科大讯飞参与了语音合成的工作部分,提供了相应的技术支持和优化,可爱又智慧的贤二机器僧也凝聚着讯飞的一份力量。


图片来源于贤二官网


机器卖萌都无压力了,语音合成还有什么要努力的地方?

上节课,我们为大家梳理了语音合成派的江湖岁月,从语音合成派的发展历史来看,表现力、音质、复杂度和自然度一直是合成技术所追求的四点。


其中,随着技术的演进,复杂度、自然度、音质三个方面都已经取得了非常不错的成绩。目前,语音合成给大家留下的最大问题仍然在于合成音的表现力,如何能让合成音的语气和情感更加贴近真实、自然?看来这还是需要继续努力和研究的重点。


哪里可以体验语音合成技术?

在锤子科技2017春季新品发布会上,一个叫做“模拟来电”的功能吸引了不少人的眼光。在某些比较尴尬的时刻,可以通过模拟来电功能设定来电时间、名称、音色、方言,还可以自定义输入来电内容,就能用一通以假乱真的电话帮你“逃离苦海”了。这项功能的技术提供来源于科大讯飞旗下的配音阁,一款能够轻松让你体验语音合成、玩转特色配音的应用。



配音阁下载二维码


除此之外,还有哪些应用可以让我们更便捷地体验语音合成技术呢?


https://v.qq.com/txp/iframe/player.html?vid=c0380piineq&width=500&height=375&auto=0

QQ阅读演示视频


https://v.qq.com/txp/iframe/player.html?vid=o0380c5egvk&width=500&height=375&auto=0

AI随身听的小程序演示视频

水哥课后问答精选


Q1:从寻找声优录音,到标注再到训练,一个成熟的商业可用的语音合成的时间成本大概是多少?

A:时间成本最快1个月左右,不包括客户安排配音员的时间。


Q2:在线合成语音,每千字需要多少流量,可用自建转换的语音库吗?

A:一般人的语速是是每秒2—3个字,千字的话就是500s,如果是16k16bit的音频,压缩后就是1563k左右的音频,加上2k左右的文本,以及消息冗余,大概约等于1.5M 。


Q3:中英文混排的文档,合成效果明显没有单独英文的或者单独中文的好,有没有什么优化技术?

A:中英文混读对发音人要求较高,需要原始发音人是双语的。讯飞在考虑制作双语发音人。算法层面也一直在优化,目前已经开放的支持中英文混合合成的发音人:xiaoyuan。


Q4:我想问关于情感语音合成的问题,我现在主要是在中性语音的基础上修改参数来合成情感语音的,但是效果不是很明显,想请问一下讯飞对情感语音合成有没有现阶段一个比较好的解决方案呢?

A:情感合成我们现在已经是支持的了,了解讯飞开放平台SDK的同学也应该已经看到了相关的设置接口。但如果大家有需求的话可以付费定制。


语音合成的课程暂时告一段落,但关于语音技术的学习仍在路上。在感谢水哥辛勤讲课的同时,不知各位学员有什么学习心得?欢迎大家在下方留言区评论,提交学习感言,也可以告诉我们你们还想听什么课程内容~下堂课,我们再见啦!


想了解更多AI公开课的内容,长按识别下方二维码即可↓↓

文 | 编  阿序   素材 | 讯飞开放平台


点击“阅读原文”,直达 讯飞开放平台!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存