如何让 AI 语音合成听上去更有“人情味”?
丹棱君有话说:“听”时代来临,德勤预测有声读物市场规模将在 2020 年大规模提升。不断成熟的智能语音能力将帮助相关企业提高生产力和用户体验。作为微软 AI 能力的一部分,微软智能语音性能已可媲美人类水平,经过不断技术迭代,合成的语音越来越有“人情味”,应用越来越广泛,这是如何实现的?来跟丹棱君一探究竟。
语言的多模态应用在不知不觉间已成为人们生活中习以为常的技术,一句简单的语音识别转写、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利,与此同时,其社会价值与意义也在被重新估判......
人机交互,机器的声音越来越需要“温度”
利用基于深度神经网络的语音合成系统增强语音交互真实感
在传统语音合成技术中,波形拼接合成方法无疑占有着重要的地位。其基本原理就是根据输入文本的信息,从人工录制与标注的语料库中挑选合适的基元(通常为音素或音节),进行少量的调整,然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料,同时,该方法也不具备扩展性,不能面向需求适应到不同的应用场景。
为了提升合成语音自然度、降低语音生成对语料库的依赖度,并增加语音合成系统的可扩展性,研究者们又提出了参数化的合成方法。在同等数据规模下,参数合成的方法能够产生相比拼接合成方法自然度更好的合成语音。然而,这个方法也还存在着很大的局限性,比如在字边界处会存在明显的拼接痕迹,使其合成语音与自然语音有着很大的差异,不能满足人们对自然语音合成的期望。
近年来,随着机器学习技术的不断成熟,基于深度神经网络的建模方法逐渐被语音合成领域的研究者所采用。微软作为最早参与语音合成技术研发与生产的公司之一,基于 30 年的技术积累微软率先于 2018 年在全球范围内推出了端到端的深度神经网络语音合成服务(Neural Text to Speech, Neural TTS),将合成语音的音质与自然度提升到与人类接近的水平。
该系统利用深度神经网络来克服传统的文本到语音转换系统的局限性,匹配口语中的语音顿挫和语调模式和韵律,并将语音单元合成为计算机语音。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样,具备人类语音一样的自然韵律和词汇清晰度。这可以在人类与 AI 系统交互时大大减轻听觉疲劳,是语音合成领域的重大突破。
目前,微软的 AI 语音技术服务支持全球近 50 种语言,已遍及 140 个国家和地区。其中,端到端神经网络语音合成技术已支持 5 种语言(英文、中文、德语、葡萄牙语、意大利语),为教育教学、业务出海、有声书等领域提供着坚实的技术支持。
2019 年 1 月 31 日,微软 AI 智能女声“晓晓”在央视新闻联合微软 AI 推出的互动融媒体产品《你的生活 AI 为你唱作》中正式亮相,这是基于微软 Azure 云的端到端深度神经网络语音模型的语音合成服务。微软晓晓不仅在语气、语音、语调等方面无限接近真人效果,还可以用带有不同的“情感”的声音效果满足不同的场景需求。
不忘爱与责任,微软赋予 AI 语音真正的“人情味”
在普通群体提供智能、先进的技术产品的同时,微软也在借自身先进的 AI 语音技术为残障人士的生活提供便利。对于只能通过触摸和听觉来感知世界的视障人士而言,阅读是一种奢望,他们通常是通过触摸阅读盲文书籍,耗时是健全人的数倍。或者用读屏软件或者其他技术通过语音获得信息。为了让视障人士拥有更好的阅读体验,微软与红丹丹视障文化服务中心达成合作,探索研究利用 AI 技术将文字合成电子有声读物。
2014 年,微软和红丹丹一起为视障人士在 Azure 上搭建了云端有声图书馆——心目图书馆,为盲人朋友提供便捷的有声图书阅读服务,丰富他们的文化生活,不断学习和进步。目前,该图书馆已经覆盖全国 105 所盲校,越来越多的人通过有声图书感知到世界的精彩。
2019 年,微软人工智能中文女声“晓晓”通过自动合成有声读物,协助红丹丹极大提高了制作有声内容的效率。微软的深度神经网络声音定制服务 Custom Neural Voice 更是基于红丹丹培养出的全国第一个视障播音员董丽娜老师的语音数据作为原型,为红丹丹定制了一个发音标准、情感饱满、同时为盲人朋友们所熟悉的人工智能声音,并提供了一套基于 AI 语音的智能有声内容创作平台,使红丹丹及其志愿者们可以通过界面化的操作,快速地使用不同的音色生成有声内容,解决了之前人工有声内容创作周期长以及传统 TTS 合成声音情感单一等问题,显著改善了视障人士有声读物匮乏且读物声音机械、空洞的阅读体验。
本文转自 InfoQ,作者佘磊
了解更多: