文档一键朗读，如何能助力全民“抗疫”？ | 微软百宝箱 | 自由微信

文档一键朗读，如何能助力全民“抗疫”？ | 微软百宝箱

微软丹棱街5号 2021-04-27

丹棱君有话说：全民“抗疫”，停课不停学、线上办公交流多……各行各业都需要高效地互通互联，一款全民都能快速上手的工具“微软听听文档”，只需一部手机联网，就能轻松将文本、PPT 或图片一键朗读，生成有声作品。

心理专家们制作了抗疫心理健康教育课程普惠大众；老师们将静态的课件做成 PPT+有声讲解，帮助学生在线课堂后自学和加深理解；销售人员将产品特性、技术优势配以有声讲解，不见面也能随时随地让客户 get 要点。

“微软听听文档”不但能给文档录音配音，而且还提供不同类型 AI 声音和朗读风格一键生成 AI 朗读， AI 朗读功能由微软语音合成技术支持。经过多年深耕，微软智能语音已实现可媲美人类，正在赋能各行各业。最近微软听听文档的 AI 智能语音朗读功能得到进一步升级，更多智能声音选择，音质与自然度进一步提升。

下面，请跟随丹棱君的脚步，一起了解一下吧！文末手把手教你五步搞定听听文档~

话不多说，先来听段 demo

逼真的 AI 朗读是如何实现的？

语音合成(Text-to-Speech，TTS)，是通过计算机将输入的任意文本转换成相应语音的技术，在人机交互中扮演着类似于人类嘴巴的角色，是创建自然、高效的人机交互中不可或缺的部分。语音合成技术是最前沿的人工智能技术，同时也是微软深耕多年的研究领域。

通过语音合成技术，我们可以创造出不同风格的 AI 语音，而一个优秀的AI语音，则需要发音清晰、韵律自然，与人声贴合，让听者感觉亲切。然而，这个目标，却不是那么容易就能达成的。

以中文为例，阻碍 AI 语音接近自然语音的因素就很多！在朗读中，AI 需要分辨文本中不同的韵律结构，产生相应的语调、节奏、轻重音，甚至还得考虑很多我们自己都经常分不清的多音字！

除此之外，AI 语音还需要在朗读中富有感情，不能读错，更不能发出奇怪的噪音，想一想我们养一只会说话的鹦鹉时有多么辛苦，你就知道培养一个完美的 AI 语音需要付出多少努力了！这还没完，AI 语音还得学会“分身术”，能够在同一时间处理很多很多的人机交互任务，能否做到“多快好”就成了判断一个AI语音是否优秀的准则。

本次升级中新增的AI朗读男声“云扬”在开发中采用了最新的迁移学习技术，仅利用少量录音数据便可训练出具有高质量、高自然度语音生成能力的模型。

而这，离不开微软在语音合成领域多年的积累：我们使用了大量高质量多说话人的语音数据，构建出具有自适应能力的源模型。该源模型具有稳定性高、适应能力强等特点。基于这个源模型，我们只需少量的目标数据，便可得到一个能用于实际生产环境的新说话人模型。“云扬”就是通过这个新技术得到的模型。在训练中，我们仅使用了一千句的录音语料，这么一位中英文双全的 AI 语音就崭新出炉了！

语音合成自然度通常用 MOS 打分进行评价。参与评测的人员对语音整体质量进行打分，分值范围为 1-5 分，分数越大表示语音质量最好。针对新声音模型，我们进行了大规模的 MOS 测试，并且和市面上的竞品进行了对比。

在我们进行的大规模双盲测试中，云扬在同类场景中取得了较高的自然度分数，甚至有时候可以“以假乱真”，让参与评测的语言专家也分不清谁是“六耳猕猴”。同时，云扬还支持 2 种语音风格：新闻和客服，让你可以根据不同的目标场景，选择更合适的语音风格。

通过这次语音更新中，我们不仅让 AI 语音们说得更“好”，还让他们说得更“准”，对中文里公认的多音字和停顿技术难题也进行了算法升级。

▲向上滑动

1. 发音改进

如何准确地读多音字是中文高质量TTS的一大挑战。在汉语常用字表中，2500个常用字有近400个多音字。

在传统的方法中，TTS难以区分同一个多音字在不同句子中的区别。而在新的神经网络模型中，我们使用了基于深度神经网络的多音字模型，让模型可以在理解全句句意的情况下，预测出正确的读音，大大降低错误率。

此外，我们还对时事热点中的多音字和日常人们习惯读错的多音字做了针对性的改进。

比如：上海推进经济发展各项工作，尽可能降低新冠疫情的影响。

该句中有两处多音字：“尽”和“冠”，都是人们很容易读错的多音字。根据《国语辞典》，“尽(可能)”的正确读音是jìn；“新冠”是“新型冠状”的简称，“冠”读作guān。我们利用深度学习网络可以充分学习海量数据的优点，实时更新模型，提高读音准确率。

我们和市场上主流的中文TTS进行了读音准确率比较。结果表明微软中文TTS在发音准确度上有显著优势。

2. 停顿改进

停顿是一门技巧，它不单单是人们朗读换气的需要，更是表现句子结构关系、表情达意的需要。正确恰当的停顿对听众准确清楚地接受信息起着十分重要的作用。

机器不会累，不需要换气就可以将文字读出来，但“一口气”读出成千上万个字，则会使得听众无暇思考，信息丢失，难以理解句子含义。反之，如果乱停顿，又会失去原有句子的节奏，打乱结构关系，甚至改变原有的含义。

为此，我们使用了基于深度神经网络的韵律模型，结合上下文关系，更加精准地预测停顿位置，让TTS更加准确自然地朗读。

此外，停顿的时长也十分考究。在句子中，并非所有的停顿都是一样长的。段与段，句与句，词与词，字与字，每一处的停顿时长，各不相同。为此，我们在深度神经网络的韵律模型中，为停顿的时长精心设计，以确保各处的停顿恰到好处。

语音合成技术延伸阅读

在过去，为了实现优秀拟人的 AI 语音，科学家们尝试过各种技术，从模拟人类声道发音到现在的神经网络建模技术。可应用于实际场景的语音合成技术大概分成了三个阶段。

▲向上滑动

1.基于波形拼接的合成方法

在传统语音合成技术中，波形拼接合成方法无疑占有着重要的地位。其基本原理就是根据输入文本的信息，从人工录制与标注的语料库中挑选合适的基元（通常为音素或音节），进行少量的调整，然后采用波形拼接的方式得到与待合成文本相对应的语音序列。在单元选择的过程中，如何建立完善的决策树是波形拼接合成方法中的重点。

在实际应用中，采用例如高斯混合模型（Gaussian Mixture Model，GMM）等方法来监督基元选取的预测过程，并采用得到的韵律预测模型来代替原始语音合成系统中的反馈模型，构建更加具有自然度的语音合成系统。直到今天，波形拼接方法凭借着其显著的稳定性和较低的计算复杂度，依然被大量应用在各种边缘计算的场景中。然而，波形拼接合成方法需要准备海量的高质量语料，同时，该方法也不具备扩展性，不能面向需求适应到不同的应用场景。

2. 基于HMM的参数化合成方法

为了提升合成语音自然度、降低语音生成对语料库的依赖度，并增加语音合成系统的可扩展性，研究者们又提出了参数化的合成方法(Statistical Parameter Speech Synthesis，SPSS)。其中，采用隐式马尔可夫模型（HiddenMarkov Model，HMM）实现的参数合成系统，在同等数据规模下，能够产生相比拼接合成方法自然度更好的合成语音。

此外，通过利用参数化合成的特性，基于HMM的语音合成方法也初步实现了表现力语音合成的效果，能够较好地处理重音合成、疑问句合成等一系列问题，初步实现了语音合成中的“稳中有变”，使合成语音具备了与语料库语音不同的发音特质。然而，基于HMM的方法还存在着很大的局限性，比如在字边界处会存在明显的拼接痕迹，使其合成语音与自然语音有着很大的差异，不能满足人们对自然语音合成的期望。

3. 基于深度神经网络的方法

在参数化语音合成的基础上，随着机器学习技术的不断成熟，基于深度神经网络的建模方法也逐渐被语音合成领域的研究者所采用。研究者首先尝试了使用深度置信网络（Deep Belief Network, DBN）作为声学模型的方法，以增强声学参数预测的性能，并取得了相比HMM方法更好的效果。同时，考虑到从语音信号中提取得到的声学参数序列具有很强的上下文依赖关系，递归神经网络及其长短时记忆增强的变种LSTM网络也被应用于建立声学模型的研究中，并取得了显著的效果。不仅如此，神经网络建模的方法还逐步被应用到文本分析，韵律预测，声码器（Vocoder）等一系列语音合成的模块中，并最终提出了以Tacotron为代表的端到端(End-to-end, E2E)的语音合成技术，实现了合成语音在音质与自然度上的飞速提升，接近了人类的发声水平。

微软是最早投资并参与到语音合成技术研发与生产的公司之一。近30年前，微软便启动了在语音研究领域的探索，在语音识别（Automatic Speech Recognition，ASR）、语音合成等语音关键技术产出了一系列关键性成果。

微软也是首先开展基于深度神经网络的语音合成技术开发的公司之一。经过多年的技术积累，微软的研发团队于2018年提出了基于Transformer的端到端语音合成技术，于2019年提出了基于知识蒸馏(Knowledge Distillation)体系的FastSpeech技术，将合成语音的音质与自然度提升到与人类接近的水平。同时，与传统端到端语音合成技术相比，将自然语音合成的速度提升了近百倍，首次实现了AI语音与人类发音人一致的“好”，远超人类发音人的“快”！在此基础之上，微软现有的 TTS 技术可以全面支持多说话人，多风格，多语言统一建模，提供了强大的定制化能力。

依托于 Azure 云的强大计算能力，微软语音合成实现了产品级的高稳定性、高并发和低延时，让你可以在全球各地即时高效地调用高质量声音。通过 Azure 认知服务平台，微软语音团队将业界顶尖、持续改进的神经网络语音合成技术广泛应用到操作系统、办公应用、个人助手、呼叫中心、客户服务、智能设备、车载系统、社交游戏等产品中。

微软智能语音支持全球近 50 种语言，覆盖各大洲的国家和地区。其中，最新的端到端神经网络语音合成技术已支持 5 种语言（英文、中文、德语、葡萄牙语、意大利语），为教育教学和出海业务提供坚实的技术支持。

微软智能语音还支持不同说话风格。针对不同应用场景和上下文内容，你还可以让同一个声音切换不同的表达方式，譬如新闻播报、客户服务、聊天会话、培训演讲等多种语音风格，创造更多变、更自然的语音内容。

如果你还希望创造独一无二的智能语音，微软还提供了个性化的语音定制服务，让 AI 语音更加契合产品品牌和应用场景。

针对有声书等长文本语音合成场景，微软还提供完整的有声内容创作服务，支持丰富的音色选择和灵活的声音编辑，包括多种情绪的转换、发音和韵律的调配等。解决了人工有声内容创作周期长、费用高以及传统 TTS 合成声音机械、音色趋同和情感单一等问题，让有声内容创作更简单，让声音体验更动人。

五步搞定微软听听文档

疫情期间大家做的听听文档作品

用“录音”功能为文档加配音

心理专家制作抗疫心理健康教育课程普惠大众

用“录音”功能为文档加配音

老师将静态的课件做成PPT+有声讲解，帮助学生在课后更好地自学和加深理解

用“录音”功能为文档加配音

销售人员将产品特性、技术优势配以有声讲解，不见面也能随时随地让客户 get 要点

记者用“AI读稿”功能一键生成有声新闻，更高效地广而告之，深入人心

更多AI朗读示例：

如果你想将微软语音应用到你的产品中，欢迎到微软Azure认知服务了解更多~或者发邮件联系我们 ttsvoicefeedback@microsoft.com

了解更多：

后台入驻微软小冰

如果你很萌，请跟她一决高下！

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅