3 秒即可模拟任何人声音，微软发布最新语音模型，网友担忧：电信诈骗门槛或再被降？

CSDN 2023-01-11

整理 | 苏宓

出品 | CSDN（ID：CSDNnews）

过去一年以来，随着 Stable Diffusion 2.0 模型的开源，以及 ChatGPT 聊天机器人的面世，AI 在图像、文本方面取得了十足的进展。

近日，微软助力 AI 在语音领域再下一城，其最新推出了一款名为 VALL-E 的全新文本转语音人工智能模型，可以基于仅有 3 秒钟的语音样本，生成几近真实的人类声音！

只需 3 秒，就能模拟出任何声音

为了向外界公布这一则好消息，微软研究人员特别分享了一篇长达 16 页标题为《Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers》的论文（https://valle-demo.github.io/）进行了详述。

让人称奇的是，VALL-E 只需要对声音进行三秒钟的采样，就可以准确地模拟出该种声音的语音。

就像这样（某个人说话的声音）：

基于 VALL-E，合成了语音示例 1：

示例 2：

简单来看，一旦 VALL-E 学会了某人特定的声音之后，那么就可以合成这个人说任何话的音频，而且还可以保留说话者的情绪基调和声学环境，这意味着文本到语音合成（TTS，Text-to-Speech）技术的一次重大突破。

那么，微软是如何实现这么神奇的技术的？

VALL-E 工作原理

根据官方介绍，VALL-E 被称之为「神经编解码语言模型」，是从现成的神经音频编解码器模型中提取的离散代码训练而成。它被建立在一项名为 EnCodec（https://github.com/facebookresearch/encodec）的技术之上。EnCodec 是 Meta 公司在 2022 年 10 月最新推出的基于深度学习的音频编解码器，是开源的，该技术支持单声道 24kHz 音频和立体声 48kHz 音频。

Encodec 技术

与其他常见的通过操纵波形合成语音的 TTS 方法不同，过去语音合成的方式可能主要是识别音素→旋律→波形的过程，而 VALL-E 则是通过音素→离散代码→波形这样的流程，存在一定的区别。

具体而言，VALL-E 将 TTS 视为一个条件语言建模任务，根据音素和声码提示生成离散的音频编解码代码，对应于目标内容和说话人的声音。

在实现方式上，它基本上分析了一个人的声音，继而通过 EnCodec 将该信息分解成离散的组件（称为 "令牌"），并使用训练数据来匹配它所 "知道的 "内容，进而生成该声音在三秒钟的样本之外说其他短语的声音。

正如微软在 VALL-E 论文中所说：

为了合成个性化的语音（例如，0-shot TTS），VALL-E 以 3 秒钟的样本录音和音素提示的声学标记为条件，生成相应的声音内容，这些声学标记分别制约着说话人和内容信息。最后，生成的声音内容被用来与相应的神经编解码器合成最终波形。

微软在一个由 Meta 组建的名为 LibriLight 的音频库上训练 VALL-E 的语音合成能力。它包含了来自 7000 多名演讲者的 60,000 小时的英语演讲内容，大部分来自 LibriVox 公共领域的有声读物。

在预训练阶段，VALL-E 基于这些训练数据，微软官方称，“这比现有系统大数百倍”。这也为 VALL-E 真实且精准地模仿人类语言提供了一定的基础。

微软在 VALL-E 示例网站（https://valle-demo.github.io/）上提供了数十个人工智能模型运作的音频例子。

值得注意的事，VALL-E 具备语境学习能力，并可用于合成高质量的个性化语音。

以下是"Speaker Prompt "的「生气」声音，这是指提供给 VALL-E 必须模仿的三秒钟音频。

以下是 VALL-E 模型输出「生气」语气的声音。

对比数据结果表明，VALL-E 在语音自然度和说话人相似度方面明显优于最先进的 TTS 系统，并在合成中保留说话人的情感和声音提示的声学环境。

如何防范 VALL-E 可能带来的安全问题？

在应用维度上，微软的研究工程师们也做了一些设想，其推测 VALL-E 可用于高质量的文本转语音应用、语音编辑。当然，也可以与其他生成类的人工智能模型（如 GPT-3）结合，可用于音频内容的创作。

不过，不怕技术本身带来的影响，就怕有心人会利用 VALL-E 这类先进的技术“作恶”，上文中仅是通过示例的声音，我们几乎难辨究竟是真人说的话还是 VALL-E 说的话。

对此，不少网友的第一反应也是：电话诈骗的门槛又被降低了一步！

也正如一位网友分享道：

如果有人玩过 "Uplink"，这让我想起了黑客，你给系统管理员打电话，录下他们说 "你好 "的几句话，然后你的电脑根据这几句话构建语言，让他们说 "你好，我是系统管理员。我的声音是唯一标识，可以进行安全验证。"

我一直认为这是不可能的，你不可能用那么少的数据来完成这个任务。现在看来，我可能错了......

也许正是担忧 VALL-E 有可能会助长恶作剧和欺骗等行为的出现，当前微软没有对外开源 VALL-E 的代码。研究人员似乎也意识到了这项技术可能带来的潜在社会危害。因此在论文的结论一节中，他们写道：

“由于 VALL-E 可以合成说话者身份的语音，它可能会带来滥用模型的潜在风险，如欺骗语音识别或冒充特定说话者。为了减轻这种风险，有可能建立一个检测模型来判别一个音频片段是否是由 VALL-E 合成的。在进一步开发模型时，我们还将把微软 AI 原则付诸实践。”

更多细节技术内容详见论文地址：https://arxiv.org/pdf/2301.02111.pdf

参考链接：

https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments

https://valle-demo.github.io/

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

《2022-2023 中国开发者大调查》重磅启动，欢迎扫描下方二维码，参与问卷调研，更有 iPad 等精美大礼等你拿！

☞中国第一个 Apache 顶级开源项目的突围之路！

☞ChatGPT 等大语言模型取代不了搜索引擎！

☞传苹果将弃用高通、博通芯片；华为研发投入排全球第四；微软新文本语音模型可在 3 秒内复制任何人的声音 | 极客头条

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

讲座预告 | 杨松：数据跨境流动的国际法问题

地方新规：2025年1月1日起，女性35岁前登记结婚，奖励1500元（全文）

天佑开麦再赞阿哲！阿厦爆瓜老爸三亚看阿哲！阿哲开干多元赛！

老塔申请强制执行，小白龙被限高！主播要账晨一，遭警告冻结！

3 秒即可模拟任何人声音，微软发布最新语音模型，网友担忧：电信诈骗门槛或再被降？

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

讲座预告 | 杨松：数据跨境流动的国际法问题

地方新规：2025年1月1日起，女性35岁前登记结婚，奖励1500元（全文）

天佑开麦再赞阿哲！阿厦爆瓜老爸三亚看阿哲！阿哲开干多元赛！

老塔申请强制执行，小白龙被限高！主播要账晨一，遭警告冻结！

生成图片，分享到微信朋友圈

3 秒即可模拟任何人声音，微软发布最新语音模型，网友担忧：电信诈骗门槛或再被降？

您可能也对以下帖子感兴趣