图|匡萃彪
文|匡萃彪
Meta宣布在语音生成 AI 方面取得突破,开发了 Voicebox,这是一种最先进的 AI 模型,可以执行语音生成任务,例如编辑、采样和风格化,而这些任务并不需要经过专门训练,可以通过上下文学习来完成。Voicebox是一个能够产生各种风格音频的生成系统,就像生成图像和文本一样。它可以从零开始创作音频片段,也可以修改给定的样本。Voicebox可以合成六种语言的语音,并进行噪音消除(例如移除汽车喇叭或狗叫声)、内容编辑、风格转换和多样化样本生成。在Voicebox之前,语音合成器的主要限制之一是,它们只能基于专门为该任务准备的数据进行训练。这些单调、清晰的输入数据很难产生,因此数量有限,并且生成的语音听起来也很单调。Voicebox采用了一种新的方法,只需从原始音频和相关转录中学习。Meta使用超过50,000小时的公共领域有声读物中的录音和文字记录来训练Voicebox,包括英语、法语、西班牙语、德语、波兰语和葡萄牙语。当给出周围的言论和片段的文本时,Voicebox被训练用于预测一个言论片段。通过从上下文中学习填补言论空缺,该模型可以将其应用于生成任务中,包括在不必重新创建整个输入的情况下生成音频录制中间部分。这样Voicebox可以修改给定样本的任何部分,而不仅仅是音频片段的结尾。
Voicebox支持各种任务:
上下文语音合成:使用仅两秒钟的输入音频样本,Voicebox 可以匹配样本的音频风格并用于生成文本到语音。未来的项目可以在此基础上构建能够为无法说话的人带来语言或允许人们自定义非玩家角色和虚拟助手所使用声音的能力。
跨语言风格转移:给定一段英语、法语、德语、西班牙语、波兰语或葡萄牙语中的演讲样本和一段文字,Voicebox 可以产生该种文字在相应国家/地区对应口音下朗读出来。这项功能非常令人振奋,因为将来它可以被用于帮助人们以自然真实的方式交流 — 即使他们不会说同一种语言。
语音降噪和编辑:Voicebox的上下文学习使其擅长生成语音,以便在音频录制中无缝地编辑片段。它可以重新合成短时噪声损坏的语音部分,或者替换错误发音的单词而不必重新录制整个语音。一个人可以确定哪个原始语音片段被噪声(如狗叫)污染,将其裁剪,并指示模型再生该片段。这种能力有朝一日可能用于使清理和编辑音频像流行的图像编辑工具一样容易。
多样化的语音采样:通过学习来自现实世界中不同的数据,Voicebox 可以生成更具代表性的语音,并跨越上述六种语言。未来,这种能力可以用于生成合成数据,以帮助更好地训练语音助手模型。我们的结果显示,在 Voicebox 生成的合成语音上训练的语音识别模型几乎与在真实语音上训练的模型一样好,误差率下降了1%,而使用先前文本转换为语音模型产生合成语音时则会出现45至70% 的退化。
Voicebox是第一个成功执行任务泛化的强大的模型,相信Voicebox可以引领语音生成式AI迎来新时代。与其他强大的新型人工智能创新一样,这项技术也可能带来了潜在的滥用和意外伤害风险。为此在Meta的论文中,详细介绍了如何构建高度有效的分类器,以区分真实语音和使用Voicebox生成的音频,并减轻可能存在的未来风险。Voicebox代表着生成式AI研究向前迈出了重要一步。其他可扩展且具有任务泛化能力的生成式AI模型已经引起人们对于跨越文本、图像和视频等各种任务应用潜力兴奋不已。我们希望看到类似影响也会发生在语音领域中,并期待着继续在音频领域进行探索,看看其他研究人员如何在我们的工作基础上进行创新。
点这里👇关注我,记得标星哦~