AAAI 2021 | 不依赖文本也能做翻译?UWSpeech语音翻译系统了解一下
编者按:语音到语音翻译已经被越来越多地应用在人们的日常生活和工作中。但是目前的语音翻译系统高度依赖于语音对应的文本,不能应用于如方言、少数民族语言等没有文字的语言。为此,微软亚洲研究院提出了语音翻译系统 UWSpeech,该系统可针对没有文字的语言进行语音系统构建。相关工作已被 AAAI 2021 接收。
近年来,语音到语音翻译被应用于越来越多的场景,例如国际会议、讲座等。现有的语音翻译系统高度依赖于对应的文本:级联模型(语音识别+文本翻译+语音合成)需要对应的文本作为翻译的枢纽;端到端模型则需要对应的文本作为辅助的训练数据,通过额外的辅助识别任务来提升翻译精度。然而世界上有成百上千种语言,其中大多数语言是没有文字的,例如方言、少数民族语言等等。对于这些没有文字的语言,先前的语音翻译系统构建方法将不再适用。为了解决这一问题,微软亚洲研究院的研究员们提出了 UWSpeech (UW 代表 Unwritten Language),针对没有文字的语言构建语音到语音翻译系统。UWSpeech 通过引入资源丰富的大语种语言的数据,辅助语音的离散化过程,从而极大提升没有文字的语言的翻译精度。
语音到语音翻译是指将源语言的语音翻译为目标语言的语音。先前关于语音到语音翻译的工作主要可以分为两类:级联模型和端到端模型。这两类模型都依赖于语音对应的文本数据。
其中,级联模型需要源语言和目标语言的对应文本作为枢纽。语音识别(ASR)系统将源语言语音识别为源语言文本,接着文本翻译(NMT)系统将源语言文本翻译为目标语言文本,最后目标语言文本经过语音合成(TTS)系统生成相应的目标语言语音,如图1所示。
图1:语音到语音翻译的三阶段级联模型
端到端语音到语音翻译系统可以直接将源语言语音翻译成目标语言语音,但是需要增加辅助的识别任务,如图2所示。而辅助的识别任务则需要对应的文本作为辅助训练数据,当没有辅助的识别任务时,翻译结果的 BLEU 指标接近0。
图2:基于辅助文本识别任务的端到端语音到语音翻译模型
与离散的文本数据相比,语音数据是连续的,并且还包含了音色、语调、说话风格等其它和内容无关的信息。所以在没有对应文本的情况下,直接将源语言语音翻译成目标语言语音的难度很大。考虑到语音数据本身的复杂性,在对没有文字的语言构建语音翻译系统时,需要将语音从连续空间降维到有限的离散空间,同时尽量只保留语音中与内容相关的信息。
先前关于语音离散化的工作包括K均值聚类,高斯混合模型聚类,基于树的聚类,变分自编码器 VAE(Variational Auto-Encoder) 以及更进一步的矢量量化变分自编码器 VQ-VAE (Vector Quantized VAE) 等等。其中 VQ-VAE 已经被广泛应用于将语音表征聚类/量化到离散符号序列,并在语音合成或子字(subword)级别的语音识别等任务上取得了良好的效果。然而 VQ-VAE 仅仅利用无监督聚类的方法对语音进行离散化,所以其在语音翻译这类更具挑战性的任务上表现不佳。
针对没有文字的语言的语音翻译,研究员们提出了 UWSpeech 语音翻译系统。它包含以下三个部分:
1)转换器(Converter):将目标语言语音转换为离散符号;
2)翻译器(Translator):将源语言语音翻译为目标语言的离散符号;
3)逆变器(Inverter):将目标语言的离散符号转换回目标语言的语音。
图3:UWSpeech 流程图
转换器将语音序列转换为离散符号序列,逆变器则将离散符号序列转换回语音序列。这与自编码器(AutoEncoder)的结构相类似,转换器相当于编码器,而逆变器则相当于解码器。研究员们在 VQ-VAE 的基础上提出的 XL-VAE (Cross-Lingual VAE),使用了资源丰富的大语种语言的数据,通过跨语言语音识别对 VQ-VAE 进行扩展,联合训练转换器和逆变器。XL-VAE 的结构如图4所示。
图4:XL-VAE 结构图
XL-VAE 在跨语言的音素级语音识别的帮助下,优化了 VQ-VAE 无监督的量化过程。与 VQ-VAE 相似,XL-VAE 的转换器同样会先将语音序列编码为连续的隐表征,并在此基础上抽取离散符号。接着,逆变器会将给定的离散符号序列及其对应的表征重建回语音序列。但与 VQ-VAE 不同的是,XL-VAE 并非通过无监督聚类来获得离散符号,而是借助了其它大语种(含有文字的语言)的语音识别来辅助抽取目标语音(没有文字的语言的语音)的离散符号。因此,研究员们在转换器之后增加了音素级语音识别的损失函数,利用大语种语言的语音-音素数据对来训练语音识别,并在训练过程中和转换器、逆变器一起优化。
为了验证 UWSpeech 的有效性,实验选用 Fisher 数据集来进行。Fisher 数据集包含西班牙语电话对话的语音和文本以及对应的英语翻译文本,共13万条平行训练语句。研究员们使用语音合成系统将英语文本合成为英语语音,然后只使用英语语音和西班牙语语音,丢弃对应的文本数据,从而模拟没有文字的语言的语音翻译场景。没有文字的语言更多使用于口头对话与日常交流等场景,在这些场景下,句子中含有的词汇基本都是高频词。因此,研究员们从原始的测试集(full test set)中筛选出了含有较高频词的句子,构成了特定场景的新测试集(称为common test set)并在该测试集上对 UWSpeech 进行评估。
UWSpeech 和以下两个基线系统进行了比较:
1)直接翻译(Direct Translation):直接将源语言语音翻译为目标语言语音;
2)使用 VQ-VAE 离散化(VQ-VAE):整体流程与 UWSpeech 一致,仅仅在语音离散化这一环节把 XL-VAE 换成标准的 VQ-VAE。
表1:西班牙语-英语语音翻译的 BLEU 分数
表2:英语-西班牙语语音翻译的 BLEU 分数
UWSpeech 和两个基线系统在两个翻译方向(西班牙语→英语,英语→西班牙语)上都进行了比较。其中,直接翻译的 BLEU 接近0,这反映了直接进行语音到语音翻译的难度。VQ-VAE 则获得了比直接翻译稍好一点的结果,但其翻译的正确率仍然很低,这也证明了在语音翻译中的语音离散化阶段,纯粹的无监督方法具有明显的局限性。而 UWSpeech 系统在两个翻译方向上都得到了显著的提升,证明了 UWSpeech 的有效性。UWSpeech 的演示可以通过https://speechresearch.github.io/uwspeech/ 进行访问。
为了探究在训练 XL-VAE 过程中,资源丰富的大语种语言(含有文字的语言)的语音-音素配对数据对于最终翻译正确率的影响,研究员们还进行了详细的实验对比分析:1)分析大语种语言的不同数据量的影响;2)分析大语种语言与目标语言(没有文字的语言)的不同相似度的影响,结果如下表所示:
表3:XL-VAE 中使用不同种类和数目的大语种语言时,UWSpeech 在西班牙语-英语翻译上的 BLEU 分数
根据实验#1,#2,#3,可以发现大语种语言的语音-音素配对数据(德语)的增加会提升翻译的准确率。比较实验#3和#4,则能够发现增加其他种类的大语种语言(法语、中文)同样可以提升语音翻译的准确率。对比实验#2,#5,#6,可发现在辅助语音离散化上,德语会比法语和中文拥有更好的效果,而法语的效果又会比中文更好,这个结论和语言间的相似度非常统一。根据语言分类体系,德语和英语同属于印欧语系的日耳曼语语族,最为相似;而法语和英语虽然同属印欧语系,但在不同的语族上;中文和英语则属于两个不同的语系,因此相似度最低。
作为一个针对没有文字的语言的语音翻译系统,UWSpeech 包含一个转换器来将目标语言语音转换为离散符号,一个翻译器来将源语言语音翻译为目标语言的离散符号,以及一个逆变器将目标语言的离散符号转换回目标语言的语音。UWSpeech 设计了一个跨语言变分自编码器模块(XL-VAE),它可基于跨语言语音识别来联合训练 UWSpeech 中的转换器和逆变器,来更好的将目标语音进行离散化,以提升语音到语音的翻译。实验结果显示,相比传统的语音翻译系统,UWSpeech 能极大提高语音翻译质量。作为初步探索实验,研究员们把英语和西班牙语当作没有文字的语言来进行概念验证 (proof-of-concept),下一步则将在真实的没有文字的语言上测试 UWSpeech 的语音翻译性能,旨在推动 UWSpeech 去解决占世界上绝大多数的没有文字的语言的翻译难题。
微软亚洲研究院一直致力于语音相关的研究,包括语音合成、语音识别、语音翻译、歌声及音乐合成等。欢迎关注我们在语音方面的研究工作:https://speechresearch.github.io/
论文:UWSpeech: Speech to Speech Translation for Unwritten Languages
链接:
https://arxiv.org/pdf/2006.07926.pdf
作者:章晨、谭旭、任意、秦涛、张克俊、刘铁岩
1月28日(本周四),我们将邀请论文一作——浙江大学硕士研究生章晨在微软亚洲研究院 AAAI 2021 分享专场中,为大家深度解读论文,届时欢迎大家扫码观看。
你也许还想看: