查看原文
科技

Meta MMS:将语音技术扩展到 1000 多种语言

lencx 浮之静 2023-05-23
🔗
  • 论文:Scaling Speech Technology to 1,000+ Languages[1]

  • Blog:Introducing speech-to-text, text-to-speech, and more for 1,100+ languages[2]

  • Github:facebookresearch/fairseq/examples/mms[3]

  • MMS - Language Coverage[4]

  • 预训练模型

    • MMS-300M[5]

    • MMS-1B[6]

    • wav2vec 2.0[7]:微调预训练模型的示例命令

摘要

扩大语音技术的语言覆盖范围有可能为更多的人提供更好的获取信息的途径。然而,当前的语音技术仅限于大约一百种语言,这只是全球 7,000 多种语言的一小部分。大规模多语言语音 (MMS) 项目根据任务将支持的语言数量增加了 10-40 倍。主要的元素是基于公开可用的宗教文本的朗读创建的新数据集,以及有效利用自我监督学习。我们构建了覆盖 1,406 种语言的预训练的 wav2vec 2.0 模型,一个支持 1,107 种语言的单一多语言自动语音识别模型,为同样数量的语言构建了语音合成模型,以及一个支持 4,017 种语言的语言识别模型。实验表明,我们的多语言语音识别模型在 FLEURS 基准测试的 54 种语言上的单词错误率比 Whisper 低一半以上,而且训练时使用的标注数据只是一小部分。

让机器拥有识别和产生语音的能力可以让更多人接触到信息,特别是那些完全依赖语音获取信息的人群。然而,为此类任务创建高质量的机器学习模型需要大量的标注数据 —— 在这种情况下,是成千上万小时的音频,以及相应的文字记录。然而,对于大部分语言来说,这类数据根本不存在。举例来说,现存的语音识别模型只覆盖了大约 100 种语言 —— 这只占地球上 7,000 多种已知语言的一小部分。更令人担忧的是,这些语言中近一半面临着在我们有生之年内消失的危险。

在 Meta 的大规模多语言语音(MMS)项目中,通过结合 wav2vec 2.0[8](Meta 在自我监督学习方面的创新工作)以及一个新的数据集,克服了这些挑战。这个数据集为超过 1,100 种语言提供了标注数据,近 4,000 种语言提供了未标注数据。其中一些语言,比如塔图约语,只有几百名说话者,而且对于大多数这些语言,以前并不存在任何的语音技术。MMS 结果表明,大规模多语言语音模型的性能超越了现有模型,覆盖的语言数量是现有模型的 10 倍。Meta 公司全面关注多语言性:对于文本,NLLB 项目[9]将多语言翻译扩展到了 200 种语言,大规模多语言语音项目则将语音技术扩展到更多的语言。

Meta 公开分享了模型和代码,以便研究社区的其他人可以在此工作基础上进行建设。通过这项工作,Meta 希望为保护世界上难以置信的语言多样性作出一些贡献。

大规模多语言语音(MMS)识别模型支持的语言图示。MMS 支持 1,107 种语言的语音转文本、文本转语音和超过 4,000 种语言的语言识别。

收集方法

收集数千种语言的音频数据是首先要面临的挑战,因为现有最大的语音数据集最多只涵盖了 100 种语言。为了解决这个问题,Meta 将目光转向了宗教文本,例如圣经,这些文本已被翻译成许多不同的语言,并且其翻译已被广泛用于文本翻译研究。这些翻译的音频记录(即人们用不同的语言朗读这些文本的记录)是公开可用的。作为这个项目的一部分,创建了一个新约阅读的数据集,覆盖了 1,100 多种语言,每种语言平均提供了 32 小时的数据。

通过考虑其他基督教宗教读物的未标注录音,Meta 将可用的语言数量增加到了 4,000 多种。虽然这些数据来自特定领域(音频记录的内容是宗教性的),并且常常是由男性朗读者进行朗读。但分析显示,模型对男性和女性的声音表现同等良好,也并未导致模型过度倾向于产生更多的宗教语言。Meta 认为这是因为使用了连接时间分类(Connectionist Temporal Classification)方法,与大型语言模型(LLMs)或用于语音识别的序列到序列模型相比,这种方法更受限制。

潜在性别偏见的分析。在大规模多语言语音数据上训练的自动语音识别模型对于FLEURS基准测试中的男性和女性发言者的错误率相似。

📌

"连接时间分类(Connectionist Temporal Classification,CTC)"是一种训练序列模型,尤其是语音或手写文本识别模型的方法。它的特点是不需要在训练数据中明确标出输入数据和目标数据之间的对齐方式。这对于处理变化速度不一致的输入和输出数据(如语音识别,其中话语速度可以快速变化)非常有用。

在此文本中,作者提到 CTC 比大型语言模型(LLMs)或序列到序列模型在语音识别上更受限制,这可能是指 CTC 在处理语音识别任务时,其模型复杂性和学习能力相对较小。大型语言模型和序列到序列模型通常会在输入和输出序列中考虑更多的上下文信息,并且能够学习复杂的模式,但可能会引入一些不必要的偏差,例如在处理特定领域(如宗教领域)数据时可能会产生特定领域的语言偏差。

然而,CTC 方法相对简单,更加专注于直接学习输入序列(例如音频信号)到输出序列(例如文本)的映射,而不是学习如何生成输出序列。这意味着其更有可能避免学习到不必要的偏差,虽然其模型的表现力可能相对较弱。

总的来说,使用 CTC 方法相比于大型语言模型或序列到序列模型,对数据的学习更加简单和直接,从而在处理这个特定问题上,即使输入数据具有特定领域的特点(在这里是宗教领域),也更不容易引入不必要的偏差。

MMS 模型

大规模多语言语音(MMS)项目的数据预处理步骤,自我监督学习的应用,以及对训练模型性能的评估。

数据预处理

项目使用一个对齐模型和一种高效的强制对齐算法进行数据预处理。在 100 多种语言的现有数据上训练了对齐模型,该模型可以处理非常长的录音,如约 20 分钟或更长的录音。通过多轮处理和最后的交叉验证筛选步骤,项目移除了可能未对齐的数据。

自我监督学习

因为每种语言提供的 32 小时数据不足以训练传统的有监督语音识别模型,所以项目在 wav2vec 2.0 的基础上使用自我监督学习方法。在 1,400 多种语言的大约 500,000 小时语音数据上训练了自我监督模型,然后对模型进行微调,用于特定的语音任务,如多语言语音识别或语言识别。

模型性能评估

在现有的基准数据集上评估了训练模型的性能,如 FLEURS。项目发现,使用 wav2vec 2.0 模型在 1,100 多种语言上训练的多语言语音识别模型性能仅轻微下降。然而,与 OpenAI Whisper 相比,该模型在单词错误率上实现了一半的性能提升,且覆盖了 11 倍以上的语言。此外,还训练了一个支持 4,000 多种语言的语言识别(LID)模型,结果显示,即使支持的语言数量增加了 40 倍,性能仍然非常好。

🔗 FLEURS

论文:FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech[10]

FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)是一个多任务的语音数据集,用于评估不同语音任务的模型,包括自动语音识别(ASR)、语音语言识别(Speech LangID)、翻译和检索。FLEURS 基于机器翻译 FLoRes-101 基准测试,包含 102 种语言的 n-way 并行语音数据,每种语言大约有 12 小时的语音监督数据。

当将每个系统支持的语言数量从 61 种增加到 1,107 种时,在 61 种 FLEURS 语言上对大规模多语言语音数据进行训练的多语言语音识别系统的错误率。错误率较高表示性能较低。

在可以进行直接比较的 54 种 FLEURS 语言上,OpenAI Whisper 与大规模多语言语音的单词错误率比较。

现有工作的 VoxLingua-107 基准测试的语言识别准确率,支持刚刚超过 100 种语言,以及 MMS,支持超过 4,000 种语言。

文本到语音系统

在这个项目中,还为 1,100 多种语言构建了文本到语音系统。尽管 MMS 的多语言语音数据在说话者多样性上存在限制,但这反而成为了构建文本到语音系统的优势。系统生成的语音质量良好,以下是 Yoruba、Iloko 和 Maithili 语言的合成样例。

小结

这些结果表明,MMS 项目能够在大量的语言上实现高质量的语音识别,与当前最佳的语音模型相比,其性能可以表现得非常好。然而,正如所有新的 AI 技术一样,MMS 模型并不完美,可能存在错误转录单词或短语的风险,可能导致输出的语言冒犯或不准确。Meta 将继续与 AI 社区合作,以负责任地发展 AI 技术。

愿景

该项目旨在朝着支持数千种语言的单一语音模型迈进。当前的语音识别和语音生成技术的限制可能加速许多语言消失的趋势,但我们希望通过技术的发展来鼓励人们保持他们的语言活力(可以通过使用自己首选的语言来访问信息和使用技术)。

大规模多语言语音项目是朝着这个目标迈出的重要一步。未来的计划包括增加语言覆盖范围,支持更多语言,并解决处理方言的挑战。目标是使人们更容易用自己首选的语言访问信息和使用设备。同时,预期单一模型能够解决所有语言的多个语音任务,包括语音识别、语音合成和语言识别,以提供更好的整体性能。

这个项目的追求有助于保护多样的语言文化,让人们可以以自己熟悉的语言进行交流和使用技术。这也将促进语音技术在各种应用领域的发展,为人们提供更广泛的语言选择和更便捷的语音交互体验。

References

[1]

Scaling Speech Technology to 1,000+ Languages: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages

[2]

Introducing speech-to-text, text-to-speech, and more for 1,100+ languages: https://ai.facebook.com/blog/multilingual-model-speech-recognition

[3]

facebookresearch/fairseq/examples/mms: https://github.com/facebookresearch/fairseq/tree/main/examples/mms

[4]

MMS - Language Coverage: https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html

[5]

MMS-300M: https://dl.fbaipublicfiles.com/mms/pretraining/base_300m.pt

[6]

MMS-1B: https://dl.fbaipublicfiles.com/mms/pretraining/base_1b.pt

[7]

wav2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec

[8]

wav2vec 2.0: https://ai.facebook.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio

[9]

NLLB 项目: https://ai.facebook.com/blog/nllb-200-high-quality-machine-translation

[10]

FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech: https://ar5iv.labs.arxiv.org/html/2205.12446

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存