三点几嚟,饮茶先啦!PaddleSpeech发布全流程粤语语音合成
PaddleSpeech 是飞桨开源语音模型库,其提供了一套完整的语音识别、语音合成、声音分类和说话人识别等多个任务的解决方案。近日,PaddleSpeech 迎来了重要更新——r1.4.0版本。在这个版本中,PaddleSpeech 带来了中文 wav2vec2.0 fine-tune 流程、升级的中英文语音识别以及全流程粤语语音合成等重要更新。接下来,我们将详细介绍这些更新内容以及亮点。
在r1.4.0版本中,我们实现了中文 wav2vec2.0 fine-tune 流程。wav2vec2.0 是一种基于自监督学习的语音特征提取方法,通过训练未标注的语音数据,学习到音频信号的有用表示。
wav2vec2.0 使用一个基于卷积神经网络(CNN)的编码器来提取语音特征,然后使用一个 Transformer 架构的上下文网络来捕捉特征之间的时序关系。在 fine-tune 阶段,通过添加一个线性分类层来适应中文语音识别任务。
wav2vec2.0 的主要组成部分
前处理
特征提取器
上下文网络
自监督学习
线性分类器
在自监督学习的基础上,为了实现音频到文本的转换,模型在最后一层添加了一个线性分类器。这个分类器将上下文网络输出的特征向量映射到对应的 token。
通过这一流程,PaddleSpeech 能够在无需大量标注数据的情况下,提供高效准确的中文语音识别模型。在 PaddleSpeech 给出的 fine-tune 流程示例中,预训练模型基于 WenetSpeech Dataset ,使用 aishell1 数据集进行微调,在两块32G V100 上训练80个 Epoch ,batch size 设置为5,Encoder 使用 wav2vec2.0, Decoder 阶段使用 CTC ,解码阶段使用 Greedy search 。最终在 aishell1 测试数据集上字错误率(CER)为0.051,折算成识别正确率94.9%。
项目体验传送门
训练全流程体验
Python 示例
from paddlespeech.cli.tts import TTSExecutor
tts_executor = TTSExecutor()
wav_file = tts_executor(
text='三点几嚟,饮茶先啦!',
am='fastspeech2_canton',
voc='hifigan_csmsc',
lang='canton',
spk_id=10,
use_onnx=True,
output='api_1.wav',
cpu_threads=2)
效果示例
你也可以参考 PaddleSpeech 的语音合成部署示例,将粤语语音合成模型部署到手机或者其它边缘设备中,你可以参考以下流程:
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/TTSAndroid
在这次更新中,PaddleSpeech 发布了中英文语音识别预训练模型 conformer_talcs ,通过命令行工具 CLI 或者 Python 接口可以快速使用。开发者们可以基于这部分工作搭建自己的智能语音应用,也可以参考示例 examples/tal_cs/asr1 训练自己的中英文语音识别模型。该模型采用 Conformer 架构和 CTC 损失函数,实现对中英文混合语音的识别。Conformer 架构使用自注意力机制捕获输入序列中的长距离依赖关系,从而提高语音识别的准确性。同时,CTC 损失函数允许模型在不需要对齐输入和输出的情况下进行训练,简化了训练过程。针对中英文混合场景,我们在训练数据上引入了 code-switch 标签,使模型能够在单一语言和混合语言之间灵活切换。这一技术为用户带来了更优质的中英文混合语音识别体验。
Python 接口快速体验
from paddlespeech.cli.asr import ASRExecutor
asr_executor = ASRExecutor()
text = asr_executor(
model='conformer_talcs',
lang='zh_en',
sample_rate=16000,
config=None,
ckpt_path=None,
audio_file='./ch_zh_mix.wav',
codeswitch=True,
force_yes=False,
device=paddle.get_device())
print('ASR Result: \n{}'.format(text))
智能客服
教育领域
语音助手
会议记录与翻译
想要学习 PaddleSpeech 的更多用法,欢迎大家点击 Star 支持我们的工作,了解 PaddleSpeech 最新资讯。
参考文献