查看原文
其他

MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )

Aitrainee AI进修生
2024-12-28

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

分享一个效果非常不错的TTS,一个完全非自回归的TTS模型,实现了 SOTA 零样本 TTS 性能。

趣丸科技联合香港中文大学(深圳)开源。

区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。


我们先来看效果

MaskGCT 可以模仿名人或动画节目中角色的声音。


还有如下零样本情境学习的效果:

零样本 TTS 系统:指在没有针对特定任务的训练数据的情况下,模型依然能生成自然的语音;即无需训练可以模仿任何人的声音


它不需要文本与语音之间的显式对齐信息,也无需音素级持续时间预测,采用掩码和预测的学习方式。
支持控制生成语音的总长度,调节语速、停顿等韵律特征,能够实现情感和语气调整,如开心、悲伤、生气、平静等情绪。
支持零样本语音合成,可以修改已生成的语音,支持声音转换和克隆。

MaskGCT 可以学习即时语音的韵律、风格和情感。


语音转换
语音转换是将一个人的声音转换为另一个人的声音,同时保持说话内容不变。这项技术通常用于语音克隆、音频编辑和个性化语音助手。

你看下面这个示例,就是将左边人的说话内容转化为中间人的声音重说一遍


Speech Editing 语音编辑

基于掩码和预测机制,其中的文本到语义模型支持在文本语音对齐器的帮助下进行零样本语音内容编辑。通过使用对齐器,可以识别原始语义标记序列的编辑边界,屏蔽需要编辑的部分,然后使用编辑后的文本和未屏蔽的语义标记来预测屏蔽的语义标记。

"并且随着水滴大小的增大,彩色带变得更宽。" 到 “并且彩色带的宽度随着水滴大小的增加而增加。” 的编辑


语音节奏可控性
语音节奏可控性是指能够调整生成语音的节奏和持续时间。这意味着用户可以控制语音的快慢、停顿等特征,以实现更自然的语音效果。


最后他还提供了跨语种的视频翻译功能演示


System Overview 系统概述

优于现有的 SOTA 模型(如 CosyVoice 和 XTTS-v2)

从这张表格中可以看出,MaskGCT 模型在多个指标上表现优异,尤其是在以下几个方面:

  1. 1. SIM-O (相似度):MaskGCT 的相似度评分非常接近 Ground Truth,尤其在 SeedTTS 测试集(SeedTTS test-en 和 test-zh)上,SIM-O 值达到了 0.774 和 0.777,接近 Ground Truth,表现优于其他模型。

  2. 2. WER (词错误率):MaskGCT 的 WER 较低,说明语音生成的准确性较高。它的 WER 值明显低于一些竞争模型,特别是在 SeedTTS 测试集上的表现突出。

  3. 3. FSD (频谱距离):MaskGCT 的 FSD 值低于大多数其他模型,这表明它在生成语音时更接近真实语音的频谱特性,音质更接近真实人声。

  4. 4. SMOS 和 CMOS (语音和音质主观评分):MaskGCT 在 SMOS 和 CMOS 上得分接近或超过其他模型,尤其在 "gt length" 的情况下(使用真实语音时长作为参考),表现出色,显示出更高的自然度和音质质量。

总的来说,MaskGCT 在多项测试集上都接近甚至优于现有的 SOTA 模型(如 CosyVoice 和 XTTS-v2),这表明它在语音生成的自然度、准确性和音质方面有明显优势。

更多示例查看此处:https://maskgct.github.io/体验地址https://voice.funnycp.com/audioTranshttps://huggingface.co/spaces/amphion/maskgct论文:https://arxiv.org/html/2409.00750v3

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

修改于
继续滑动看下一个
AI进修生
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存