查看原文
其他

Seed-TTS by 字节: 一系列高质量多功能语音生成模型

renee创业狗 Renee 创业随笔
2024-10-09

之前分享过 ChatTTS,这个月字节发布了 SeedTTS。目前只有论文,代码尚未公开。

官方Demo

  1. 语音因子分解 - 零样本语音转换

Source Audio

Timbre Prompt

Converted Audio

  1. 通过强化学习的偏好调整 - 零样本情境学习中的情感控制

Prompt

Angry

Happy

  1. 完全基于扩散的语音生成 - 零样本 TTS

Prompt

Same Language Generation

I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences.

Cross-linugal Generation

顿时,气氛变得沉郁起来。乍看之下,一切的困扰仿佛都围绕在我身边。我皱着眉头,感受着那份压力,但我知道我不能放弃,不能认输。于是,我深吸一口气,心底的声音告诉我:“无论如何,都要冷静下来,重新开始。”

应用场景:

  • 有声书

“这个药丸……不会是迷药或者春药之类的东西吧?我怎么闻着香味儿和两位姐姐说的那么相似?嗯,你该不会……想对我图谋不轨吧?”韩立闻言是愣了半天呐,他现在突然有种吐血三碗的感觉,这女孩儿的心思也太难以捉摸了吧,竟然能把迎香丸,联想到春药上。哎呀韩立现在也不知是该佩服对方的谨慎小心,还是应该为自己的无故蒙冤,而大呼三声了。“看样子,你好像说的是真的。不过,我还是要把它拿去给二姐检验下才能用,毕竟我们女儿家,要小心为上。”“咳,咳,呃随便你了。”韩立无言,只能干咳几声,掩饰一下自己脸上的窘迫,他现在觉得呀,自己还是离这个小妖精远点的好,否则,不知什么时候就要被她给郁闷死了。“哼哼,不过,如果这药真像你所说的那么好用,那就算你过关啦!今后师兄在莫府有什么为难的事,尽管可以来找彩环帮忙。我只要收些小小的报酬,就肯定能帮你完全解决。”“行啊,师妹,师兄有事,一定找你帮忙。”韩立这时也恢复了常态,皮笑肉不笑地回应着此话,心里呀,却在恶狠狠地想到:“找你这个小财迷才怪了。”

  • 跨语言内容创作

Source Video

Generated Video

摘要

Seed-TTS是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型,在语音情境学习中表现出色,在说话者相似度和自然度方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调,Seed-TTS在这些指标上的主观得分甚至更高。Seed-TTS在各种语音属性(如情感)的可控性方面表现优越,能够为野外的说话者生成高度富有表现力和多样化的语音。此外,团队提出了一种用于语音因子分解的自蒸馏方法,以及一种强化学习方法,以增强模型的鲁棒性、说话者相似性和可控性。研究团队还提出了一种Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,该变体利用了完全基于扩散的架构。与之前的基于NAR的TTS系统不同,Seed-TTSDiT不依赖于预估的音素时长,并通过端到端处理进行语音生成。研究团队证明了该变体在客观和主观评估中实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

方法

Seed-TTS推理流程概述


  1. 语音分词器:从参考语音中学习分词。
  2. 自回归语言模型:根据条件文本和语音生成语音分词。
  3. 扩散变压器模型:在给定生成的语音分词的情况下,以由粗到细的方式生成连续的语音表示。
  4. 声学声码器:从扩散输出中生成高质量的语音。
继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存