查看原文
其他

AI变声器chatTTS教程来了!5S夺走你的卧槽

赵kk 赵KK日常技术记录
2024-10-07
先看这段视频~~

温馨提示公众号已开启留言功能哦,后台回复有彩蛋

那么到底KK是男孩子还是女孩子?请留言不信的扣1,想看照片的扣666

 像这种充满语气充满感情色彩的人声,再搭配一段自拍图,是由最近大火的AI项目chatTTS生成的,ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且为SFT的版本.

  1. 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

  2. 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

  3. 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究

废话少说怎么来用呢?

先说下显卡限制:对于30s的音频, 至少需要4G的显存.也就是说只要你是一个AI绘画玩家,你基本就完全可用,那么回复【chatTTS】可领取本地一键整合包

语法支持

音频生成速度:使用4090技术,大约每秒钟可以生成7个字的音频。

响应时间:音频生成的实时因子(RTF)大约是0.3秒。

模型支持:目前,开源版本的语气词仅支持三种基本类型。

模型稳定性:自回归模型普遍存在的问题是稳定性不足。可能会出现声音突然变成其他人的声音,或者音质变得非常差。这种情况通常难以完全避免,但可以通过多次尝试来寻找更好的音频效果。

情感控制:目前发布的模型版本中,可以控制的只有笑声([laugh])以及一些声音中断([uv_break], [lbreak])作为字级别的控制单元。我们计划在未来的版本中开源更多情感控制的功能。

  1. 填入文本,我测试发现含有语气词,停顿,能够更好的表达语音感情,如果是长文本则需要测试其停顿性效果,比如加入了[uv_break],或者[lbreak]我觉得非常不错

  2. 选择音色

  3. 立即合成即可

还有支持分段语音和分批文本,比如我我读一下往期的大家的评论

KK长这样子你信吗?

合成效果

看到这里了,可以留言点赞三连哦~~下期还看照片吗?

个人观点,仅供参考
继续滑动看下一个
赵KK日常技术记录
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存