AI变声器chatTTS教程来了！5S夺走你的卧槽

Original 赵kk 赵KK日常技术记录

2024-10-07

先看这段视频~~

温馨提示公众号已开启留言功能哦，后台回复有彩蛋

那么到底KK是男孩子还是女孩子？请留言不信的扣1，想看照片的扣666

像这种充满语气充满感情色彩的人声，再搭配一段自拍图，是由最近大火的AI项目chatTTS生成的，ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且为SFT的版本.

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究

废话少说怎么来用呢？

先说下显卡限制：对于30s的音频, 至少需要4G的显存.也就是说只要你是一个AI绘画玩家，你基本就完全可用，那么回复【chatTTS】可领取本地一键整合包

语法支持

音频生成速度：使用4090技术，大约每秒钟可以生成7个字的音频。

响应时间：音频生成的实时因子（RTF）大约是0.3秒。

模型支持：目前，开源版本的语气词仅支持三种基本类型。

模型稳定性：自回归模型普遍存在的问题是稳定性不足。可能会出现声音突然变成其他人的声音，或者音质变得非常差。这种情况通常难以完全避免，但可以通过多次尝试来寻找更好的音频效果。

情感控制：目前发布的模型版本中，可以控制的只有笑声（[laugh]）以及一些声音中断（[uv_break], [lbreak]）作为字级别的控制单元。我们计划在未来的版本中开源更多情感控制的功能。

填入文本，我测试发现含有语气词，停顿，能够更好的表达语音感情，如果是长文本则需要测试其停顿性效果，比如加入了[uv_break],或者[lbreak]我觉得非常不错
选择音色
立即合成即可

还有支持分段语音和分批文本，比如我我读一下往期的大家的评论

KK长这样子你信吗？

合成效果

看到这里了，可以留言点赞三连哦~~下期还看照片吗？

个人观点，仅供参考

继续滑动看下一个

赵KK日常技术记录

向上滑动看下一个

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯

AI变声器chatTTS教程来了！5S夺走你的卧槽

您可能也对以下帖子感兴趣

看到辛瓦尔死前3天没吃任何东西，立即想到了杨靖宇

西班牙街头一幕！国王遭民众围攻

又一个特朗普时代！对美国、中国和世界的影响

今天，石狮这所小学向全市展示！

灯塔国的灯

生成图片，分享到微信朋友圈

AI变声器chatTTS教程来了！5S夺走你的卧槽

您可能也对以下帖子感兴趣