其他
仅用1/4数据量还原真人语音100%细节 火山语音上新超自然对话语音合成技术
导航中种类丰富但语气机械的“前方路口左转”…… 接电话时,对面笨拙无感情的“您好,这里是xx信用卡中心”…… 视频网站上,十个解说视频九个声音相同,看到就想赶快划走的“注意看,这个男人叫小帅”…...
这么厉害的技术,究竟是怎么办到的?
在文本层面,火山语音采用了生成式的风格迁移模型,模仿真人说话的方式对文本进行可控的口语化转写,让文本更好地拥抱口语化,避免最终效果太过书面。 在语音层面,团队则是通过文本分析模型的突破,在TTS的输入侧额外增加了副语言预测,模仿真人的发音特点来实现自然自发的语音效果。
致力文本口语化 让“拟真人表达”跃然纸上
阶段一:采用自监督方法,使用伪数据对口语化模型进行预训练,降低了数据量的需求;同时在模型中引入了指针网络结构,增强了文本可控性。 阶段二:利用少量优质的人工标注数据,对预训练好的口语化模型进行微调,最终实现可控的、自然的口语化文本效果。
副语言建模+韵律多样性可圈可点
语音真实感全面升级
—END—
AI与艺术碰撞火花,火山语音如何诠释1+1大于2 新进展!火山语音在KDD 2022上提出“无中生有式”对抗语音攻击的创新方案 喜提虎啸奖「年度最佳智能营销系统」 火山语音助力智慧听鉴方案获得认可 「AISummit」火山语音带你一探语音识别技术在飞书会议中的创新应用 不止原声重现!两分钟录音就可定制“神奇语音” ,火山语音让你秒变语言通! 入选人工智能顶级期刊TPAMI 火山语音带来机器学习领域新突破