其他
3人半年打造语音识别引擎--58同城语音识别自研之路
导读
大多数人会认为研发语音识别技术是一条艰难的道路,投入会巨大,道路会很漫长。我们于2019年11月组建了3人团队自主研发语音识别技术,包括2名算法工程师和1名后端工程师,历经半年,自研语音识别引擎效果超过第三方采购厂商,成功打造了58语音识别引擎。本文将分享我们自研语音识别技术历程,望对走在自研道路上的同行有一定借鉴意义。
本文收益:了解语音识别基本概念、语音数据标注、算法模型、工程架构。
阅读时长:本文共 8000 字,阅读时长 10 分钟。
背景
研发思路
算法模型
工程架构
通过调整解码器参数降低了解码网络搜索规模。 在解码网络中选择路径时,去除了对于选择路径无关的音素和词的遍历,降低了网络搜索耗时。 修改内存分配/释放方式,使用tcmalloc代替原始的malloc,减少了内存碎片、降低了内存操作耗时。
获取每次中间结果的性能差、耗时高。 每次发送给解码服务的语音单位时长影响获取中间结果的耗时,单位时长越长,获取中间结果的耗时越高。获取每次中间结果耗时高,持续积累后,当用户说话结束时获取最终识别结果的耗时会越长,会出现用户说话结束了但最终结果还没解码完成的情况,大大影响用户体验。
总结和展望
作者简介
部门简介