查看原文
其他

PPT+视频回放 | 《语音识别引擎后端架构设计》58同城AI Lab后端架构师,王焱

AICUG 58AILab 2022-03-15

语音识别引擎后端架构设计语音是58同城生活服务平台上用户之间的重要沟通媒介,C端和B端用户之间可以通过电话、音视频通话建立连接,58同城销售客服人员会通过呼叫中心与客户进行电话沟通,每年会产生数百万小时的通话录音,这些语音数据具备巨大的挖掘价值,我们自主研发了58生活服务领域的语音识别引擎,效果优于同类型语音厂商和业界通用语音识别厂商。本次议题将讲述我们如何从0到1构建语音识别后端服务,首先介绍系统总体架构,然后介绍语音文件转写服务,包括语音文件解析、语音解码和docker服务部署,再介绍实时语音识别服务,包括音频字节流的交互和实时解码过程,最后总结开发过程中遇到的问题及优化实践经验。分享嘉宾:王焱,58同城AI Lab后端架构师。2017年2月加入58,目前主要负责语音识别引擎后端架构设计和开发工作,曾先后负责过推荐系统、智能语音机器人系统的后端架构与开发工作,曾就职于汤森路透、H3C。
大会海报

录像回顾


PPT下载链接

http://knothacker.aicug.cn/all-slides


PPT一览


QA答疑

Q: 轮询是直接用TCP协议吗?

A: 如果是采用HTTP或者RPC请求,传输层都是tcp协议。当然也可以选择UDP协议。


Q: 8K语音可以升采样到16K,再用16K模型识别吗?

A: 可以,目前我们电话的场景就是8k的语音,上采样到16k,用16k模型来训练和识别的。


Q: 实时语音转写服务时延是怎么控制的?

A: 整个系统的时延控制,需要了解系统的瓶颈在哪里,我们开发系统的时候,一般通过经验已经知道大概的瓶颈在哪里,通过压测的方式,可以知道详细的数据。实时语音转写的瓶颈主要在实时解码服务中,如果提高解码服务吞吐能力,就只能从优化解码效率,或者水平扩展增加服务部署来解决。


Q: 音频流中每一个音频块时长是多少,每个音频块都会识别出一段话吗,这样的话lattice搜索路径会受到影响吗?

A: 音频快时长和并发的耗时没有关系,理论上音频块大小多少都可以,目前我们默认100ms的时长。每个音频块不一定有人声的部分,也不一定有转写的结果。lattice的搜索路径随着音频块的输入是一直在调整的。


Q: lattice选取具体怎么优化?

A: 我们优化是减少了把音频特征再加入lattice中的耗时,取结果时直接从网络中找这条最优路径。


Q: 语音前处理,对降噪吗?识别结果后处理需要纠错吗?

A: 目前没有专门做降噪预处理,我们是电话近场的场景,大部分情况下都是比较清晰的,如果做降噪的话,可能效果上提升也不会太大。后处理的部分,针对我们的业务场景,目前没有做纠错,只是添加标点。


Q: 保证实时率稳定与内存的占用低有什么好的优化措施?

A: 语音转写的处理,不但是内存占用,还有cpu/gpu的使用率等,语音转写的处理能力和业务上对时延的要求应该取一个折中的方案。一般我们实时率对于一定的解码器都能有一个最优的值。


Q: 嵌入式语音识别有什么方案推荐呢?

A: 目前应该有语音识别专业的芯片,或者自己移植开发一套语音识别系统,或者只实现联网连接功能,把语音识别作为云端服务。


Q: 请问有准备上线端到端语音识别系统吗?

A: 模型已经在训练中,识别效果不错,下一步会上线端到端识别。


AI Lab 招聘信息

58同城AI Lab 社招/校招/实习生 招聘,欢迎加入

欢迎关注开源项目 qa_matchqa_match是58同城开源的一款基于深度学习的问答匹配工具,支持一层和两层结构知识库问答。qa_match通过意图匹配模型支持一层结构知识库问答,通过融合领域分类模型和意图匹配模型的结果支持两层结构知识库问答。qa_match同时支持无监督预训练功能,通过轻量级预训练语言模型(SPTM,Simple Pre-trained Model)可以提升基于知识库问答等下游任务的效果。github地址:https://github.com/wuba/qa_match
文章介绍:
欢迎关注开源项目 dl_inferencedl_inference是58同城推出的通用深度学习推理服务,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。dl_inference提供GPU和CPU两种部署方式,实现了模型多节点部署时的负载均衡策略,支持线上海量推理请求,该服务支撑了58同城各AI场景下日均超过10亿次的线上推理请求。github地址:https://github.com/wuba/dl_inference文章介绍:
部门介绍58同城TEG技术工程平台群AI Lab,旨在推动AI技术在58的落地,打造AI中台能力,以提高各前台业务人效、收入和用户体验。AI Lab目前负责的主要产品包括:智能客服、语音机器人、"灵犀"智能语音分析平台、智能写稿、AI算法平台、语音识别、CRM商机智能分配系统等,未来将持续加速创新,拓展AI应用。

欢迎关注部门微信公众号:58AILab

欢迎加入58 AI Lab技术交流社区

欢迎在欣秀(https://app.ic3i.com)平台上加入"58同城AILab技术沙龙"圈子,一起交流技术,可以扫描以下二维码加入该圈子。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存