【新开源报道 37】Facebook 开源语音识别工具包wav2letter
开源最前线(ID:OpenSourceTop) 猿妹 整编
来源:GitHub
近日,Facebook AI 研究院开源了端到端语音识别系统 wav2letter,本文是该架构的论文实现,读者可据此做语音转录。
ASR 系统 wav2letter
授权协议:BSD
开发语言:Lua
操作系统:跨平台
开发厂商:Facebook
项目地址:https://github.com/facebookresearch/wav2letter
Facebook AI 研究院近日开源了一款简单高效的端到端自动语音识别(ASR)系统 wav2letter,wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。
wav2letter 简介
wav2letter 是 Facebook AI 研究院今天开源的简单高效的端到端自动语音识别(ASR)系统。该实现的原作者包括 Ronan Collobert、Christian Puhrsch、Gabriel Synnaeve、Neil Zeghidour 和 Vitaliy Liptchinsky。
如果你使用 wav2letter 或相关的预训练模型,需引用其中的一篇论文。
另外,如果想要立刻进行语音转录的,Facebook 还提供了 Librispeech 数据集上预训练模型。
预训练模型:https://github.com/facebookresearch/wav2letter#pre-trained-models
Librispeech 数据集:http://www.openslr.org/12
wav2letter 训练
数据文件夹包含多个用于预处理多种数据集的脚本。目前我们仅提供 LibriSpeech 和 TIMIT。以下是预处理 LibriSpeech ASR 语料库的例子:
在多 GPU 上训练
使用 OpenMPI 进行多 GPU 训练:
这里,我们假定 mpirun 位于$PATH。
安装要求
● MacOS 或 Linux 操作系统
● Torch,我们在下文介绍了安装教程
● 在 CPU 上训练:Intel MKL
● 在 GPU 上训练:NVIDIA CUDA Toolkit (cuDNN v5.1 for CUDA 8.0)
● 读取录音文件:Libsndfile(必须在任何标准发行版中可用)
● 标准语音特征:FFTW(必须在任何标准发行版中可用)
附:新开源报道汇总
《【新开源报道 36】有效减少错误代码!Instagram 开源用于 Python 3 的 MonkeyType 工具》
《【新开源报道 35】国内第一家私有视频通信软件 Tucodec 开源》
《【新开源报道 34】AMD 开源基于 Mesa 的 Vulkan Linux 驱动》
《【新开源报道 33】安全软件公司 Avast 开源机器码反编译器 RetDec》
《【新开源报道 32】谷歌开源 TFGAN:轻量级生成对抗网络工具库》
《【新开源报道 31】国内首套开源持续集成(CI) 解决方案 flow.ci 开源啦》
《【开源推荐 30】苹果开源领域又一深造:开源机器学习框架 Turi Create》
《【新开源推荐 29】AI开发者的福音:360公司宣布开源深度学习调度平台 XLearning!》
《【新开源推荐 28】百度正式开源 Linux 发行版 MesaLock Linux》
《【新开源报道 27】百度开源高性能 Python 分布式计算框架 Bigflow》
《【新开源报道 26】滴滴开源基于 Vue.js 的移动端组件库 cube-ui》
《【新开源报道 25】Google 开源 Docker 镜像差异分析工具 container-diff》
《【新开源报道 24】美团点评开源MySQL闪回工具 —— MyFlash》
《【新开源报道 23】IBM 推出首套开源现代化字体 —— IBM Plex》
《【新开源报道 22】Microsoft 开源用于 VS Code 的 Java Debugger》
《【新开源报道 21】阿里开源容器技术Pouch和P2P文件分发系统“蜻蜓”》
《【新开源报道 20】Uber正式开源其分布式跟踪系统Jaeger》
《【新开源报道 19】Uber与斯坦福大学开源深度概率编程语言Pyro》
《【新开源报道 18】谷歌开放内部工具 Colaboratory 来协助 AI 开发》
《【新开源报道 17】这波开源满分!清华大学开源网络嵌入的工具包 —— OpenNE》
《【新开源报道 16】AI开发者福音!微软亚马逊联合发布深度学习库 Gloun》
《【新开源报道 15】谷歌发布量子开源软件,量子计算机对科学家免费开放 》
《【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark》
《【新开源报道 13】Facebook 开源帮助开发者消灭最顽固的软件 bug 的工具》
《【新开源报道 12】不只是阿里巴巴的操作系统,AliOS 宣布开源》
《【新开源报道 11】重磅!阿里巴巴正式开源全球化OpenMessaging和ApsaraCache项目》
《【新开源报道 10】IBM 和谷歌等巨头联手为开发者推出开源容器安全工具Grafeas》
《【新开源报道 9】Google开源Abseil,为C++和Python开发提供支持》
《【新开源报道 8】serverless 领域的福音!Oracle 宣布开源 Fn project》
《【新开源报道 7】苹果在 GitHub 上公布 macOS 和 iOS 内核源码》
《【新开源报道 6】百度开源移动端深度学习框架mobile-deep-learning(MDL)》
《【新开源报道 5】百度正式开源其 RPC 框架 brpc》
《【新开源报道 4】IBM 开源动态的应用服务器运行时环境 Open Liberty》
《【新开源报道 3】微信后台团队最近开源力作:PhxQueue分布式队列》
●本文编号136,以后想阅读这篇文章直接输入136即可
●输入m获取文章目录
↓↓↓ 点击"阅读原文" 进入GitHub详情页