刚刚!最佳语音识别 Whisper-large-v3-turbo 上线,速度更快(本地安装 + Whisper-web)
🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
刚刚,Openai whisper-large-v3-turbo 上线了 ...
在本文中,我们将介绍 whisper-large-v3-turbo 以及 whisper-web(一个直接在浏览器中进行ML语音识别的开源项目)。
尽管近年来出现了许多音频和多模态模型,但Whisper 仍是生产级自动语音识别(ASR)的首选。
Whisper 是一种最先进的自动语音识别 (ASR) 和语音翻译模型,由 OpenAI 的 Alec Radford 等人在论文《 通过大规模弱监督实现稳健语音识别》中提出。
新推出的 Whisper Turbo 模型是 OpenAI 开发的,经过约 500 万小时的标记数据训练,具有出色的泛化能力。
与其前身 Whisper 大型版本 3 相比,Turbo 版在解码层数上从 32 降至 4,运行速度更快,尽管质量略有下降,但差别非常小。
我们将通过 Hugging Face 本地安装该模型,尝试几个音频文件:
创建一个简单的虚拟环境
安装一些先决条件,包括 Torch、Transformers 等。
现在启动 Jupyter Notebook
Jupyter Notebook 启动后,我们导入所有库,然后获取模型,我们选择 Whisper 大型版本 3 Turbo,然后下载模型并将其放入我们的 CUDA 设备(即 GPU),接着我会初始化这个自动语音识别的管道,提供模型、分词器,并指定我们的 CUDA 设备。
这个模型非常轻量级,不到 2GB。
下载完成后,你只需提供本地音频文件,或者你也可以加载来自 Hugging Face 的任何音频数据集,并进行处理。
正常work:
好了,我们还将介绍另外一个项目:whisper-web 并实地安装测试它:
首先克隆仓库
然后安装依赖+启动
最后打开5173端口,下面播放语音转文字效果()支持多语言,包括中文),有两种体量模型,还可以量化。
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
[1] github:https://github.com/xenova/whisper-web
[2] huggingface:https://huggingface.co/openai/whisper-large-v3-turbo
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~