离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

Original 砺心阿虚同学 2024-03-18

阿虚同学

读完需要

15分钟

速读仅需 8 分钟

关于语音转文字这个话题，阿虚上一次介绍已经是几年之前了

除了不少工具失效，如今又有了新的工具出现，再加上经常被大家问到，且阿虚自己也有这个需求（经常需要帮我妈转换视频成文本她方便学习），所以今天就打算再来替大家研究一下2023年的语音转文字方案

虽说是语音转文字，但实际上视频转文字也可以划到同一个问题场景之下——毕竟随便就能找到软件把视频转为音频

阿虚很早之前就推荐过音视频格式转换软件（👈点击即可查看）

除此之外，视频生成字幕其实也可以归属于同一类问题（带时间轴），不过这个问题更多应该是视频制作者才会需要，阿虚之前也有专门写过（👈点击即可查看），这里就不赘述了

阿虚这篇文章还是就准备再来重新介绍一下2023年值得推荐的语音识别工具（按提供服务的厂商进行介绍）

最重要的各平台识别质量对比，请见文末

网易

1.1

网易见外（网页）

地址：https://sight.youdao.com/

网易见外是网易人工智能事业部旗下的 AI 视频翻译产品，阿虚印象中好像是国内最早一批上线的此类服务了

而天地良心的，从2017年9月上线到现在，这个平台一直都是免费的！虽然这期间有过平台将下线的流言，但事实上直到如今依旧可以正常使用

你只需要登录你的网易账号，就可以享受这个平台诸多的「AI 智能转写」服务，从最开始主打的视频翻译，到如今已经支持视频转写、字幕翻译、文档翻译、语音翻译、语音转写、会议同传、图片翻译整整8大功能了

如果我们需要将视频或者音频转成文字，那么需要使用的是「语音转写」这个功能

单次仅允许＜500M，mp3、wav、aac 格式的音频文件，支持中文或者英文，另外据悉每天上传的音频不能超过 2 小时

阿虚测试了一个4分多钟的音频，大概不到1分钟就转写好了，转写好之后可以在线预览：随着音频播放会加粗高亮显示实际转写出来对应的哪一句

如果你发现整个文档有某些词都统一转写错了，还可以点击顶部进行「词汇替换」，同时这里也可以进行「语气词过滤」

确认没问题之后最后可以在右上角导出为 Word 文件，使用起来可以说是相当便捷简单的

1.2

有道云笔记（安卓／iOS）

地址：https://note.youdao.com/

这里还不得不说网易其实在语音识别这块做的挺良心，除了有完全免费的网易见外，旗下的有道云笔记的实时语音识别竟也是完全免费的

如果你需要边录边转写，那有道云笔记或许就是一个非常不错的选择，只需要登录有道云笔记，点击语音速记 » 再点击转文字就行了

识别完成之后，可以把识别结果导出为存文字笔记（存文字，基本上和 TXT 差不多）

腾讯

2.1

腾讯云语音识别（网页／微信小程序）

地址：https://cloud.tencent.com/product/asr

除了网易，腾讯其实也提供了语音识别体验服务，打开上述链接点「立即使用」，登录腾讯云账号即可

目前的话免费额度还是相当良心的，不仅支持上传录音文件，更是支持实时语音识别，对个人偶尔使用我觉得这个每月额度完全足够（实在不够你可以弄多个账号嘛）

计费规则可能会变动，最新计费说明见官方文档：https://cloud.tencent.com/document/product/1093/35686

找到功能体验，我们就能上传文件进行识别了，目前识别语言支持普通话、粤语、上海话、英语、日语，并且还有非常强大的一点是支持分离说话人，即如果音频中有多个人说话，将会自动区别开！

具体识别结果要不要时间戳可以自行选择，导出的识别结果是 txt 文件

在网页端扫描二维码之后，即可在手机端的微信小程序进行实时语音识别（每月5小时）

2.2

字幕组机翻小助手 Tern（Win／Mac）

Github地址：https://github.com/1c7/Translate-Subtitle-File

如果你访问Github困难，建议了解《2022 Github加速访问教程》

除了上述从网页端使用腾讯云语音识别，我们也可以利用字幕组机翻小助手这款开源软件来进行调用，使用没啥难度，把文件拖进去点击开始识别即可

当然是用前需要进行比较繁琐的参数配置，这里的话由于软件内有提供详细的步骤，阿虚就不在此赘述了

其实从下图可以看到我们还可以配置阿里云、讯飞、IBM等服务商的语音识别服务，但除了阿里云、腾讯、IBM 其他都是收费才能使用，并且 IBM 注册配置稍显麻烦，中文识别肯定没有国内服务商做的好，阿虚也不是很推荐去折腾了

阿里巴巴

3.1

Videosrt（Win）

Github地址：https://github.com/wxbool/video-srt-windows

如果你访问Github困难，建议了解《2022 Github加速访问教程》

VideoSrt 这款开源免费的软件，其实也在之前视频免费生成字幕方案那期文章就介绍过，通过这款软件我们可以几乎免费使用阿里云的语音识别引擎，个人每天有 2 小时的语音识别免费额度

计费规则可能会变动，最新计费说明见官方文档：https://help.aliyun.com/document_detail/207373.html

只不过是用这款软件的步骤比较繁琐，需要我们手动先去申请阿里云的相关 API，配置到软件之后才能使用

具体 API 的申请＆配置，作者做了长达10分钟的超详细视频教程，阿虚便不在此赘述了：https://www.yuque.com/viggo-t7cdi/videosrt/em4n10

▲扫码即可查看

总之等你花大把时间把OSS、语音识别引擎的参数都配置好之后，就可以轻松使用软件了

字节跳动

4.1

飞书妙记（全平台）

地址：https://www.feishu.cn/product/minutes

飞书妙记则是这几年新晋互联网巨头字节跳动（抖音的公司）旗下产品，目前也是非常良心的完全免费

使用方法异常简单，注册登陆后，直接上传音频或者视频就能进行识别转换了，目前支持普通话、英语、日语

支持识别不同说话人，同时能自动添加标点符号和章节分段，识别完成之后可在网页有上角导出为 TXT 或 SRT 格式

除了网页端，在飞书APP上搜索安装飞书妙记应用之后，也可以快速在移动端录制音频进行识别（在录制时就会实时展示转写结果）

4.2

剪映（Win／安卓／iOS）

然后说一下在之前视频免费生成字幕方案那期文章里介绍过的剪映——这个其实也是抖音旗下产品

因为和飞书妙记的产品线不一样，一个是辅助会议记录，一个是为了降低用户发布抖音门槛，所以决定了两款产品未来的收费机制可能会不一样（剪映可能会一直免费下去，毕竟其已经区分了普通版和专业版）

之前还需要把音视频传到手机APP上进行字幕生成，现在也可以在Windows版剪映上进行操作了（实测目前网页版还不能进行此操作）：https://www.capcut.cn/

使用方法也很简单，打开软件点击 » 开始创作，把音视频文件拖入到素材库 » 再将音视频拖入到剪辑轨道

然后切换到文本功能，点击智能字幕，再点击开始识别，即可轻松进行语音识别了（最大支持 2 小时且不限次数使用）

转换完成之后我们在右上角就能进行导出，可以仅保存字幕文件为 TXT 或者 SRT 文件

同花顺

5.1

悦录（网页／安卓／iOS）

地址：http://www.voiceclub.cn/

悦录是早在前几年阿虚就有补充推荐的免费 AI 语音转文字工具，实际是浙江核新同花顺网络信息股份有限公司（成立于1995年，于2009年在深交所上市，是国内第一家互联网金融信息服务行业上市公司）旗下产品

时至如今依然每日可免费转换 3 个小时的普通话，200小时音频的云端存储空间（相当于云盘），另网站和APP均支持导入wav、m4a、aac、mp3、amr、wma 等音频格式和 mp4、3GP、mkv、flv、mov、wmv、mxf、avi 等视频格式（单个音视频文件限制＜500M）

同时支持区分说话人，还对金融财经、科技领域的音频有进一步的识别支持，并且支持提前输入音视频内的关键词来提高识别准确率

识别完之后可以在线查看，可以导出为 word 或者 txt，同时可以自行选择带不带时间戳

虽然不支持实时语音识别，但可以通过APP录音之后快速进行识别转换

百度

6.1

百度飞桨 PaddleSpeech（Win）

地址：https://github.com/PaddlePaddle/PaddleSpeech

既然网易、腾讯都介绍了，人工智能这块又怎么能少的了国内最早在此领域发力的百度？

早在2017年5月，百度飞浆就开源了旗下语音方向的模型库——PaddleSpeech

模型库有什么用呢？之前研究过「AI 绘画」的小伙伴应该都明白，AI 之所以能理解人类的意思，实际都是靠不断喂数据+反复匹配来提高吻合率的——AI 语音识别这一块也是一样

简单来说，根据百度飞桨官方文档搭建运行环境、安装依赖、下载模型库、编译源码之后，我们就能在本地离线进行语言识别了——不过自然这对90%的人来说都太难了

公众号@万能君的软件库基于 PaddleSpeech 开发了普通人也能一键使用的语音转文字工具，最关键的是可以离线无限次使用！

考虑到兼容性，目前的版本仅支持 CPU 转换，所以速度确实慢些⚠️（测试 R5-3600 的 CPU 一分钟音频转换时长30s，而测试 RTX 2060 显卡仅需 3s），仅支持Windows 64位系统

不过这个软件因为考虑到硬件方面的差异，对音频做了切分（每个切分片段时长 1 分钟），所以会影响一些句子的识别

最终转换结果的话，会自动保存为软件目录的「音频转换结果」文件夹下的 txt 文件

这款软件你可以到原作者公众号下载，为防失效阿虚也做了搬运，在阿虚公众号后台，发送以下关键词，就可以得到不限速下载地址了：

“
语音转文字
”

OpenAI

大家都知道 ChatGPT 是 OpenAI 公司训练出来的大型语言模型，而其训练的模型其实远不止此

去年年底，OpenAI 开源了其经过 68 万小时多语言（99种）数据进行训练得出的大规模的语音识别模型——Whipser：https://github.com/openai/whisper

在现如今的综合离线的语音识别工具中，他应该是目前最好的选择！

当然，只有预训练模型我们是无法使用的，OpenAI 官方的部署运行方法对于多数人来说也是过于复杂，但好在已经有开发者为我们一般人开发了带界面的软件，只需要下载软件+再导入 Whipser 模型即可使用了

为应对不同的语音转录需求，Whipser 一共推出了 tiny、base、small、medium、large 5档模型，具体自己电脑能跑的动哪个模型得看显卡性能

同时为了方便理解，下面的相对速度用秒数表示（不代表实际时间），在相同的硬件条件下，处理音频所需时间

模型	大小	所需显存	相对速度
tiny	39 M	~1 GB	32秒
base	74 M	~1 GB	16秒
small	244 M	~2 GB	6秒
medium	769 M	~5 GB	2秒
large	1550 M	~10 GB	1秒

<<左右滑动查看表格>>

由于 Whisper 的中文数据较少，如果转录的音频是中文，那么至少要用到 medium 模型，才能保证绝大多数正确

7.1

WhisperDesktop（Win）

Github地址：https://github.com/sakura6264/WhisperDesktop

如果你访问Github困难，建议了解《2022 Github加速访问教程》

下载 WhisperDesktop 后，将 Whipser 模型文件放入软件的 model 文件夹中，运行软件会让先让你选择模型，反正就是根据自己电脑性能能跑 large 就 large，不能就依次 medium、small...往下（当然如果你的音频太长，还得自己考虑处理时间）

不过由于 WhisperDesktop 支持 GPU 硬解，转录速度还是非常快的，阿虚测试 4 分多钟的音频，使用 medium 模型，几十秒就处理好了

为了方便下载，我已经将模型文件搬运到了国内的高速下载网盘，关注微信公众号：阿虚同学，发送以下关键词，后台即会回复下载地址了：

“
语音转文字
”

7.2

Buzz（Win／Mac／Linux）

Github地址：https://github.com/chidiwilliams/buzz

如果你访问Github困难，建议了解《2022 Github加速访问教程》

能用 WhisperDesktop 自然最好，如果你是 Mac 或者 Linux 系统，还有另一款带 GUI 界面的开源 Whipser 调用软件可供选择的——Buzz

缺点就是由于 Buzz 目前还不支持 GPU 硬解，只能使用 CPU 硬解，所以处理速度会慢很多！

Buzz 安装运行后会自动下载 .pt 格式的模型文件，但由于资源在国外下载速度较慢，阿虚建议是提前下好模型文件（公众号后台有提供），然后放在指定的文件夹，这样就能直接运行软件了：

Windows：C:\Users<你的用户名>.cache\whisper
Mac：~/.cache/whisper

运行软件之后的使用就非常简单了，在左上角导入音频，然后选择模型、语言、输出文件格式，最后点击 Run 即可

耐心等待转换完之后，点击下图的按钮（或者按快捷键Ctrl+E），就能打开识别结果导出为TXT了

PS：Buzz 还有个问题是导出的 TXT 文件没有换行，需要你把文本复制到 word 利用 Ctrl+H 将其中的空格都替换为 ^p 才能实现换行

阿虚这里将 Buzz 的模型文件搬运到了国内的高速下载网盘，可以关注微信公众号：阿虚同学，发送以下关键词，后台即会回复下载地址了：

“
语音转文字
”

今天介绍了来自百度、腾讯、网易、阿里巴巴、字节跳动、同花顺、OpenAI 的免费语音识别服务，多虽然多，但具体识别质量才是最关键的

而最关键的内容肯定是留到最后啦，阿虚找了2段音频做测试，得出了以下结果：

原文	传达信息与情感	摆脱平面的桎梏	2D不够立体	纸片人就是可以在3D场景上走	尖锐中唯一的圆角	收听一个设计类的播客节目	小岛秀夫	合金装备	打破了次元壁	皆可设计
网易：网易见外	传达兴趣与情感	摆脱平面的质骨	二d不顾立体	纸片人就是可以在三d场景上走	尖锐中唯一的远角	收听一个设计类的博客节目	小岛修复	合金装备	打破了次元币	皆可设计
网易：有道云笔记	传达信息与情感	摆脱平面的智慧	二d不可立体	纸片人就是可以在三d场景上走	监狱中唯一的圆角	收听一个设计类的播客节目	小岛修复	核心装备	打破了次元壁	皆可设计
腾讯云👍	传达信息与情感	摆脱平面的桎梏	2D不够立体	纸片人就是可以在3D场景上走	尖锐中唯一的圆角	收听一个设计类的博客节目	小岛秀夫	核心装备	打破了次元壁	杰克设计
阿里云👍	传达信息与情感	摆脱平面的桎梏	2D不够立体	纸片人就是可以在3D场景上走	尖锐中唯一的圆角	收听一个设计类的播客节目	小岛秀夫	合金装备	打破了次元壁	皆可设计
字节跳动：飞书妙记👍	传达信息与情感	摆脱平面的桎梏	2D 不够立体	只骗人就是可以在 3D 场景上走	尖锐中唯一的圆角	收听一个设计类的博客节目	小岛修复	合金装备	打破了次元壁	皆可设计
字节跳动：剪映	传达信息与情感	摆脱平面的质股	2D不够立体	只骗人就是可以在3D场景上走	尖锐中唯一的圆角	收听一个设计类的波克节目	小岛修复	合金装备	打破了次元币	皆可涉及
同花顺：悦录	传达兴趣情感	摆脱平面的智谷	二第不够立体	制片人就是可以在三d场景上走	尖锐中唯一的圆角	收听一个设计类的博客节目	小岛修复	核心装备	打破了次元比	接口设计
百度：百度飞桨👍	传达信息与情感	摆脱平面的桎梏	二d不够立体	纸片人就是可以在三d场景上走	尖锐中唯一的圆角	收听一个设计类的博客节目	小岛秀夫	核心装备	打破了次元币	皆可设计
OpenAI：Whisper👍	传达信息与情感	摆脱平面的智固	2D不够立体	纸片人就是可以在3D场景上走	尖锐中唯一的圆角	收听一个设计类的播客节目	小岛秀夫	合金装备	打破了次元币	皆可设计

<<左右滑动查看表格>>

上述测试音频来源于 @oooooohmygosh 的《平面之外，仍是设计》这期视频：https://www.bilibili.com/video/BV1SA41187Ms/

原文	碎片时间	坐下来写写脚本	布满巧克力味道	哪些实际意义呢	氪金手游	大脑前额叶皮质	睡前读一页	多巴胺、内啡肽
网易：网易见外	随便时间	坐下来写写脚本	不满巧克力味道	哪些实际意能	刻金手游	大脑前额液皮质	睡前读一页	多巴胺，内贝泰
网易：有道云笔记	睡眠时间	坐下来写写脚本	不满巧克力味道	哪些实际意义呢	合金手游	大脑前熬夜皮质	睡前读一页	多巴胺、那边太
腾讯云👍	碎片时间	坐下来写写脚本	布满巧克力味道	哪些实际意义呢	氪金手游	大脑前额叶皮质	睡前读一页	多巴胺、内啡肽
阿里云👍	碎片时间	坐下来写写脚本	布满巧克力味道	哪些实际意义呢	氪金手游	大脑前额叶皮质	睡前读一页	多巴胺、内啡肽
字节跳动：飞书妙记👍	碎片时间	坐下来写写脚本	布满巧克力味道	哪些实际意义呢	氪金手游	大脑前额叶皮滞	睡前读一夜	多巴胺、内悲态
字节跳动：剪映👍	碎片时间	坐下来歇歇脚本	布满巧克力味道	哪些实际意义呢	氪金手游	大脑前额叶皮质	睡前读一夜	多巴胺、内啡肽
同花顺：悦录	碎片时间	坐下来写写脚本	不满巧克力味道	哪些实际意能	克金手游	大脑前额叶皮滞	睡前读一夜	多巴胺、内胚肽
百度：百度飞桨	碎片时间	坐下来写写脚本	不满巧克力味道	哪些实际意呢	氪金手游	大脑前额夜皮质	睡前读一夜	多巴胺、内胚肽
OpenAI：Whisper	碎片时间	坐下来写写脚本	不满巧克力味道	有哪些实际意义呢	课金手游	大脑前额叶皮质	睡前读一夜	多巴胺、内胚胎

<<左右滑动查看表格>>

上述测试音频来源于 @帅soserious 的《这个习惯改变了我的人生》这期视频：https://v.douyin.com/UAhc2om/

如果综合阿虚测试的这2段音频：

阿里云应该是目前独一档的，针对各种固有名词、网络词语，甚至名人人名都能实现准确识别，整体错误相当之少
腾讯云、字节跳动的飞书妙记＆剪映、百度飞桨、OpenAI 的 Whisper 则表现时好时坏，算是第二梯队吧
网易见外、网易有道云笔记、同花顺悦录属于最拉胯一梯队，相较之下不推荐使用

不过由于阿里云配置相当麻烦且每天仅有 2 小时的语音识别免费额度，以后还不保证能一直提供免费额度，那可以免费、离线、无限次使用的百度飞桨、OpenAI：Whisper 就拥有相当大的优势了

总而言之，今天介绍的语音识别工具都是免费的，大家完全可以综合一起使用，选一个最能满足自己需求的

既然提到 AI 这个话题，这里不得不再次推荐下我和洋哥一起运营的 AI 星球！

两个多月的时间，我们的 ChatGPT 星球已经突破2.5W人了，速度最快，规模最大。已经产出12个专栏、50门系列课、八千篇帖子，其中精华帖子一百多篇，每一篇都达到了实操的标准

为了更好的服务大家，我们招聘了 6 位优秀的全职员工。洋哥辞去了网易高管的职位 All in 这件事，腾讯AI部门高级工程师小潘降薪加入我们、京东的高级产品经理竹子降薪加入我们、杭州的创业者阿国跨城市奔赴我们

知名投资人吴世春、人人网原CEO许朝军、三节课创始人黄有璨、前美团技术学院院长刘江、国内仅有的39个谷歌开发者专家之一黄鸿波这些AI＆互联网大佬都是我们的合伙人和嘉宾，还会不定期做分享

我们目前定价￥368元，正式运营会涨到￥999元，不过阿虚作为星球合作人给大家申请到了一些内部优惠券

通过我这边的优惠券加入，价格是￥299元，绝对是目前最低的价格！（你也可以从公众号主页的视频号橱窗购买加入）

现在加入星球，还将对星球会员永久赠送价值￥999的 ZelinAI Pro 版使用权（支持 ChatGPT 基本功能以及 Prompt 训练、调参等额外服务，你可以理解为国内版 ChatGPT），未来续费也送！这个资源绝对是在其他同类星球体验不到的

我们的目标是做一个 AI 生态，在这个生态里有的人能学会AI工具、更厉害的能用AI做副业赚钱（目前已开始AI航海计划）、再厉害点的能用AI创业做应用，抹平一切关于 AI 的信息差，成为新时代的超级个体！

如果你和我们抱有同样的想法，欢迎扫描上方二维码，加入星球一起交流探讨~

特别想说明的是：知识星球支持３天无理由全额退款，哪怕你进来逛了3天，相关资料打包都拿走了，都是可以的，至少可以让你学习到一些内容

继续滑动看下一个

阿虚同学

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

您可能也对以下帖子感兴趣