离线免费无限用!狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别
阿虚同学
读完需要
15分钟速读仅需 8 分钟
关于语音转文字这个话题,阿虚上一次介绍已经是几年之前了
除了不少工具失效,如今又有了新的工具出现,再加上经常被大家问到,且阿虚自己也有这个需求(经常需要帮我妈转换视频成文本她方便学习)
,所以今天就打算再来替大家研究一下2023年的语音转文字方案
虽说是语音转文字,但实际上视频转文字也可以划到同一个问题场景之下——毕竟随便就能找到软件把视频转为音频
阿虚很早之前就推荐过音视频格式转换软件(👈点击即可查看)
除此之外,视频生成字幕其实也可以归属于同一类问题(带时间轴),不过这个问题更多应该是视频制作者才会需要,阿虚之前也有专门写过(👈点击即可查看),这里就不赘述了
阿虚这篇文章还是就准备再来重新介绍一下2023年值得推荐的语音识别工具(按提供服务的厂商进行介绍)
最重要的各平台识别质量对比,请见文末
1
网易
1.1
网易见外(网页)
地址:https://sight.youdao.com/
网易见外是网易人工智能事业部旗下的 AI 视频翻译产品,阿虚印象中好像是国内最早一批上线的此类服务了
而天地良心的,从2017年9月上线到现在,这个平台一直都是免费的!虽然这期间有过平台将下线的流言,但事实上直到如今依旧可以正常使用
你只需要登录你的网易账号,就可以享受这个平台诸多的「AI 智能转写」服务,从最开始主打的视频翻译,到如今已经支持视频转写、字幕翻译、文档翻译、语音翻译、语音转写、会议同传、图片翻译整整8大功能了
如果我们需要将视频或者音频转成文字,那么需要使用的是「语音转写」这个功能
单次仅允许<500M,mp3、wav、aac 格式的音频文件,支持中文或者英文,另外据悉每天上传的音频不能超过 2 小时
阿虚测试了一个4分多钟的音频,大概不到1分钟就转写好了,转写好之后可以在线预览:随着音频播放会加粗高亮显示实际转写出来对应的哪一句
如果你发现整个文档有某些词都统一转写错了,还可以点击顶部进行「词汇替换」,同时这里也可以进行「语气词过滤」
确认没问题之后最后可以在右上角导出为 Word 文件,使用起来可以说是相当便捷简单的
1.2
有道云笔记(安卓/iOS)
地址:https://note.youdao.com/
这里还不得不说网易其实在语音识别这块做的挺良心,除了有完全免费的网易见外,旗下的有道云笔记的实时语音识别竟也是完全免费的
如果你需要边录边转写,那有道云笔记或许就是一个非常不错的选择,只需要登录有道云笔记,点击语音速记 » 再点击转文字就行了
识别完成之后,可以把识别结果导出为存文字笔记(存文字,基本上和 TXT 差不多)
2
腾讯
2.1
腾讯云语音识别(网页/微信小程序)
地址:https://cloud.tencent.com/product/asr
除了网易,腾讯其实也提供了语音识别体验服务,打开上述链接点「立即使用」,登录腾讯云账号即可
目前的话免费额度还是相当良心的,不仅支持上传录音文件,更是支持实时语音识别,对个人偶尔使用我觉得这个每月额度完全足够(实在不够你可以弄多个账号嘛)
计费规则可能会变动,最新计费说明见官方文档:https://cloud.tencent.com/document/product/1093/35686
找到功能体验,我们就能上传文件进行识别了,目前识别语言支持普通话、粤语、上海话、英语、日语,并且还有非常强大的一点是支持分离说话人,即如果音频中有多个人说话,将会自动区别开!
具体识别结果要不要时间戳可以自行选择,导出的识别结果是 txt 文件
在网页端扫描二维码之后,即可在手机端的微信小程序进行实时语音识别(每月5小时)
2.2
字幕组机翻小助手 Tern(Win/Mac)
Github地址:https://github.com/1c7/Translate-Subtitle-File
如果你访问Github困难,建议了解《2022 Github加速访问教程》
除了上述从网页端使用腾讯云语音识别,我们也可以利用字幕组机翻小助手这款开源软件来进行调用,使用没啥难度,把文件拖进去点击开始识别即可
当然是用前需要进行比较繁琐的参数配置,这里的话由于软件内有提供详细的步骤,阿虚就不在此赘述了
其实从下图可以看到我们还可以配置阿里云、讯飞、IBM等服务商的语音识别服务,但除了阿里云、腾讯、IBM 其他都是收费才能使用,并且 IBM 注册配置稍显麻烦,中文识别肯定没有国内服务商做的好,阿虚也不是很推荐去折腾了
3
阿里巴巴
3.1
Videosrt(Win)
Github地址:https://github.com/wxbool/video-srt-windows
如果你访问Github困难,建议了解《2022 Github加速访问教程》
VideoSrt 这款开源免费的软件,其实也在之前视频免费生成字幕方案那期文章就介绍过,通过这款软件我们可以几乎免费使用阿里云的语音识别引擎,个人每天有 2 小时的语音识别免费额度
计费规则可能会变动,最新计费说明见官方文档:https://help.aliyun.com/document_detail/207373.html
只不过是用这款软件的步骤比较繁琐,需要我们手动先去申请阿里云的相关 API,配置到软件之后才能使用
具体 API 的申请&配置,作者做了长达10分钟的超详细视频教程,阿虚便不在此赘述了:https://www.yuque.com/viggo-t7cdi/videosrt/em4n10
▲扫码即可查看
总之等你花大把时间把OSS、语音识别引擎的参数都配置好之后,就可以轻松使用软件了
4
字节跳动
4.1
飞书妙记(全平台)
地址:https://www.feishu.cn/product/minutes
飞书妙记则是这几年新晋互联网巨头字节跳动(抖音的公司)旗下产品,目前也是非常良心的完全免费
使用方法异常简单,注册登陆后,直接上传音频或者视频就能进行识别转换了,目前支持普通话、英语、日语
支持识别不同说话人,同时能自动添加标点符号和章节分段,识别完成之后可在网页有上角导出为 TXT 或 SRT 格式
除了网页端,在飞书APP上搜索安装飞书妙记应用之后,也可以快速在移动端录制音频进行识别(在录制时就会实时展示转写结果)
4.2
剪映(Win/安卓/iOS)
然后说一下在之前视频免费生成字幕方案那期文章里介绍过的剪映——这个其实也是抖音旗下产品
因为和飞书妙记的产品线不一样,一个是辅助会议记录,一个是为了降低用户发布抖音门槛,所以决定了两款产品未来的收费机制可能会不一样(剪映可能会一直免费下去,毕竟其已经区分了普通版和专业版)
之前还需要把音视频传到手机APP上进行字幕生成,现在也可以在Windows版剪映上进行操作了(实测目前网页版还不能进行此操作):https://www.capcut.cn/
使用方法也很简单,打开软件点击 » 开始创作,把音视频文件拖入到素材库 » 再将音视频拖入到剪辑轨道
然后切换到文本功能,点击智能字幕,再点击开始识别,即可轻松进行语音识别了(最大支持 2 小时且不限次数使用)
转换完成之后我们在右上角就能进行导出,可以仅保存字幕文件为 TXT 或者 SRT 文件
5
同花顺
5.1
悦录(网页/安卓/iOS)
地址:http://www.voiceclub.cn/
悦录是早在前几年阿虚就有补充推荐的免费 AI 语音转文字工具,实际是浙江核新同花顺网络信息股份有限公司(成立于1995年,于2009年在深交所上市,是国内第一家互联网金融信息服务行业上市公司)旗下产品
时至如今依然每日可免费转换 3 个小时的普通话,200小时音频的云端存储空间(相当于云盘),另网站和APP均支持导入wav、m4a、aac、mp3、amr、wma 等音频格式和 mp4、3GP、mkv、flv、mov、wmv、mxf、avi 等视频格式(单个音视频文件限制<500M)
同时支持区分说话人,还对金融财经、科技领域的音频有进一步的识别支持,并且支持提前输入音视频内的关键词来提高识别准确率
识别完之后可以在线查看,可以导出为 word 或者 txt,同时可以自行选择带不带时间戳
虽然不支持实时语音识别,但可以通过APP录音之后快速进行识别转换
6
百度
6.1
百度飞桨 PaddleSpeech(Win)
地址:https://github.com/PaddlePaddle/PaddleSpeech
既然网易、腾讯都介绍了,人工智能这块又怎么能少的了国内最早在此领域发力的百度?
早在2017年5月,百度飞浆就开源了旗下语音方向的模型库——PaddleSpeech
模型库有什么用呢?之前研究过「AI 绘画」的小伙伴应该都明白,AI 之所以能理解人类的意思,实际都是靠不断喂数据+反复匹配来提高吻合率的——AI 语音识别这一块也是一样
简单来说,根据百度飞桨官方文档搭建运行环境、安装依赖、下载模型库、编译源码之后,我们就能在本地离线进行语言识别了——不过自然这对90%的人来说都太难了
公众号@万能君的软件库基于 PaddleSpeech 开发了普通人也能一键使用的语音转文字工具,最关键的是可以离线无限次使用!
考虑到兼容性,目前的版本仅支持 CPU 转换,所以速度确实慢些⚠️(测试 R5-3600 的 CPU 一分钟音频转换时长30s,而测试 RTX 2060 显卡仅需 3s),仅支持Windows 64位系统
不过这个软件因为考虑到硬件方面的差异,对音频做了切分(每个切分片段时长 1 分钟),所以会影响一些句子的识别
最终转换结果的话,会自动保存为软件目录的「音频转换结果」文件夹下的 txt 文件
这款软件你可以到原作者公众号下载,为防失效阿虚也做了搬运,在阿虚公众号后台,发送以下关键词,就可以得到不限速下载地址了:
“语音转文字
”
7
OpenAI
大家都知道 ChatGPT 是 OpenAI 公司训练出来的大型语言模型,而其训练的模型其实远不止此
去年年底,OpenAI 开源了其经过 68 万小时多语言(99种)数据进行训练得出的大规模的语音识别模型——Whipser:https://github.com/openai/whisper
在现如今的综合离线的语音识别工具中,他应该是目前最好的选择!
当然,只有预训练模型我们是无法使用的,OpenAI 官方的部署运行方法对于多数人来说也是过于复杂,但好在已经有开发者为我们一般人开发了带界面的软件,只需要下载软件+再导入 Whipser 模型即可使用了
为应对不同的语音转录需求,Whipser 一共推出了 tiny、base、small、medium、large 5档模型,具体自己电脑能跑的动哪个模型得看显卡性能
同时为了方便理解,下面的相对速度用秒数表示(不代表实际时间),在相同的硬件条件下,处理音频所需时间
模型 | 大小 | 所需显存 | 相对速度 |
---|---|---|---|
tiny | 39 M | ~1 GB | 32秒 |
base | 74 M | ~1 GB | 16秒 |
small | 244 M | ~2 GB | 6秒 |
medium | 769 M | ~5 GB | 2秒 |
large | 1550 M | ~10 GB | 1秒 |
<<左右滑动查看表格>>
由于 Whisper 的中文数据较少,如果转录的音频是中文,那么至少要用到 medium 模型,才能保证绝大多数正确
7.1
WhisperDesktop(Win)
Github地址:https://github.com/sakura6264/WhisperDesktop
如果你访问Github困难,建议了解《2022 Github加速访问教程》
下载 WhisperDesktop 后,将 Whipser 模型文件放入软件的 model 文件夹中,运行软件会让先让你选择模型,反正就是根据自己电脑性能能跑 large 就 large,不能就依次 medium、small...往下(当然如果你的音频太长,还得自己考虑处理时间)
不过由于 WhisperDesktop 支持 GPU 硬解,转录速度还是非常快的,阿虚测试 4 分多钟的音频,使用 medium 模型,几十秒就处理好了
为了方便下载,我已经将模型文件搬运到了国内的高速下载网盘,关注微信公众号:阿虚同学,发送以下关键词,后台即会回复下载地址了:
“语音转文字
”
7.2
Buzz(Win/Mac/Linux)
Github地址:https://github.com/chidiwilliams/buzz
如果你访问Github困难,建议了解《2022 Github加速访问教程》
能用 WhisperDesktop 自然最好,如果你是 Mac 或者 Linux 系统,还有另一款带 GUI 界面的开源 Whipser 调用软件可供选择的——Buzz
缺点就是由于 Buzz 目前还不支持 GPU 硬解,只能使用 CPU 硬解,所以处理速度会慢很多!
Buzz 安装运行后会自动下载 .pt 格式的模型文件,但由于资源在国外下载速度较慢,阿虚建议是提前下好模型文件(公众号后台有提供),然后放在指定的文件夹,这样就能直接运行软件了:
Windows:C:\Users<你的用户名>.cache\whisper
Mac:~/.cache/whisper
运行软件之后的使用就非常简单了,在左上角导入音频,然后选择模型、语言、输出文件格式,最后点击 Run 即可
耐心等待转换完之后,点击下图的按钮(或者按快捷键Ctrl+E),就能打开识别结果导出为TXT了
PS:Buzz 还有个问题是导出的 TXT 文件没有换行,需要你把文本复制到 word 利用 Ctrl+H 将其中的空格都替换为 ^p 才能实现换行
阿虚这里将 Buzz 的模型文件搬运到了国内的高速下载网盘,可以关注微信公众号:阿虚同学,发送以下关键词,后台即会回复下载地址了:
“语音转文字
”
今天介绍了来自百度、腾讯、网易、阿里巴巴、字节跳动、同花顺、OpenAI 的免费语音识别服务,多虽然多,但具体识别质量才是最关键的
而最关键的内容肯定是留到最后啦,阿虚找了2段音频做测试,得出了以下结果:
原文 | 传达信息与情感 | 摆脱平面的桎梏 | 2D不够立体 | 纸片人就是可以在3D场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的播客节目 | 小岛秀夫 | 合金装备 | 打破了次元壁 | 皆可设计 |
---|---|---|---|---|---|---|---|---|---|---|
网易:网易见外 | 传达兴趣与情感 | 摆脱平面的质骨 | 二d不顾立体 | 纸片人就是可以在三d场景上走 | 尖锐中唯一的远角 | 收听一个设计类的博客节目 | 小岛修复 | 合金装备 | 打破了次元币 | 皆可设计 |
网易:有道云笔记 | 传达信息与情感 | 摆脱平面的智慧 | 二d不可立体 | 纸片人就是可以在三d场景上走 | 监狱中唯一的圆角 | 收听一个设计类的播客节目 | 小岛修复 | 核心装备 | 打破了次元壁 | 皆可设计 |
腾讯云👍 | 传达信息与情感 | 摆脱平面的桎梏 | 2D不够立体 | 纸片人就是可以在3D场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的博客节目 | 小岛秀夫 | 核心装备 | 打破了次元壁 | 杰克设计 |
阿里云👍 | 传达信息与情感 | 摆脱平面的桎梏 | 2D不够立体 | 纸片人就是可以在3D场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的播客节目 | 小岛秀夫 | 合金装备 | 打破了次元壁 | 皆可设计 |
字节跳动:飞书妙记👍 | 传达信息与情感 | 摆脱平面的桎梏 | 2D 不够立体 | 只骗人就是可以在 3D 场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的博客节目 | 小岛修复 | 合金装备 | 打破了次元壁 | 皆可设计 |
字节跳动:剪映 | 传达信息与情感 | 摆脱平面的质股 | 2D不够立体 | 只骗人就是可以在3D场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的波克节目 | 小岛修复 | 合金装备 | 打破了次元币 | 皆可涉及 |
同花顺:悦录 | 传达兴趣情感 | 摆脱平面的智谷 | 二第不够立体 | 制片人就是可以在三d场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的博客节目 | 小岛修复 | 核心装备 | 打破了次元比 | 接口设计 |
百度:百度飞桨👍 | 传达信息与情感 | 摆脱平面的桎梏 | 二d不够立体 | 纸片人就是可以在三d场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的博客节目 | 小岛秀夫 | 核心装备 | 打破了次元币 | 皆可设计 |
OpenAI:Whisper👍 | 传达信息与情感 | 摆脱平面的智固 | 2D不够立体 | 纸片人就是可以在3D场景上走 | 尖锐中唯一的圆角 | 收听一个设计类的播客节目 | 小岛秀夫 | 合金装备 | 打破了次元币 | 皆可设计 |
<<左右滑动查看表格>>
上述测试音频来源于 @oooooohmygosh 的《平面之外,仍是设计》这期视频:https://www.bilibili.com/video/BV1SA41187Ms/
原文 | 碎片时间 | 坐下来写写脚本 | 布满巧克力味道 | 哪些实际意义呢 | 氪金手游 | 大脑前额叶皮质 | 睡前读一页 | 多巴胺、内啡肽 |
---|---|---|---|---|---|---|---|---|
网易:网易见外 | 随便时间 | 坐下来写写脚本 | 不满巧克力味道 | 哪些实际意能 | 刻金手游 | 大脑前额液皮质 | 睡前读一页 | 多巴胺,内贝泰 |
网易:有道云笔记 | 睡眠时间 | 坐下来写写脚本 | 不满巧克力味道 | 哪些实际意义呢 | 合金手游 | 大脑前熬夜皮质 | 睡前读一页 | 多巴胺、那边太 |
腾讯云👍 | 碎片时间 | 坐下来写写脚本 | 布满巧克力味道 | 哪些实际意义呢 | 氪金手游 | 大脑前额叶皮质 | 睡前读一页 | 多巴胺、内啡肽 |
阿里云👍 | 碎片时间 | 坐下来写写脚本 | 布满巧克力味道 | 哪些实际意义呢 | 氪金手游 | 大脑前额叶皮质 | 睡前读一页 | 多巴胺、内啡肽 |
字节跳动:飞书妙记👍 | 碎片时间 | 坐下来写写脚本 | 布满巧克力味道 | 哪些实际意义呢 | 氪金手游 | 大脑前额叶皮滞 | 睡前读一夜 | 多巴胺、内悲态 |
字节跳动:剪映👍 | 碎片时间 | 坐下来歇歇脚本 | 布满巧克力味道 | 哪些实际意义呢 | 氪金手游 | 大脑前额叶皮质 | 睡前读一夜 | 多巴胺、内啡肽 |
同花顺:悦录 | 碎片时间 | 坐下来写写脚本 | 不满巧克力味道 | 哪些实际意能 | 克金手游 | 大脑前额叶皮滞 | 睡前读一夜 | 多巴胺、内胚肽 |
百度:百度飞桨 | 碎片时间 | 坐下来写写脚本 | 不满巧克力味道 | 哪些实际意呢 | 氪金手游 | 大脑前额夜皮质 | 睡前读一夜 | 多巴胺、内胚肽 |
OpenAI:Whisper | 碎片时间 | 坐下来写写脚本 | 不满巧克力味道 | 有哪些实际意义呢 | 课金手游 | 大脑前额叶皮质 | 睡前读一夜 | 多巴胺、内胚胎 |
<<左右滑动查看表格>>
上述测试音频来源于 @帅soserious 的《这个习惯改变了我的人生》这期视频:https://v.douyin.com/UAhc2om/
如果综合阿虚测试的这2段音频:
阿里云应该是目前独一档的,针对各种固有名词、网络词语,甚至名人人名都能实现准确识别,整体错误相当之少
腾讯云、字节跳动的飞书妙记&剪映、百度飞桨、OpenAI 的 Whisper 则表现时好时坏,算是第二梯队吧
网易见外、网易有道云笔记、同花顺悦录属于最拉胯一梯队,相较之下不推荐使用
不过由于阿里云配置相当麻烦且每天仅有 2 小时的语音识别免费额度,以后还不保证能一直提供免费额度,那可以免费、离线、无限次使用的百度飞桨、OpenAI:Whisper 就拥有相当大的优势了
总而言之,今天介绍的语音识别工具都是免费的,大家完全可以综合一起使用,选一个最能满足自己需求的
既然提到 AI 这个话题,这里不得不再次推荐下我和洋哥一起运营的 AI 星球!
两个多月的时间,我们的 ChatGPT 星球已经突破2.5W人了,速度最快,规模最大。已经产出12个专栏、50门系列课、八千篇帖子,其中精华帖子一百多篇,每一篇都达到了实操的标准
为了更好的服务大家,我们招聘了 6 位优秀的全职员工。洋哥辞去了网易高管的职位 All in 这件事,腾讯AI部门高级工程师小潘降薪加入我们、京东的高级产品经理竹子降薪加入我们、杭州的创业者阿国跨城市奔赴我们
知名投资人吴世春、人人网原CEO许朝军、三节课创始人黄有璨、前美团技术学院院长刘江、国内仅有的39个谷歌开发者专家之一黄鸿波这些AI&互联网大佬都是我们的合伙人和嘉宾,还会不定期做分享
我们目前定价¥368元,正式运营会涨到¥999元,不过阿虚作为星球合作人给大家申请到了一些内部优惠券
通过我这边的优惠券加入,价格是¥299元,绝对是目前最低的价格!(你也可以从公众号主页的视频号橱窗购买加入)
现在加入星球,还将对星球会员永久赠送价值¥999的 ZelinAI Pro 版使用权(支持 ChatGPT 基本功能以及 Prompt 训练、调参等额外服务,你可以理解为国内版 ChatGPT),未来续费也送!这个资源绝对是在其他同类星球体验不到的
我们的目标是做一个 AI 生态,在这个生态里有的人能学会AI工具、更厉害的能用AI做副业赚钱(目前已开始AI航海计划)、再厉害点的能用AI创业做应用,抹平一切关于 AI 的信息差,成为新时代的超级个体!
如果你和我们抱有同样的想法,欢迎扫描上方二维码,加入星球一起交流探讨~
特别想说明的是:知识星球支持3天无理由全额退款,哪怕你进来逛了3天,相关资料打包都拿走了,都是可以的,至少可以让你学习到一些内容