其他
5 分钟,看完没有人比你更懂语音识别!
01
在线转录
1.1、飞书妙记
飞书妙记是抖音旗下产品,注册登陆后,就直接上传音频或者视频,即使不需要介绍,也一看就知道怎么用。
https://www.feishu.cn/product/minutes
1.2、使用测评
速度:快,10 分钟视频花费了 1分 25 秒分钟。
1.3、同类产品
如果要说有什么缺点的话。那就飞书妙记免费用户的存储空间,从原来的 100G 变成 2G,一下子就寒酸了许多。
02
软件转录
2.1、剪映
剪映也是是抖音旗下产品,它是一款桌面视频剪辑软件,但同时提供了识别语音功能,使用时需要联网使用。
2.2、使用测评
由于同样是字节系产品,剪映的准确率非常高,转录速度也非常的快,同样 10 分钟的视频,剪映只用了 32 秒。
2.3、同类产品
目前国内能与剪映对标的,当属 B 站推出的“必剪”了。
03
离线转录
3.1、Whisper
Whipser 多语言语音识别模型,通过了 68 万小时的语音数据训练,支持 99 种语言,对英文的表现更是强无敌。
https://github.com/openai/whisper
使用方法:
whisper audio.mp3
即可进行转录。
whisper audio.mp3 --命令参数
--task
--task transcribe
转录模式,--task translate
则为翻译模式,目前只支持英文。--model small
,Whisper 还有英文专用模型,就是在名称后加上 .en,这样速度更快。--language Chinese
。--device cuda
,也就是显卡,--device cpu
为 CPU, --device mps
为 M1 芯片。3.2、WhisperDesktop
如果使用 Python 命令行的这种形式,槛太高,那么图形化软件 WhisperDesktop 会是一个好选择。
https://github.com/Const-me/Whisper
3.3、Buzz
另一款基于 Whisper 的图形化软件是 Buzz,相比 WhipserDesktop,Buzz 支持 Windows、macOS、Linux。
https://github.com/chidiwilliams/buzz
Windows:C:\Users\<你的用户名>\.cache\whisper
Mac:~/.cache/whisper
由于 Buzz 使用的是 CPU 硬解,目前还不支持 GPU 硬解。
3.4、使用测评
就准确性而言。
04
语音识别技巧
4.1、纯净输入
如果转录的是歌曲,又或者有嘈音,背景音乐太大,使用人声分离工具,突出人声,那么识别效果将大大提高。
UVR5:https://ultimatevocalremover.com
4.2、字幕翻译
Whisper 有时转录出来的文本是繁体中文,又或者你想把字幕翻译为英语来做双语字幕。
https://github.com/SubtitleEdit/subtitleedit
4.3、标点符号
除了飞书妙记外,其它工具都没有标点符号,而且也没有章节分段,如果你想把语音识别后的文本保存为文章。
4.4、一键转录
如果我有大量的视频转文字,和视频字幕生成需求,有没有办法一键转录?
4.5、实时转录
除了转录现有视频,有没有办法实时转录直播中的视频?
结尾
也正在发生!
回复关键字
A
查看本系列的所有文章,
回复关键字
A24
获取本文提到的所有资源
看完文章:
2、写留言,有问题写评论,我会尽可能回复。