Leaderboard 项目添加标准学术集 AISHELL-1

Original SpeechIO SpeechIO 2022-02-26

收录于话题

#开源 13 个

#语音识别 27 个

#SpeechIO TIOBE评测 56 个

SpeechIO TIOBE Benchmark
场景测试：标准开源学术集 AISHELL-1

SpeechIO TIOBE 历史文章回顾：

......

其它更多文章，请点击最顶部“专辑”阅读

场景：开源数据集 AISHELL-1 测试

1素材来源

AISHELL-1 是中文语音识别学术研究中应用最广泛的数据集，本期基于 AISHELL-1 的测试集，对各厂商进行测试。本场景属于非常干净的学术场景，不会加入后续滚动测试。

2场景特点

环境

室内，无噪声

拾音设备

高保真麦克风，近场

说话人

数据集制作过程中邀请的发音人（多人，分布在全国各地）

说话方式

根据预先设计的脚本，由发音人对照朗读
语速慢，字正腔圆

方言

普通话，个别发音人有轻微口音

内容领域

拼写，数字串，控制命令，音乐，娱乐，经济，体育等

3测试结果

测试时间：2021.08

Company	Platform	Accuracy(%) = 1-CER
AISpeech	思必驰	97.05
Alibaba	阿里云	98.16
Baidu	百度智能云	98.57
iFLYTEK	讯飞开放平台	97.08
Microsoft	Azure	97.11
Sogou	AI开放平台	96.76
Tencent	腾讯云	97.42
YITU Tech	语音开放平台	97.70

* 讯飞目前被低估，详见(SOTA)

4简评

根据知名的AI Wiki 网站 PapersWithCode，目前基于AISHELL-1 的学术研究中最好的性能来自于出门问问和西北工业大学的工作 WeNet，其准确率为 95.28% (详情见 https://paperswithcode.com/sota/speech-recognition-on-aishell-1)。从本期的测试可以看到，商业引擎在性能上均远好于单独封闭数据集上的系统。从这点上可以看到数据对于语音识别系统性能的重要性。结合我们的上一期评测 [kaldi_multicn] (最好开源预训练模型 vs 现有的商业引擎)，这两篇评测，我们头一次定量的交叉比较了学术、开源模型与现有的商业引擎的差距。
值得一提的是，百度在复杂、高难度的 SpeechIO 测试集中表现一直较差，但在相对纯净的学术集上则表现最优。这正如 [SpeechIO 项目开篇]中提到的，绝对“通用”的语音识别系统并不存在，任何系统都受限于其算法和基础数据的特点，单次单领域的测试都属于偏见，唯有广泛、大规模的评测才能更好更准确的评估语音识别系统。
本期测试中的 AISHELL-1 标准测试集，已经整理加入到 [SpeechIO Leaderboard 项目]，可以在 github.com/speechio/leaderboard 中直接引用使用。

欢迎转载，大家有什么好的建议和意见，可以通过后台私信提供给我们。

扫描下面二维码或微信搜索 SpeechIO，关注公众号。

不雅视频流传12秒，判刑13年，重庆雷书记风流二三事

86年上市公司的单身美女董秘

90后女首席的瓜！

鱼皇被吐槽“给大哥LPT”！极力反驳，欲跟大舅哥鱼S网破！都怪白毛！弹幕、礼物！

法官“垂帘听审”，律师“拍照捉奸”|法官被指集体违法，律师谈提线木偶式审判弊端

Leaderboard 项目添加标准学术集 AISHELL-1

SpeechIO TIOBE Benchmark
场景测试：标准开源学术集 AISHELL-1

2场景特点

3测试结果

4简评

您可能也对以下帖子感兴趣

不雅视频流传12秒，判刑13年，重庆雷书记风流二三事

86年上市公司的单身美女董秘

90后女首席的瓜！

鱼皇被吐槽“给大哥LPT”！极力反驳，欲跟大舅哥鱼S网破！都怪白毛！弹幕、礼物！

法官“垂帘听审”，律师“拍照捉奸”|法官被指集体违法，律师谈提线木偶式审判弊端

生成图片，分享到微信朋友圈

Leaderboard 项目添加标准学术集 AISHELL-1

SpeechIO TIOBE Benchmark场景测试：标准开源学术集 AISHELL-1

2场景特点

3测试结果

4简评

您可能也对以下帖子感兴趣

SpeechIO TIOBE Benchmark
场景测试：标准开源学术集 AISHELL-1