查看原文
其他

Leaderboard 项目添加标准学术集 AISHELL-1

SpeechIO SpeechIO 2022-02-26



SpeechIO TIOBE Benchmark

场景测试:标准开源学术集 AISHELL-1


SpeechIO TIOBE 历史文章回顾:

引篇

规范

场景测试:新闻联播

场景测试:鲁豫有约一日行

滚动测试报 2020.04

......

其它更多文章,请点击最顶部“专辑”阅读


场景:开源数据集 AISHELL-1 测试


1素材来源

AISHELL-1 是中文语音识别学术研究中应用最广泛的数据集,本期基于 AISHELL-1 的测试集,对各厂商进行测试。本场景属于非常干净的学术场景,不会加入后续滚动测试。


2场景特点

  • 环境

    • 室内,无噪声

  • 拾音设备

    • 高保真麦克风,近场

  • 说话人

    • 数据集制作过程中邀请的发音人(多人,分布在全国各地)

  • 说话方式

    • 根据预先设计的脚本,由发音人对照朗读

    • 语速慢,字正腔圆

  • 方言

    • 普通话,个别发音人有轻微口音

  • 内容领域

    • 拼写,数字串,控制命令,音乐,娱乐,经济,体育等


3测试结果

测试时间:2021.08

CompanyPlatformAccuracy(%) = 1-CER
AISpeech思必驰97.05
Alibaba
阿里云98.16
Baidu百度智能云98.57
iFLYTEK讯飞开放平台97.08
Microsoft
Azure97.11
SogouAI开放平台96.76
Tencent腾讯云97.42
YITU Tech语音开放平台97.70

* 讯飞目前被低估,详见(SOTA)


4简评

  • 根据知名的AI Wiki 网站 PapersWithCode,目前基于AISHELL-1 的学术研究中最好的性能来自于出门问问和西北工业大学的工作 WeNet,其准确率为 95.28%  (详情见 https://paperswithcode.com/sota/speech-recognition-on-aishell-1)。从本期的测试可以看到,商业引擎在性能上均远好于单独封闭数据集上的系统。从这点上可以看到数据对于语音识别系统性能的重要性。结合我们的上一期评测 [kaldi_multicn] (最好开源预训练模型 vs 现有的商业引擎),这两篇评测,我们头一次定量交叉比较了学术、开源模型与现有的商业引擎的差距。

  • 值得一提的是,百度在复杂、高难度的 SpeechIO 测试集中表现一直较差,但在相对纯净的学术集上则表现最优。这正如 [SpeechIO 项目开篇]中提到的,绝对“通用”的语音识别系统并不存在,任何系统都受限于其算法和基础数据的特点,单次单领域的测试都属于偏见,唯有广泛、大规模的评测才能更好更准确的评估语音识别系统。

  • 本期测试中的 AISHELL-1 标准测试集,已经整理加入到 [SpeechIO Leaderboard 项目],可以在 github.com/speechio/leaderboard 中直接引用使用。


欢迎转载,大家有什么好的建议和意见,可以通过后台私信提供给我们。

扫描下面二维码 或 微信搜索 SpeechIO,关注公众号。

加入讨论群,第一时间接收 SpeechIO 信息,请添加微信 JerryEjwt 备注 SpeechIO

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存