查看原文
其他

SpeechIO 滚动测试报:2022年05月

SpeechIO SpeechIO 2022-05-28

SpeechIO TIOBE

ASR Benchmark

滚动测试报告 2022年05月


滚动测试 2022-05


1滚动测试



2
往期比较



3
排名

白盒排名:基于已开源的 SpeechIO 测试集

排名厂商字错误率(%)
1阿里云2.65
2微软2.67
3依图2.71
4思必驰3.12
5讯飞转写3.33
6腾讯3.48
7百度5.83

整体排名:基于目前所有的 SpeechIO 测试集

排名厂商字错误率(%)
1依图3.1
2微软3.47
3思必驰3.63
4阿里云3.81
5讯飞转写4.05
6腾讯4.06
7百度7.38


4简评

  • 本期测试与上期相比:

    • 阿里,微软有较明显提升

    • 讯飞性能变差

    • 其余厂家过去三个月模型应未更新,性能没有变化

  • 本期滚动测试开始加入排名(汇总各场景统计结果):我们陆续在把测试集开放给全行业,所以目前统计两个排名:

    • 白盒测试集排名(截至本期已开放00001 ~ 00010号场景)

    • 整体排名(截至本期包括00001 ~ 00030号场景),场景详细信息见 附录1 或项目的 github repo

  • 横向看(厂家间),头部厂商的数字相当的接近。我们认为数字差距在 0.5% 以内都不算有实质差别,因为我们无法绝对意义上统一所有厂家的识别配置(如VAD具体设置,语气词的归一化,脏词的过滤等),这一点我们在 [SOTA] 文中有过说明。Leaderboard 的全部流程都开源在 github,配合我们已经开源的测试集,复现起来相当便捷,欢迎相关的同学提交改进的 Pull Request。

  • 纵向看(时间滚动),厂家相对自身,综合数字提升0.5%已属相当显著,因为 SpeechIO 覆盖的场景以及测试集的规模已经相当庞大,微小的数字也具有统计学意义。

  • 后台持续征集难度大,有代表性的测试场景,场景素材选取原则上遵循公众熟知 & 可公开获取


可扫描文章底部二维码关注公众号。第一时间获取 SpeechIO 最新信息,加入 SpeechIO 讨论群,可添加微信号 JerryEjwt 备注 SpeechIO。

github repohttps://github.com/SpeechColab/Leaderboard


附录1已有测试集信息汇总

文章链接场景领域难度(1-5)
新闻联播新闻播报时政
鲁豫有约一日行访谈电视节目名人工作、生活★★☆
天下足球专题电视节目足球★★☆
罗振宇跨年会场演讲社会、人文、商业★★
李永乐讲堂在线教育科普★★★
直播 王者荣耀直播游戏★★★☆
直播 带货直播电商、美妆★★★★☆
老罗语录线下培训段子,做人★★★★☆
播客 故事FM‍播客人生故事、见闻★★☆
播客 创业内幕
播客创业、产品、投资★★☆
罗翔 法考
在线教育法律 法考★★☆
张雪峰 考研‍
在线教育考研 高校报考★★★☆
谷阿莫&牛叔短视频电影剪辑★★★
琼斯爱生活&贫穷料理短视频美食、烹饪★★★☆
单田芳-白眉大侠评书江湖、武侠★★☆
德云社专场相声包袱段子★★★
吐槽大会‍脱口秀明星糗事★★☆
小猪佩奇&熊出没少儿动画童话故事、日常★☆
NBA现场转播体育赛事解说篮球,NBA★★★
篮球人物纪录片篮球明星,成长★★
汽车之家 汽车评测短视频汽车品牌,车型,路测★★★☆
小艾大叔 豪宅带看短视频‍房地产,豪宅★★★☆
Zealer & 无聊开箱
短视频产品开箱★★★
付老师种植技术短视频农业种植★★★☆
石国鹏线下课线下培训古希腊哲学★★☆
张震鬼故事电台节目恐怖故事★★★
华语大学生辩论赛辩论赛兴趣,技能,成长★★★
同声传译同声传译现场时政★★★☆
港台口音
港台明星访谈演艺、创作、生活★★★☆
老外口音外国嘉宾参加的综艺文化、习俗、异国文化★★★☆


附录2
项目更新日志
    • 场景:增加 [播客 故事FM]

    • 重要修复:发现 [直播带货 李佳琪薇娅] [直播王者荣耀 张大仙骚白] [老罗语录] 三个场景测试集标注错误,全面检查&修正;作废这三个测试集6月的测试结果,7月开始启用修正后的测试集。详情见本月已经发布的[更正说明文章]

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2020年6月:

    • 场景:增加 [直播带货 李佳琪薇娅] [直播王者荣耀 张大仙骚白] [老罗语录]

    • 厂商:增加 阿里+ ,为阿里云新算法的试用版; 测试中取消[谷歌], 因谷歌的中文识别性能没有参考性,且费用超过其余各家之和。

    • 更名:原搜狗知音平台 改名为 搜狗AI开放平台

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2020年5月:

  • 2020年4月:

    • 场景:增加 [鲁豫有约大咖一日行]

    • 厂商:增加 微软 Azure 认知服务 搜狗知音平台

    • 测试:全厂商 × 全场景 滚动刷新测试

    • 场景:增加 [新闻联播]

    • 厂商:增加 阿里 百度 谷歌 讯飞 腾讯 创Y

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存