查看原文
其他

TIOBE 场景测试:老外口音

SpeechIO SpeechIO 2022-05-28


SpeechIO TIOBE Benchmark

场景测试:老外口音


其它更多文章,请点击最顶部“专辑”阅读


场景:老外口音


1素材来源

本期场景测试侧重非汉语母语的外国人说中文。


素材为Youtube爬取的江苏卫视《世界青年说》综艺节目。节目内容为主持人与众多在中国生活学习的外国友人畅聊各自文化、习俗、现代生活等话题:如穿衣时尚、新年习俗、电影文化、夜生活、驾驶习惯等。


嘉宾覆盖美国、加拿大、英国、意大利、澳大利亚、韩国、伊朗、俄罗斯、泰国、德国、哥斯达黎加、津巴布韦、法国、日本、马里、新西兰、巴西、刚果、土耳其。来自不同国家的人,学习普通话后往往带有各自独特的口音。节目中的个别嘉宾的普通话非常标准,甚至会让人误以为是汉语母语;其余大部分嘉宾均带有明显口音,但都算比较流利。


本期原始素材合计约6小时。


2场景特点

  • 环境

    • 综艺节目录制会场(演播厅)

    • 有观众,偶有掌声、笑声、节目音效

  • 拾音设备

    • 专业录音设备

    • 近场

  • 说话人

    • 各国嘉宾

    • 主持人

  • 说话方式

    • 自然对话,谈天说地

  • 方言

    • 外国口音

  • 内容领域

    • 各国风土人情,文化,生活方式


3测试结果

测试时间:2022.02

本场景会进行定期重测(每3个月),关注最新滚动测试报告查看最新结果。

CompanyPlatformCER(%)
AISpeech思必驰5.31
Alibaba
阿里云7.17
Baidu百度智能云9.96
iFLYTEK听写讯飞开放平台8.18
XFZX
XFZX服务
5.03
Microsoft
Azure SDK6.14
Tencent腾讯云6.26
YITU语音开放平台4.59

* XFZX服务仍在过渡中,具体调用参数尚未稳定,非最优,故本期先隐去名称以代号表示,数字仅供本期参考,后续会逐步稳定。同时本期仍提供讯飞听写数字做参考。


4简评

以下两个场景测试集已开放:

SPEECHIO_ASR_ZH00006 张大仙&骚白 王者荣耀直播

SPEECHIO_ASR_ZH00007 李佳琪&薇娅 直播带货

后续测试集开源将不再单独发文章通知,读者朋友可以关注 Leaderboard repo (https://github.com/SpeechColab/Leaderboard) 并自行下载。无任何费用,觉得受益的可以自愿打赏本公众号。

后台持续征集关于测试场景的建议,最好是难度大一点的。




历史评测系列:

发布日期文章
2020.03引篇
2020.04Specification & Guideline

场景:新闻联播

场景:访谈节目 鲁豫有约

滚动测试报 2020.04
2020.05
场景:天下足球 世界杯往事

场景:场馆演讲 罗振宇跨年演讲

场景:李永乐老师 在线讲堂

滚动测试报 2020.05
2020.06
场景:直播 王者荣耀 张大仙&骚白

场景:直播 带货 李佳琪&薇娅

场景:线下培训 老罗语录

滚动测试报 2020.06
2020.07标注修复:直播&老罗

滚动测试报 2020.07
2020.08场景:播客 故事FM

场景:播客 创业内幕

滚动测试报 2020.08
2020.09场景:在线教育 罗翔 刑法法考

场景:在线教育 张雪峰 考研

滚动测试报 2020.09
2020.10
场景:短视频 电影剪辑 谷阿莫&牛叔说电影

场景:短视频 美食 贫穷料理&琼斯爱生活

指标:"当我们谈SOTA时,我们在谈论什么?"

滚动测试报 2020.10
2020.11
场景:评书 单田芳 白眉大侠

场景:相声 德云社专场

场景:脱口秀 吐槽大会

滚动测试报 2020.11
2020.12
场景:少儿卡通 小猪佩奇&熊出没

滚动测试报 2020.12
2021.01场景:体育赛事解说 NBA

场景:纪录片 篮球人物

滚动测试报 2021.01
2021.02
场景:经济 金融 货币
2021.04场景:短视频 汽车之家 汽车评测

场景:短视频 小艾大叔 豪宅带看

滚动测试报 2021.04
2021.07场景:短视频 产品开箱视频 Zealer&无聊开箱

场景:短视频 付老师 农业种植

场景:短视频 线下培训 石国鹏 古希腊哲学

滚动测试报 2021.07
2021.10场景:张震鬼故事

场景:华语大学生辩论赛

场景:同声传译现场 时政

滚动测试报 2021.10
2022.02场景:港台口音

场景:老外口音


开源评测平台 Leaderboard:

发布日期文章
2021.04Leaderboard 开源测试平台发布
2021.08加入开源 Kaldi 预训练模型 Kaldi-multicn

加入 AISHELL-1 测试集

加入 AISHELL-2 测试集

加入开源 WeNet-multicn 模型


其它更多文章,请点击最顶部“专辑”阅读


欢迎转载,大家有什么好的建议和意见,可以通过后台私信提供给我们。

扫描下面二维码 或 微信搜索 SpeechIO,关注公众号。

加入讨论群,第一时间接收 SpeechIO 信息,请添加微信 JerryEjwt 备注 SpeechIO


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存