TIOBE 场景测试:老外口音
SpeechIO TIOBE Benchmark
场景测试:老外口音
SpeechIO TIOBE Benchmark
场景测试:老外口音
其它更多文章,请点击最顶部“专辑”阅读
场景:老外口音
本期场景测试侧重非汉语母语的外国人说中文。
素材为Youtube爬取的江苏卫视《世界青年说》综艺节目。节目内容为主持人与众多在中国生活学习的外国友人畅聊各自文化、习俗、现代生活等话题:如穿衣时尚、新年习俗、电影文化、夜生活、驾驶习惯等。
嘉宾覆盖美国、加拿大、英国、意大利、澳大利亚、韩国、伊朗、俄罗斯、泰国、德国、哥斯达黎加、津巴布韦、法国、日本、马里、新西兰、巴西、刚果、土耳其。来自不同国家的人,学习普通话后往往带有各自独特的口音。节目中的个别嘉宾的普通话非常标准,甚至会让人误以为是汉语母语;其余大部分嘉宾均带有明显口音,但都算比较流利。
本期原始素材合计约6小时。
2场景特点
环境
综艺节目录制会场(演播厅)
有观众,偶有掌声、笑声、节目音效
拾音设备
专业录音设备
近场
说话人
各国嘉宾
主持人
说话方式
自然对话,谈天说地
方言
外国口音
内容领域
各国风土人情,文化,生活方式
3测试结果
测试时间:2022.02
本场景会进行定期重测(每3个月),关注最新滚动测试报告查看最新结果。
Company | Platform | CER(%) |
AISpeech | 思必驰 | 5.31 |
Alibaba | 阿里云 | 7.17 |
Baidu | 百度智能云 | 9.96 |
iFLYTEK听写 | 讯飞开放平台 | 8.18 |
XFZX | XFZX服务 | 5.03 |
Microsoft | Azure SDK | 6.14 |
Tencent | 腾讯云 | 6.26 |
YITU | 语音开放平台 | 4.59 |
* XFZX服务仍在过渡中,具体调用参数尚未稳定,非最优,故本期先隐去名称以代号表示,数字仅供本期参考,后续会逐步稳定。同时本期仍提供讯飞听写数字做参考。
4简评
以下两个场景测试集已开放:
SPEECHIO_ASR_ZH00006 张大仙&骚白 王者荣耀直播
SPEECHIO_ASR_ZH00007 李佳琪&薇娅 直播带货
后续测试集开源将不再单独发文章通知,读者朋友可以关注 Leaderboard repo (https://github.com/SpeechColab/Leaderboard) 并自行下载。无任何费用,觉得受益的可以自愿打赏本公众号。
后台持续征集关于测试场景的建议,最好是难度大一点的。
历史评测系列:
发布日期 | 文章 |
2020.03 | 引篇 |
2020.04 | Specification & Guideline |
场景:新闻联播 | |
场景:访谈节目 鲁豫有约 | |
滚动测试报 2020.04 | |
2020.05 | 场景:天下足球 世界杯往事 |
场景:场馆演讲 罗振宇跨年演讲 | |
场景:李永乐老师 在线讲堂 | |
滚动测试报 2020.05 | |
2020.06 | 场景:直播 王者荣耀 张大仙&骚白 |
场景:直播 带货 李佳琪&薇娅 | |
场景:线下培训 老罗语录 | |
滚动测试报 2020.06 | |
2020.07 | 标注修复:直播&老罗 |
滚动测试报 2020.07 | |
2020.08 | 场景:播客 故事FM |
场景:播客 创业内幕 | |
滚动测试报 2020.08 | |
2020.09 | 场景:在线教育 罗翔 刑法法考 |
场景:在线教育 张雪峰 考研 | |
滚动测试报 2020.09 | |
2020.10 | 场景:短视频 电影剪辑 谷阿莫&牛叔说电影 |
场景:短视频 美食 贫穷料理&琼斯爱生活 | |
指标:"当我们谈SOTA时,我们在谈论什么?" | |
滚动测试报 2020.10 | |
2020.11 | 场景:评书 单田芳 白眉大侠 |
场景:相声 德云社专场 | |
场景:脱口秀 吐槽大会 | |
滚动测试报 2020.11 | |
2020.12 | 场景:少儿卡通 小猪佩奇&熊出没 |
滚动测试报 2020.12 | |
2021.01 | 场景:体育赛事解说 NBA |
场景:纪录片 篮球人物 | |
滚动测试报 2021.01 | |
2021.02 | 场景:经济 金融 货币 |
2021.04 | 场景:短视频 汽车之家 汽车评测 |
场景:短视频 小艾大叔 豪宅带看 | |
滚动测试报 2021.04 | |
2021.07 | 场景:短视频 产品开箱视频 Zealer&无聊开箱 |
场景:短视频 付老师 农业种植 | |
场景:短视频 线下培训 石国鹏 古希腊哲学 | |
滚动测试报 2021.07 | |
2021.10 | 场景:张震鬼故事 |
场景:华语大学生辩论赛 | |
场景:同声传译现场 时政 | |
滚动测试报 2021.10 | |
2022.02 | 场景:港台口音 |
场景:老外口音 |
开源评测平台 Leaderboard:
发布日期 | 文章 |
2021.04 | Leaderboard 开源测试平台发布 |
2021.08 | 加入开源 Kaldi 预训练模型 Kaldi-multicn |
加入 AISHELL-1 测试集 | |
加入 AISHELL-2 测试集 | |
加入开源 WeNet-multicn 模型 |
其它更多文章,请点击最顶部“专辑”阅读
欢迎转载,大家有什么好的建议和意见,可以通过后台私信提供给我们。
扫描下面二维码 或 微信搜索 SpeechIO,关注公众号。
加入讨论群,第一时间接收 SpeechIO 信息,请添加微信 JerryEjwt 备注 SpeechIO