TIOBE场景测试:港台口音
SpeechIO TIOBE Benchmark
场景测试:港台口音
SpeechIO TIOBE Benchmark
场景测试:港台口音
场景:港台口音
本场景侧重港台地区的重口音普通话。
遵循素材选取的两项原则:公众熟知,公开可获取。从Youtube抓取了几位知名港台明星访谈,原始音频共计时长约3.5小时。包括以下几位:
周杰伦:语速快,吐字不清晰
曾志伟:公鸭嗓
周星驰:不喜欢沟通,交谈很不流利
陈小春:口音较重,发音有特点
张家辉:“渣渣辉”
仍遵循以往的标注惯例,标注员尽力标注,对于实在听不清的部分,丢弃。
2场景特点
环境
室内
部分访谈有场馆内观众噪声(掌声、笑声)
偶有节目现场音效
拾音设备
专业录音设备
近场
说话人
访谈嘉宾
主持人
说话方式
聊天
方言
台湾、香港口音的普通话
内容领域
生活、演艺、创作趣闻
3测试结果
测试时间:2022.02
本场景会进行定期重测(每3个月),关注最新滚动测试报告查看最新结果。
Company | Platform | CER(%) |
AISpeech | 思必驰 | 4.64 |
Alibaba | 阿里云 | 6.17 |
Baidu | 百度智能云 | 7.84 |
iFLYTEK听写 | 讯飞开放平台 | 7.72 |
XFZX | XFZX服务 | 4.92 |
Microsoft | Azure SDK | 5.23 |
Tencent | 腾讯云 | 5.77 |
YITU | 语音开放平台 | 4.17 |
* XFZX服务仍在过渡中,具体调用参数尚未稳定,非最优,故本期先隐去名称以代号表示,数字仅供本期参考。后续会逐步稳定,同时本期仍提供讯飞听写数字做参考。
4简评
过去几个月Leaderbaord有多项更新,详见 [更新说明]
现实数据中存在大量港台普通话素材,各家通用模型表现均不错,但对比以往的简单场景,口音难度增加,确实显著拉低了各家数字。
后台持续征集测试场景/素材的建议,如其它口音(天津话、四川普通话等等)。素材要求:1. 公众熟知 2. 可公开获取。
同上期一样,本期测试进行了账号全面切换(新身份&新注册),后续测试还会不定期全面更换(因为我们对行业陆续开源了 SpeechIO 数据成为白盒测试,账号有被定位风险,容易被低成本的定点部署和优化,影响测试公平)。
历史评测系列:
发布日期 | 文章 |
2020.03 | 引篇 |
2020.04 | Specification & Guideline |
场景:新闻联播 | |
场景:访谈节目 鲁豫有约 | |
滚动测试报 2020.04 | |
2020.05 | 场景:天下足球 世界杯往事 |
场景:场馆演讲 罗振宇跨年演讲 | |
场景:李永乐老师 在线讲堂 | |
滚动测试报 2020.05 | |
2020.06 | 场景:直播 王者荣耀 张大仙&骚白 |
场景:直播 带货 李佳琪&薇娅 | |
场景:线下培训 老罗语录 | |
滚动测试报 2020.06 | |
2020.07 | 标注修复:直播&老罗 |
滚动测试报 2020.07 | |
2020.08 | 场景:播客 故事FM |
场景:播客 创业内幕 | |
滚动测试报 2020.08 | |
2020.09 | 场景:在线教育 罗翔 刑法法考 |
场景:在线教育 张雪峰 考研 | |
滚动测试报 2020.09 | |
2020.10 | 场景:短视频 电影剪辑 谷阿莫&牛叔说电影 |
场景:短视频 美食 贫穷料理&琼斯爱生活 | |
指标:"当我们谈SOTA时,我们在谈论什么?" | |
滚动测试报 2020.10 | |
2020.11 | 场景:评书 单田芳 白眉大侠 |
场景:相声 德云社专场 | |
场景:脱口秀 吐槽大会 | |
滚动测试报 2020.11 | |
2020.12 | 场景:少儿卡通 小猪佩奇&熊出没 |
滚动测试报 2020.12 | |
2021.01 | 场景:体育赛事解说 NBA |
场景:纪录片 篮球人物 | |
滚动测试报 2021.01 | |
2021.02 | 场景:经济 金融 货币 |
2021.04 | 场景:短视频 汽车之家 汽车评测 |
场景:短视频 小艾大叔 豪宅带看 | |
滚动测试报 2021.04 | |
2021.07 | 场景:短视频 产品开箱视频 Zealer&无聊开箱 |
场景:短视频 付老师 农业种植 | |
场景:短视频 线下培训 石国鹏 古希腊哲学 | |
滚动测试报 2021.07 | |
2021.10 | 场景:张震鬼故事 |
场景:华语大学生辩论赛 | |
场景:同声传译现场 时政 | |
滚动测试报 2021.10 |
开源评测平台 Leaderboard:
发布日期 | 文章 |
2021.04 | Leaderboard 开源测试平台发布 |
2021.08 | 加入开源 Kaldi 预训练模型 Kaldi-multicn |
加入 AISHELL-1 测试集 | |
加入 AISHELL-2 测试集 | |
加入开源 WeNet-multicn 模型 |
其它更多文章,请点击最顶部“专辑”阅读
欢迎转载,大家有什么好的建议和意见,可以通过后台私信提供给我们。
扫描下面二维码 或 微信搜索 SpeechIO,关注公众号。
加入讨论群,第一时间接收 SpeechIO 信息,请添加微信 JerryEjwt 备注 SpeechIO