语音合成大模型测评基准(方案)发布
排行榜地址:www.SuperCLUEai.com
注:具体的测评任务以正式发布的测评报告为准。
1. 准确性
发音完整性:评估音频中是否存在音节、词语或句子的遗漏,确保每个语音单位的发音均完整。
2. 清晰度
语音清晰度:评估音频中发音的清晰度,确保每个音节、字的发音清楚明了,没有模糊不清或含混不清的现象。
3. 自然度
表达自然性:评估音频中的自然韵律是否符合语言习惯,语调、及重音变化是否合理,语气是否到位,是否不存在声音过于机械或矫揉造作的现象。
发音流畅性:评估音频中的声音是否自然顺畅,节奏是否自然且有变化,无明显的卡顿、停顿或语速不一致,是否连贯且易于理解。
4. 情感表现
场景能力
1.语音导航、有声读物、语音播报、内容配音、直播广告
语音导航:考察模型或应用针对语音导航不同场景的语音情景契合度和表现力。小类场景包括:交通提示和安全警告。 有声读物:考察模型或应用针对有声读物不同场景的语音情景契合度和表现力。小类场景包括:童话故事和小说片段。 语音播报:考察模型或应用针对语音播报不同场景的语音情景契合度和表现力。小类场景包括:新闻咨询和公共广播。 内容配音:考察模型或应用针对内容配音不同场景的语音情景契合度和表现力。小类场景包括:纪录片和自媒体。 直播广告:考察模型或应用针对直播广告不同场景的语音情景契合度和表现力。小类场景包括:商品促销和品牌宣传
场景能力的评估包括两方面:
经过不断的实验与验证,我们计划使用具备语音能力识别的超级模型(和其他可行的方式),对语音合成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:
1. 测评集构建
2. 评分标准
在定义的指标体系里,明确每一个评估标准。结合评估流程、评估标准、评分规则,将文本输入、音频文件送入测评系统进行评估,并获得评估结果。
评估示例
# 示例1
【测评任务】:准确性
【题目类型】:多音字
【文本】:在这个城市的中心区域,有一座著名的银行,这里每天人来人往,行色匆匆。
【生成语音】:
超级模型评分:
----逐项打分开始----
我的思考与分析:音频中“行色匆匆”的“行”字读音正确,读作xíng,没有读成háng。其他字词发音也准确无误,没有出现任何多音字的误读。句子完整,没有出现音节、词语或句子的遗漏。整体流畅自然。问题及改善建议:
本次音频在多音字方面表现良好,没有发现问题,可以考虑在语气和停顿方面进行一些细微的改进,使表达更具感染力。打分与评价开始:发音准确性:多音字“行”读音正确,其他字词发音也标准。得分:5分 发音完整性:音频完整,没有缺失任何音节、词语或句子。得分:5分
超级模型评分:
----逐项打分开始----
我的思考与分析:音频整体清晰度较高,发音标准,没有明显的口音或错误。节奏把握较为合适,符合诗歌的韵律感。音色较为自然,没有明显的机械感或电子音。背景干净,没有杂音或噪音干扰。诗句的停顿处理也比较恰当,使得诗歌的意境得以体现。问题及改善建议:
1. 可以尝试在情感表达上进行一些微调,例如在“低头思故乡”一句中,可以略微放慢语速,并加入一丝淡淡的伤感,使情感更饱满。
2. 虽然节奏把握不错,但可以尝试在“举头望明月”和“低头思故乡”两句之间增加稍许停顿,以强化对比和情感的转折。打分与评价开始:
音质纯净度:音频背景干净,没有杂音,音质清晰纯净。得分:5分
语音清晰度:发音清晰标准,每个字都能听清楚,没有含糊不清的现象。得分:5分
- **综合得分**:该TTS模型的平均分为 (5 + 5) / 2 = [[5.00]]
----逐项打分结束----
# 测评邀请
时间规划
测评流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评API接口或大模型