语音合成大模型测评基准（方案）发布

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

随着人工智能技术在语音合成（Text-to-Speech，TTS）领域的迅速发展，新一代语言模型在语音合成任务中的表现也成为了研究重点。为更精确评估大模型的语音合成能力，我们基于中文基准测评经验，推出了全新的语音合成测评基准SuperCLUE-TTS。该基准评估关注模型的语音合成基础能力，全面衡量模型所生成的语音的准确度、清晰度、自然度与情感表现能力，并且纳入了大量应用场景的考察。这一框架旨在未来模型研发提供参考，确保其在复杂任务中具备更高的可靠性和灵活性。

排行榜地址：www.SuperCLUEai.com

# SuperCLUE-TTS测评体系

注：具体的测评任务以正式发布的测评报告为准。

1. 特点

（1）全面性

评分标准全面覆盖语音合成模型的整体表现，确保对大模型语音合成能力的全面评估。我们除了关注大模型生成的语音准确度、清晰度、自然度与情感表现能力以外，还会考察语音的场景能力，确保模型能在不同场景生成契合该场景的语音。

（2）多样性

测评数据集涵盖了多种常见的实用场景，旨在验证大模型在生成不同应用场景语音方面的能力，同时确保生成的语音的情感契合度与表现力都符合该场景的要求。而测评具体使用的应用场景包括语音导航、有声读物、语音播报、内容配音、直播广告这五个场景。

2. 测评任务

基础能力

1. 准确性

发音准确性：评估音频中的发音是否符合标准发音规则，是否存在错误发音或误读现象。

发音完整性：评估音频中是否存在音节、词语或句子的遗漏，确保每个语音单位的发音均完整。

2. 清晰度

音质纯净度：评估音频中是否存在如电噪、背景噪音或其他干扰因素，影响音质的纯净性。

语音清晰度：评估音频中发音的清晰度，确保每个音节、字的发音清楚明了，没有模糊不清或含混不清的现象。

3. 自然度

表达自然性：评估音频中的自然韵律是否符合语言习惯，语调、及重音变化是否合理，语气是否到位，是否不存在声音过于机械或矫揉造作的现象。

发音流畅性：评估音频中的声音是否自然顺畅，节奏是否自然且有变化，无明显的卡顿、停顿或语速不一致，是否连贯且易于理解。

4. 情感表现

情感契合度：评估音频中的情感表达是否与文本内容的情感语境相符，是否能够准确传达内容的情感特征。

情感表现力：评估音频中情感表达的力度和细腻程度，是否能够有效传达情感的强度和层次，使听者感受到丰富的情感变化。

场景能力

1.语音导航、有声读物、语音播报、内容配音、直播广告

语音导航：考察模型或应用针对语音导航不同场景的语音情景契合度和表现力。小类场景包括：交通提示和安全警告。
有声读物：考察模型或应用针对有声读物不同场景的语音情景契合度和表现力。小类场景包括：童话故事和小说片段。
语音播报：考察模型或应用针对语音播报不同场景的语音情景契合度和表现力。小类场景包括：新闻咨询和公共广播。
内容配音：考察模型或应用针对内容配音不同场景的语音情景契合度和表现力。小类场景包括：纪录片和自媒体。
直播广告：考察模型或应用针对直播广告不同场景的语音情景契合度和表现力。小类场景包括：商品促销和品牌宣传

场景能力的评估包括两方面：

情境契合度：评估音频中的语气、语调、音色等是否与该场景的预期风格一致，音频是否符合场景要求的氛围。

情境表现力：评估音频在不同场景下对内容生动性和适应性的表达程度，是否能够通过适当的语调、节奏和音色变化，有效支持场景需求。

3.测评方法和评估示例

测评方法

经过不断的实验与验证，我们计划使用具备语音能力识别的超级模型（和其他可行的方式），对语音合成技术的性能进行了全面的评估。该评估流程分为以下几个步骤：

1. 测评集构建

构建流程：1.根据任务特点，撰写专项TTS文本--->2.测试--->3.修改并确定最终专项TTS文本--->4.针对每一个测评指标构建专用的测评集。

2. 评分标准

测评流程：1.调用TTS模型合成文本的音频-->2.依据评估标准-->3.使用评分规则-->4.进行打分

在定义的指标体系里，明确每一个评估标准。结合评估流程、评估标准、评分规则，将文本输入、音频文件送入测评系统进行评估，并获得评估结果。

评估示例

# 示例1

【测评任务】：准确性

【题目类型】：多音字

【文本】：在这个城市的中心区域，有一座著名的银行，这里每天人来人往，行色匆匆。

【生成语音】：

超级模型评分：

----逐项打分开始----

我的思考与分析：音频中“行色匆匆”的“行”字读音正确，读作xíng，没有读成háng。其他字词发音也准确无误，没有出现任何多音字的误读。句子完整，没有出现音节、词语或句子的遗漏。整体流畅自然。

问题及改善建议：

本次音频在多音字方面表现良好，没有发现问题，可以考虑在语气和停顿方面进行一些细微的改进，使表达更具感染力。打分与评价开始：

发音准确性：多音字“行”读音正确，其他字词发音也标准。得分：5分
发音完整性：音频完整，没有缺失任何音节、词语或句子。得分：5分

- **综合得分**：该TTS模型的平均分为 (5 + 5) / 2 = [[5.00]]----逐项打分结束----

# 示例2

【测评任务】：清晰度

【题目类型】：诗词

【文本】：床前明月光，疑是地上霜。举头望明月，低头思故乡。

【生成语音】：

超级模型评分：

----逐项打分开始----

我的思考与分析：音频整体清晰度较高，发音标准，没有明显的口音或错误。节奏把握较为合适，符合诗歌的韵律感。音色较为自然，没有明显的机械感或电子音。背景干净，没有杂音或噪音干扰。诗句的停顿处理也比较恰当，使得诗歌的意境得以体现。

问题及改善建议：

1. 可以尝试在情感表达上进行一些微调，例如在“低头思故乡”一句中，可以略微放慢语速，并加入一丝淡淡的伤感，使情感更饱满。

2. 虽然节奏把握不错，但可以尝试在“举头望明月”和“低头思故乡”两句之间增加稍许停顿，以强化对比和情感的转折。

打分与评价开始：

音质纯净度：音频背景干净，没有杂音，音质清晰纯净。得分：5分
语音清晰度：发音清晰标准，每个字都能听清楚，没有含糊不清的现象。得分：5分

- **综合得分**：该TTS模型的平均分为 (5 + 5) / 2 = [[5.00]]

----逐项打分结束----

# 示例对比

【测评任务】：情感表现

【题目类型】：高兴

【文本】：哈哈，我跟你说个好消息！我拿到那份梦寐以求的工作了！对我职业生涯来说，这真是一个重要的进步。

【生成语音】：

【产品一】：4.25分

【产品二】：1.75分

# 测评邀请

时间规划

1. 报名时间开始：11月20日

2.参测评模型确认：11月25日

3.测评结果发布：11月底

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：SuperCLUE-TTS语音合成测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

语音合成大模型测评基准（方案）发布

1. 准确性

2. 清晰度

3. 自然度

1.语音导航、有声读物、语音播报、内容配音、直播广告

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

语音合成大模型测评基准（方案）发布

1. 准确性

2. 清晰度

3. 自然度

1.语音导航、有声读物、语音播报、内容配音、直播广告

您可能也对以下帖子感兴趣