实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

SuperCLUE团队

2024/09

背景

自2024年以来，AI大模型技术和应用逐渐从文本扩展至更多模态。随着OpenAI于今年5月份发布GPT-4o多模态版本，掀起了国内外语音和视觉大模型的研发热潮，OpenAI也于近期正式开放GPT-4o高级语音能力。

基于此，中文大模型测评基准SuperCLUE于近期对国内外实时语音大模型能力，进行了系统性量化测评。

测评核心内容摘要

摘要1：在中文实时语音总体能力上，GPT-4o高级语音有一定领先性，但在安全策略和幻觉问题等方面仍有较大提升空间。

GPT-4o总体取得74.31分，领跑中文实时语音交互基准。并在说话风格、自然度、语言理解、记忆能力方面有较大领先性。不过GPT-4o高级语音在核心问题上仍有提升空间，如安全策略的高频误触、幻觉问题等。

摘要2：在中文语音环境下，国内头部语音产品具有较好的竞争力。

在中文环境下，国内头部实时语音产品如讯飞星火（实时语音）、海螺AI（实时语音），在总体能力上与GPT-4o高级语音约2分差距，展现出较强语音综合竞争力。

摘要3：国内实时语音产品在响应延时、打断能力和部分通用能力上存在一定优势。响应延时方面，讯飞星火有突出表现；打断能力方面，通义表现突出，有超过GPT-4o高级语音的表现；整体通用能力方面，海螺AI和豆包具备较强的综合能力，在记忆和推理方面表现不俗。

摘要4：在中文场景应用方面，国内实时语音产品具有独特优势。

在实时语音场景应用领域，国内实时语音产品表现不俗。文小言在健康咨询、购物咨询等方面表现突出；智谱清言在情感咨询方面有较好表现；通义在实时翻译和教育辅导方面较为擅长；豆包则更擅长教育辅导。

#榜单概览

一、SuperCLUE-Voice基准介绍1. 基准测评体系2. 测评方法、评价标准及示例说明

二、测评结果

1. 测评产品列表

2. 中文实时语音基准总榜

3. SuperCLUE-AI产品象限(实时语音)

4. 二级细粒度任务测评结果总表5. SuperCLUE-Voice能力分布图

6. 一级维度测评结果

1）语音交互榜单

2）通用能力榜单

3）场景应用榜单

4）响应速度榜单

7. 评测与人类一致性验证三、测评对比示例四、分析与结论五、后续测评计划与参与方式

正文

一、SuperCLUE-Voice基准介绍

中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）发起于2019年，已陆续推出CLUE、FewCLUE、ZeroCLUE、KgCLUE、DataCLUE、SuperCLUE等广为引用的AI测评基准。

SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评，致力于精准量化通用人工智能AGI进展。

1. SuperCLUE-Voice基准体系

SuperCLUE-Voice是专为中文设计的多模态实时语音交互产品测评基准，旨在为中文领域提供全面的实时语音产品多维能力评估参考。

2. 测评方法及评价标准说明1）测评方法
参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

a）测评集构建

中英文实时对话材料构建流程：1.参考现有相关任务的提示词(Prompt)—>2.根据任务特点，撰写专项提示词(Prompt) —>3.调用语音合成(TTS)模型生成对话材料—>4.测试验证—>5.修改并确定最终中英文测评提示词(Prompt)—>6.针对每个维度构建专用的测评集—>7.调用语音合成(TTS)模型生成完整的音频对话测评集。

b）测评过程

在相同设备和网络环境下，使用同一语音合成（TTS）模型生成的音频对话测评集，对每个产品进行对话测试，统一执行测评并生成对话录音文件。

c）评分过程

1.获得录制好的对话材料-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分；结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本和文件传给超级模型进行评估，并获得每一个维度的评估结果。

d）人类一致性分析

对自动化测评结果进行评估，与人类评价的一致性对比，并报告一致性表现。
2）评价方法与标准

a. 自动评价计算方法及示例在每个二级维度下，都有相应的评分标准。将对话材料传递给Gemini-1.5-Pro，为该维度的每一项评价指标进行评分，并计算每项指标得分的平均值，最终得出此任务的总体评分。

【示例】语音交互-说话风格

语音Prompt：旁边有人在睡觉，而我睡不着，你能轻声安静的跟我讲一个睡前故事吗？

超级模型（Gemini-1.5-Pro）裁判：

----------评价开始----------我的思考与答案：用户希望AI助手能轻声且安静地讲故事哄睡，AI助手的语音风格温柔，音量较低，符合用户需求。问题及改进的反馈意见：AI助手的语音风格没有明显问题。 1.情感调整：AI助手的音色舒缓，语气轻柔，情感表达符合哄睡的场景。得分：5分 2.语速控制：AI助手的语速较慢，停顿时间较长，能让用户放松，容易入睡。得分：4分综合以上，AI助手的综合得分（平均分）为(5 + 4) / 2 = [[4.50]]

----------评价结束----------

b. 响应延时测算方法及示例

用户会话的结束时间（记为user_end_time）为开始时间，和AI助手响应会话的开始时间（记为AI_start_time）为结束时间，取这一段的时间间隔作为响应延迟。（我们没有扣除基础网络延迟，因为测评在相同的设备和网络环境中进行，以更真实地反映用户的体验。）具体计算方式如下：

响应延迟 = AI_start_time - user_end_time

下面是计算延迟的示例：

响应延迟计算示例：参考上文对响应延迟的定义，在本视频中，我们截取了两段可测量的时间戳间隔，分别位于[4879, 5180]，[17660, 18270]（单位为毫秒），分别计算其间隔，取平均值后求得响应延迟为455.5毫秒。

响应延时总分计算：

我们从每个产品中同批次挑选对话次数较多的任务类型，并抽取其中15%的实时对话样本，来获取所有交互的响应延迟，最终计算出平均响应时间。

通过设定延迟阈值，将延迟小于或等于300毫秒（这一阈值通常被认为是用户几乎察觉不到延迟的界限，能够保证流畅的交互体验）的产品评分为100分，而延迟大于或等于5000毫秒的产品评分为0分。对于介于这两个值之间的延迟，根据其在阈值范围内的位置计算出一个比例得分，从而实现评分的线性分布。

计算代码示例：

# 定义产品名称和对应的延迟（毫秒）product_data = { 'ChatGPT（实时语音）': 1450.625, '海螺AI（实时语音）': 1675, '讯飞星火（实时语音）': 1120.625, '豆包（实时语音）': 2100.625, '智谱清言（实时语音）': 2141.25, '通义（实时语音）': 3105.625, '文小言（实时语音）': 4410.625,}

# 定义延迟阈值min_latency = 300 max_latency = 5000

# 计算每个产品的得分scores = {}for product, latency in product_data.items(): if latency <= min_latency: score = 100 elif latency >= max_latency: score = 0 else: score = (max_latency - latency) / (max_latency - min_latency) * 100 scores[product] = score

# 输出结果for product, score in scores.items(): print(f"{product}: {score:.2f} 分")

c. 打断延时测算方法及示例

用户尝试中断当前会话的时间点（记为user_start_time）为用户开始打断时间，和AI助手停止当前响应的时间点（记为AI_end_time）为AI助手响应停止时间，取这一段的时间间隔作为打断延迟。具体计算方式如下：

打断延迟 = AI_end_time - user_start_time;

下面是打断延迟的示例：

参考上文对打断延迟的定义，在本视频中，我们截取用户开始打断时间为7974ms（user_start_time），AI助手响应停止时间为8987ms（AI_end_time）。根据公式计算，求得打断延迟为1013ms。

最终打断延时总分计算：

针对打断任务，获取每个产品所有交互的打断延迟，最终分别计算出每个产品的平均打断延迟。通过设定延迟阈值，将延迟小于或等于500毫秒的产品评分为100分，而延迟大于或等于3000毫秒的产品评分为0分。对于介于这两个值之间的延迟，根据其在阈值范围内的位置计算出一个比例得分，从而实现评分的线性分布。

二、SuperCLUE-Voice测评结果

1. 测评产品列表本次测评实时语音交互产品，选取了国内外有代表性的7个实时语音交互产品在9月份的版本。

本次测评海外产品GPT-4o(高级语音)是ChatGPT产品中的GPT-4o高级语音模式，为了更有区分性，测评报告中均统称为GPT-4o高级语音。

2.中文实时语音测评基准总榜

3.SuperCLUE-AI产品象限

基于大模型在基础能力和应用能力的表现，本次共有6个国内实时语音交互产品入选SuperCLUE-AI产品象限。

4.细粒度任务测评结果总表

5.SuperCLUE-Voice能力分布图

6.一级维度榜单

1）语音交互榜单

2）通用能力榜单

3）场景应用榜单

4）响应速度榜单

7.评测与人类一致性分析

为确保大模型自动化测评的科学性，我们对Gemini-1.5-Pro在实时交互语音评价任务中进行了人类一致性评估，以此来确保评估的合理性与准确性。

具体操作方法：抽取4个产品，按每个维度进行分层抽样，对各产品对应的共100个任务输出答案的质量进行人工评价，并与超级大模型的评分进行比较，考察Gemini-1.5-Pro评价与真实情况的吻合度，再给予相应的评分。

最终得到的人类一致性评估结果（合格率）如下：

通过4个实时语音产品的可靠性分析验证，我们发现可靠性数据分别为93.75%、91.67%、93.75%、95.83%，平均有93.75%的可靠性。所以，经过验证，SuperCLUE自动化评价有较高的可靠性。

四、测评对比示例

示例1：语音交互-说话风格

Prompt：请你喊叫式的说一段绕口令呗，语速快一点。

GPT-4o高级语音示例：较好的按照指令风格完成任务。

智谱清言示例：未遵循指令，有一定优化空间

示例2：语音交互-打断

用户Prompt：请问今天杭州的天气怎么样？（在AI回复进行5秒后插入“不对，我想知道杭州明天的天气状况”，进行打断）。

通义示例：打断效果较好，延时较低。

文小言示例：打断延时较高，有一定优化空间

示例3：通用能力-记忆（多轮）

第一轮Prompt：我喜欢吃巧克力口味的冰淇淋，请问冰淇淋的发源地在哪里？

第二轮Prompt：其实我也喜欢吃开心果口味的冰淇淋，但我想知道为什么小孩子喜欢吃冰淇淋？

第三轮Prompt：我喜欢吃什么口味的冰淇淋？

海螺AI示例

示例5：场景应用-翻译

用户Prompt：请你待会儿将我说的话，翻译成英语说出。尽管生活中有许多挑战，只要你不断地付出努力，保持积极的心态，未来一定会充满意想不到的惊喜和丰厚的收获。

豆包示例

示例6：场景应用-健康咨询

用户Prompt：请你作为一名健康咨询师与我开展对话。昨天喝了冰饮后，我的肚子隐隐作痛，并且感觉肚子有点胀，有点难受。我这是怎么了？该吃什么药？

文小言示例

四、分析与结论

1.GPT-4o高级语音在实时中文语音总体能力上有一定领先性，国内实时语音头部产品能力仍有很大竞争力。

根据SuperCLUE-Voice测评结果，可以看到当前GPT-4o高级语音在中文依然有一定领先性，取得74.31分。但需要注意的是在部分情况下，GPT-4o高级语音表现不稳定，会出现误触安全策略和指令遵循的幻觉出现，同时尚未接入联网功能。

而国内的实时语音产品中，海螺AI和讯飞星火同样表现不俗，均有超过72分的表现，稍落后于GPT-4o高级语音。可见在中文场景中，国内实时语音产品有非常大的机会。

2.语音响应速度方面国内语音产品有较大优势。

数据来源：SuperCLUE，9月29日；当前延迟时间包括网络延迟，所有测评交互均在相同网络环境、相同时间周期内进行。

根据测评结果的延迟时间数据可以发现，不同实时语音产品的响应速度差异较大。表现最好的是讯飞星火有1121ms的平均延时，较GPT-4o高级语言平均延时少330ms，展现出科大讯飞对语音核心技术的持续积累。海螺AI紧随其后同样有小于2000ms的表现。

在被测产品中，通义和文小言的延迟较为严重，均有超过3s的平均延时。响应时间为实时语音交互产品体验中非常重要的能力，SuperCLUE后续将持续跟踪国内实时语音产品在响应速度上的表现。

3.语音交互能力上GPT-4o有非常大的领先性，尤其在说话风格和语音自然度方面表现卓越，打断能力国内产品表现较好。

GPT-4o高级语音在说话风格和语音自然度方面表现出色，体现出高度拟人化的能力特点。而国内实时语音交互产品，在典型说话风格能力上有所不足。在语音自然度方面海螺AI同样表现不俗，取得78.6的高分。

在打断能力任务上，国内实时语音产品通义表现惊艳，是唯一进入1000ms的实时语音产品，科大讯飞同样表现出色，平均打断延时为1006ms，均有超过GPT-4o高级语音的表现。值得注意的是豆包由于不支持语音打断，仅支持点击屏幕人工打断，故给予基础分20分。

4.通用能力方面，每个实时语音产品各有特色。

通用能力维度中，不同产品在不同任务上表现各有特色。如海螺AI在记忆能力、联网能力、推理能力上表现不俗；智谱清言在安全方面大幅领先，同时较为擅长指令遵循；文小言在记忆、安全方面表现较好；豆包则更适合联网、推理任务。需要注意的是，GPT-4o高级语音由于未接入联网功能，导致联网能力分数偏低，进而影响了GPT-4o高级语音在通用能力上的表现。

5.中文应用场景方面，国内产品表现出色，文小言领跑实时语音场景应用。

在场景应用方面，国内语音产品展现出很强的落地能力。其中，文小言表现较为出色，取得69.68分，超过GPT-4o高级语音有2分。其他国内语音产品均为超过60分的表现。

其中，不同产品擅长的场景略有不同。海螺AI更为擅长翻译；通义和豆包在教育辅导方面表现更好；智谱清言在情感咨询方面有较大优势；文小言则更为擅长健康咨询和购物客服。

五、未来计划与申请参与方式

未来SuperCLUE将会持续不断测评实时语音相关的模型和产品，下一期发布窗口预计在10月底进行。欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai，标题：SuperCLUE实时语音交互，请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

欢迎加入【SuperCLUE实时语音】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

您可能也对以下帖子感兴趣