查看原文
其他

实时语音交互中文基准首期测评出炉,4大维度15项能力7款应用,GPT-4o高级语音领跑,国内产品延时、打断和场景应用表现出色

SuperCLUE CLUE中文语言理解测评基准
2024-12-08


SuperCLUE团队

2024/09

背景

自2024年以来,AI大模型技术和应用逐渐从文本扩展至更多模态。随着OpenAI于今年5月份发布GPT-4o多模态版本,掀起了国内外语音和视觉大模型的研发热潮,OpenAI也于近期正式开放GPT-4o高级语音能力。
基于此,中文大模型测评基准SuperCLUE于近期对国内外实时语音大模型能力,进行了系统性量化测评。

测评核心内容摘要


摘要1:在中文实时语音总体能力上,GPT-4o高级语音有一定领先性,但在安全策略和幻觉问题等方面仍有较大提升空间。

GPT-4o总体取得74.31分,领跑中文实时语音交互基准。并在说话风格、自然度、语言理解、记忆能力方面有较大领先性。不过GPT-4o高级语音在核心问题上仍有提升空间,如安全策略的高频误触、幻觉问题等。

摘要2:在中文语音环境下,国内头部语音产品具有较好的竞争力。

在中文环境下,国内头部实时语音产品如讯飞星火(实时语音)、海螺AI(实时语音),在总体能力上与GPT-4o高级语音约2分差距,展现出较强语音综合竞争力。

摘要3:国内实时语音产品在响应延时、打断能力和部分通用能力上存在一定优势。响应延时方面,讯飞星火有突出表现;打断能力方面,通义表现突出,有超过GPT-4o高级语音的表现;整体通用能力方面,海螺AI和豆包具备较强的综合能力,在记忆和推理方面表现不俗。

摘要4:在中文场景应用方面,国内实时语音产品具有独特优势。

在实时语音场景应用领域,国内实时语音产品表现不俗。文小言在健康咨询、购物咨询等方面表现突出;智谱清言在情感咨询方面有较好表现;通义在实时翻译和教育辅导方面较为擅长;豆包则更擅长教育辅导。


#榜单概览



目录

一、SuperCLUE-Voice基准介绍1. 基准测评体系2. 测评方法、评价标准及示例说明
二、测评结果
1. 测评产品列表

2. 中文实时语音基准总榜

3. SuperCLUE-AI产品象限(实时语音)

4. 二级细粒度任务测评结果总表5. SuperCLUE-Voice能力分布图

6. 一级维度测评结果

   1)语音交互榜单

   2)通用能力榜单

   3)场景应用榜单

   4)响应速度榜单

7. 评测与人类一致性验证三、测评对比示例四、分析与结论五、后续测评计划与参与方式


正文      

   

一、SuperCLUE-Voice基准介绍

中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)发起于2019年,已陆续推出CLUE、FewCLUE、ZeroCLUE、KgCLUE、DataCLUE、SuperCLUE等广为引用的AI测评基准。

SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评,致力于精准量化通用人工智能AGI进展。

1. SuperCLUE-Voice基准体系

SuperCLUE-Voice是专为中文设计的多模态实时语音交互产品测评基准,旨在为中文领域提供全面的实时语音产品多维能力评估参考。

2. 测评方法及评价标准说明1)测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

a)测评集构建

中英文实时对话材料构建流程:1.参考现有相关任务的提示词(Prompt)—>2.根据任务特点,撰写专项提示词(Prompt) —>3.调用语音合成(TTS)模型生成对话材料—>4.测试验证—>5.修改并确定最终中英文测评提示词(Prompt)—>6.针对每个维度构建专用的测评集—>7.调用语音合成(TTS)模型生成完整的音频对话测评集。

b)测评过程

在相同设备和网络环境下,使用同一语音合成(TTS)模型生成的音频对话测评集,对每个产品进行对话测试,统一执行测评并生成对话录音文件。

c)评分过程

1.获得录制好的对话材料-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分;结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本和文件传给超级模型进行评估,并获得每一个维度的评估结果。

d)人类一致性分析

对自动化测评结果进行评估,与人类评价的一致性对比,并报告一致性表现。
2)评价方法与标准a. 自动评价计算方法及示例在每个二级维度下,都有相应的评分标准。将对话材料传递给Gemini-1.5-Pro,为该维度的每一项评价指标进行评分,并计算每项指标得分的平均值,最终得出此任务的总体评分。

【示例】语音交互-说话风格

语音Prompt:旁边有人在睡觉,而我睡不着,你能轻声安静的跟我讲一个睡前故事吗?



超级模型(Gemini-1.5-Pro)裁判:

----------评价开始----------我的思考与答案:用户希望AI助手能轻声且安静地讲故事哄睡,AI助手的语音风格温柔,音量较低,符合用户需求。 问题及改进的反馈意见:AI助手的语音风格没有明显问题。 1.情感调整:AI助手的音色舒缓,语气轻柔,情感表达符合哄睡的场景。得分:5分 2.语速控制:AI助手的语速较慢,停顿时间较长,能让用户放松,容易入睡。得分:4分 综合以上,AI助手的综合得分(平均分)为(5 + 4) / 2 = [[4.50]]

----------评价结束----------

b. 响应延时测算方法及示例

用户会话的结束时间(记为user_end_time)为开始时间,和AI助手响应会话的开始时间(记为AI_start_time)为结束时间,取这一段的时间间隔作为响应延迟。(我们没有扣除基础网络延迟,因为测评在相同的设备和网络环境中进行,以更真实地反映用户的体验。)具体计算方式如下:

响应延迟 = AI_start_time - user_end_time

下面是计算延迟的示例:

响应延迟计算示例:参考上文对响应延迟的定义,在本视频中,我们截取了两段可测量的时间戳间隔,分别位于[4879, 5180],[17660, 18270](单位为毫秒),分别计算其间隔,取平均值后求得响应延迟为455.5毫秒。

响应延时总分计算:
我们从每个产品中同批次挑选对话次数较多的任务类型,并抽取其中15%的实时对话样本,来获取所有交互的响应延迟,最终计算出平均响应时间。
通过设定延迟阈值,将延迟小于或等于300毫秒(这一阈值通常被认为是用户几乎察觉不到延迟的界限,能够保证流畅的交互体验)的产品评分为100分,而延迟大于或等于5000毫秒的产品评分为0分。对于介于这两个值之间的延迟,根据其在阈值范围内的位置计算出一个比例得分,从而实现评分的线性分布。
计算代码示例:
# 定义产品名称和对应的延迟(毫秒)product_data = { 'ChatGPT(实时语音)': 1450.625, '海螺AI(实时语音)': 1675, '讯飞星火(实时语音)': 1120.625, '豆包(实时语音)': 2100.625, '智谱清言(实时语音)': 2141.25, '通义(实时语音)': 3105.625, '文小言(实时语音)': 4410.625,}
# 定义延迟阈值min_latency = 300 max_latency = 5000
# 计算每个产品的得分scores = {}for product, latency in product_data.items(): if latency <= min_latency: score = 100 elif latency >= max_latency: score = 0 else: score = (max_latency - latency) / (max_latency - min_latency) * 100 scores[product] = score
# 输出结果for product, score in scores.items(): print(f"{product}: {score:.2f} 分")
c. 打断延时测算方法及示例
用户尝试中断当前会话的时间点(记为user_start_time)为用户开始打断时间,和AI助手停止当前响应的时间点(记为AI_end_time)为AI助手响应停止时间,取这一段的时间间隔作为打断延迟。具体计算方式如下:
打断延迟 = AI_end_time - user_start_time;

下面是打断延迟的示例:

参考上文对打断延迟的定义,在本视频中,我们截取用户开始打断时间为7974ms(user_start_time),AI助手响应停止时间为8987ms(AI_end_time)。根据公式计算,求得打断延迟为1013ms。

最终打断延时总分计算:

针对打断任务,获取每个产品所有交互的打断延迟,最终分别计算出每个产品的平均打断延迟。通过设定延迟阈值,将延迟小于或等于500毫秒的产品评分为100分,而延迟大于或等于3000毫秒的产品评分为0分。对于介于这两个值之间的延迟,根据其在阈值范围内的位置计算出一个比例得分,从而实现评分的线性分布。

二、SuperCLUE-Voice测评结果

1. 测评产品列表本次测评实时语音交互产品,选取了国内外有代表性的7个实时语音交互产品在9月份的版本。

本次测评海外产品GPT-4o(高级语音)是ChatGPT产品中的GPT-4o高级语音模式,为了更有区分性,测评报告中均统称为GPT-4o高级语音。

2.中文实时语音测评基准总榜


3.SuperCLUE-AI产品象限

基于大模型在基础能力和应用能力的表现,本次共有6个国内实时语音交互产品入选SuperCLUE-AI产品象限。 

4.细粒度任务测评结果总表

5.SuperCLUE-Voice能力分布图


6.一级维度榜单

1)语音交互榜单

2)通用能力榜单

3)场景应用榜单

4)响应速度榜单

7.评测与人类一致性分析

为确保大模型自动化测评的科学性,我们对Gemini-1.5-Pro在实时交互语音评价任务中进行了人类一致性评估,以此来确保评估的合理性与准确性。
具体操作方法:抽取4个产品,按每个维度进行分层抽样,对各产品对应的共100个任务输出答案的质量进行人工评价,并与超级大模型的评分进行比较,考察Gemini-1.5-Pro评价与真实情况的吻合度,再给予相应的评分。

最终得到的人类一致性评估结果(合格率)如下:

通过4个实时语音产品的可靠性分析验证,我们发现可靠性数据分别为93.75%、91.67%、93.75%、95.83%,平均有93.75%的可靠性。所以,经过验证,SuperCLUE自动化评价有较高的可靠性


四、测评对比示例

示例1:语音交互-说话风格

Prompt:请你喊叫式的说一段绕口令呗,语速快一点。

GPT-4o高级语音示例:较好的按照指令风格完成任务。

智谱清言示例:未遵循指令,有一定优化空间

示例2:语音交互-打断

用户Prompt:请问今天杭州的天气怎么样?(在AI回复进行5秒后插入“不对,我想知道杭州明天的天气状况”,进行打断)。

通义示例:打断效果较好,延时较低。


文小言示例:打断延时较高,有一定优化空间

示例3:通用能力-记忆(多轮)

第一轮Prompt:我喜欢吃巧克力口味的冰淇淋,请问冰淇淋的发源地在哪里?

第二轮Prompt:其实我也喜欢吃开心果口味的冰淇淋,但我想知道为什么小孩子喜欢吃冰淇淋?

第三轮Prompt:我喜欢吃什么口味的冰淇淋?

海螺AI示例


示例5:场景应用-翻译

用户Prompt:请你待会儿将我说的话,翻译成英语说出。尽管生活中有许多挑战,只要你不断地付出努力,保持积极的心态,未来一定会充满意想不到的惊喜和丰厚的收获。

豆包示例


示例6:场景应用-健康咨询

用户Prompt:请你作为一名健康咨询师与我开展对话。昨天喝了冰饮后,我的肚子隐隐作痛,并且感觉肚子有点胀,有点难受。我这是怎么了?该吃什么药?

文小言示例


四、分析与结论

1.GPT-4o高级语音在实时中文语音总体能力上有一定领先性,国内实时语音头部产品能力仍有很大竞争力。

根据SuperCLUE-Voice测评结果,可以看到当前GPT-4o高级语音在中文依然有一定领先性,取得74.31分。 但需要注意的是在部分情况下,GPT-4o高级语音表现不稳定,会出现误触安全策略和指令遵循的幻觉出现,同时尚未接入联网功能。

而国内的实时语音产品中,海螺AI和讯飞星火同样表现不俗,均有超过72分的表现,稍落后于GPT-4o高级语音。可见在中文场景中,国内实时语音产品有非常大的机会。


2.语音响应速度方面国内语音产品有较大优势。

数据来源:SuperCLUE,9月29日;当前延迟时间包括网络延迟,所有测评交互均在相同网络环境、相同时间周期内进行。

根据测评结果的延迟时间数据可以发现,不同实时语音产品的响应速度差异较大。表现最好的是讯飞星火有1121ms的平均延时,较GPT-4o高级语言平均延时少330ms,展现出科大讯飞对语音核心技术的持续积累。海螺AI紧随其后同样有小于2000ms的表现。

在被测产品中,通义和文小言的延迟较为严重,均有超过3s的平均延时。响应时间为实时语音交互产品体验中非常重要的能力,SuperCLUE后续将持续跟踪国内实时语音产品在响应速度上的表现。


3.语音交互能力上GPT-4o有非常大的领先性,尤其在说话风格和语音自然度方面表现卓越,打断能力国内产品表现较好。


GPT-4o高级语音在说话风格和语音自然度方面表现出色,体现出高度拟人化的能力特点。而国内实时语音交互产品,在典型说话风格能力上有所不足。在语音自然度方面海螺AI同样表现不俗,取得78.6的高分。

在打断能力任务上,国内实时语音产品通义表现惊艳,是唯一进入1000ms的实时语音产品,科大讯飞同样表现出色,平均打断延时为1006ms,均有超过GPT-4o高级语音的表现。值得注意的是豆包由于不支持语音打断,仅支持点击屏幕人工打断,故给予基础分20分。

4.通用能力方面,每个实时语音产品各有特色。


通用能力维度中,不同产品在不同任务上表现各有特色。如海螺AI在记忆能力、联网能力、推理能力上表现不俗;智谱清言在安全方面大幅领先,同时较为擅长指令遵循;文小言在记忆、安全方面表现较好;豆包则更适合联网、推理任务。需要注意的是,GPT-4o高级语音由于未接入联网功能,导致联网能力分数偏低,进而影响了GPT-4o高级语音在通用能力上的表现。

5.中文应用场景方面,国内产品表现出色,文小言领跑实时语音场景应用。


在场景应用方面,国内语音产品展现出很强的落地能力。其中,文小言表现较为出色,取得69.68分,超过GPT-4o高级语音有2分。其他国内语音产品均为超过60分的表现。

其中,不同产品擅长的场景略有不同。海螺AI更为擅长翻译;通义和豆包在教育辅导方面表现更好;智谱清言在情感咨询方面有较大优势;文小言则更为擅长健康咨询和购物客服。




五、未来计划与申请参与方式

未来SuperCLUE将会持续不断测评实时语音相关的模型和产品,下一期发布窗口预计在10月底进行。欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE实时语音交互,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

欢迎加入【SuperCLUE实时语音】交流群。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存