查看原文
其他

SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布

SuperCLUE CLUE中文语言理解测评基准 2024-01-03

今年以来,大模型在各个领域得到了广泛应用。随着智能化、智能驾驶、车联网等技术的不断进步,高速发展的汽车行业对于中文大模型的需求也日益增长。
然而,尽管大模型在汽车领域的应用潜力巨大,现有的大模型测评基准并未能覆盖汽车行业的需求,它们主要是针对通用能力的测评,这导致了行业内对大模型能力的评估缺乏公开的评价标准。
为了解决这一问题,我们推出了专门针对汽车行业的大模型测评基准(SuperCLUE-Auto)。
这是首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。
我们希望这一基准能够促进评价和提升中文大模型在汽车行业中的应用效果,促进智能化水平的提高,同时也为行业内的研发提供方向指引。
测评体系、代表性示例、榜单已经在这里发布:

www.cluebenchmarks.com/superclue_auto.html

https://github.com/CLUEbenchmark/SuperCLUE-auto

SuperCLUE-Auto

SuperCLUE-Auto包括4大核心基础能力的十余个任务。

具体任务如下:

能力一:智能座舱与交互

这类任务主要考察模型车内人机交互能力,主要涵盖驾驶信息管理、车辆控制功能、娱乐系统及信息处理能力,提升用户体验,增加驾乘舒适度和安全性。使用场景包括但不限于:用车、出行、娱乐和信息获取。

能力二:汽车营销

汽车营销是一系列旨在促进汽车销售和品牌忠诚度的策略和活动,它涵盖广告、促销、品牌建设、市场研究以及客户关系管理。本次测评主要包括但不限于:汽车厂商的产品发布会文案、汽车媒体介绍产品亮点、汽车测评、4S宣传促销文案、选车、汽车视频、汽车资讯等。

能力三:汽车理解与知识

主要考察大模型对汽车行业的全面认知和解释能力。包括但不限于:对品牌、子品牌、型号和设计特性的识别;汽车通用知识和新能源汽车知识的了解和掌握;对用户查询的解析以提供个性化推荐和服务;以及利用这些知识来提供定制资讯和支持精准营销策略的制定与执行。

能力四:车辆使用指南

主要考察大模型对车辆操作和维护等方面的掌握能力,需要提供详尽的车辆功能使用方法、维护指南、故障诊断以及售后资源,以确保车辆得到正确使用和最佳维护。

测评方法及打分规则

评估流程

1. 设定每个维度下的评估标准

2. 针对每一个维度下的问题,基于该维度下的多个评价标准,结合打分规则并使用超级模型作为裁判逐个打分,并获得该题目的得分(即每个维度下的平均分)

3.获得每一个维度下所有题目的分数,并计算特定模型(如GPT3.5)在该维度的得分(即平均分)

注:超级模型,是指显著超越绝大多数可用模型的强语言模型。


评价标准

针对每一个维度,都有自己的评价标准。如,汽车营销这个维度,使用了下面三个评价标准:符合场景设定的程度、满足客户的要求、内容的创造性。


打分规则

针对模型回答问题的质量的打分规则(1-5分):

1:不相关,或严重错误

2:轻微错误,质量较低

3:质量中等,视为及格

4:质量良好,符合预期

5:质量优秀,超出预期


评测结果

我们首批测评选择了国内外有代表性的12个闭源/开源的模型,整体表现情况如下:

基础能力,包括:汽车理解与知识、车辆使用指南;应用能力,包括:智能座舱与交互、汽车营销。
各模型在多层次能力上的表现如下:
榜单地址:www.SuperCLUEAI.com
注:分数差异=第二轮得分-第一轮得分

结论及分析

根据我们对大模型在汽车行业测评结果的研究,可以得出四个主要结论:
结论1:大模型在汽车场景落地有较高可行性
多个中文大模型在汽车行业上具有良好表现(75分或以上),说明当前大模型在汽车场景已经显现出应用价值。
结论2:国内大模型在中文汽车场景上具备很好潜力,与国外差距较小。
有4个中文大模型在中文的汽车场景的表现超过了GPT-3.5,表明中文大模型在汽车场景上已经具备了的良好的潜力;车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。
结论3:在智能座舱与交互能力上,国内模型还有较大进步空间。
仅有一个中文模型在智能座舱与交互这一维度上达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。
结论4:在汽车场景核心能力上,端侧模型对比云端模型依然有很大潜力。

在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。

结论5:大模型在汽车场景的多轮交互上表现差异较大。

相对于第一轮问题的得分,多数模型的第二轮问题得分都有不同程度的下降(最高下降4.4分);但也有一些模型的得分保持相对稳定 (如GPT3.5, MiniMax-Abab5.5, ChatGLM-6B),表明这些模型在多轮交互场景中具有良好的鲁棒性。

测评示例

示例1:智能座舱与交互

(第一轮对话)

第二轮对话

示例2:汽车营销

(第一轮对话)

(第二轮对话)

示例3:汽车理解及知识

(第一轮对话)

(第二轮对话)

示例4:车辆使用指南

(第一轮对话)

(第二轮对话)


SuperCLUE-Auto榜单会定期进行更新,会纳入更多可用中文大模型。欢迎更多汽车行业厂商参与测评,共同推动行业智能化发展。

联系交流

 (也可以在公众号后台回复汽车加入)

  
   点击阅读原文,查看SuperCLUE基准详情

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存