SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布
www.cluebenchmarks.com/superclue_auto.html
SuperCLUE-Auto
SuperCLUE-Auto包括4大核心基础能力的十余个任务。
具体任务如下:
这类任务主要考察模型车内人机交互能力,主要涵盖驾驶信息管理、车辆控制功能、娱乐系统及信息处理能力,提升用户体验,增加驾乘舒适度和安全性。使用场景包括但不限于:用车、出行、娱乐和信息获取。
汽车营销是一系列旨在促进汽车销售和品牌忠诚度的策略和活动,它涵盖广告、促销、品牌建设、市场研究以及客户关系管理。本次测评主要包括但不限于:汽车厂商的产品发布会文案、汽车媒体介绍产品亮点、汽车测评、4S宣传促销文案、选车、汽车视频、汽车资讯等。
能力三:汽车理解与知识
能力四:车辆使用指南
主要考察大模型对车辆操作和维护等方面的掌握能力,需要提供详尽的车辆功能使用方法、维护指南、故障诊断以及售后资源,以确保车辆得到正确使用和最佳维护。
测评方法及打分规则
评估流程
1. 设定每个维度下的评估标准
2. 针对每一个维度下的问题,基于该维度下的多个评价标准,结合打分规则并使用超级模型作为裁判逐个打分,并获得该题目的得分(即每个维度下的平均分)
3.获得每一个维度下所有题目的分数,并计算特定模型(如GPT3.5)在该维度的得分(即平均分)
注:超级模型,是指显著超越绝大多数可用模型的强语言模型。
评价标准
针对每一个维度,都有自己的评价标准。如,汽车营销这个维度,使用了下面三个评价标准:符合场景设定的程度、满足客户的要求、内容的创造性。
打分规则
针对模型回答问题的质量的打分规则(1-5分):
1:不相关,或严重错误
2:轻微错误,质量较低
3:质量中等,视为及格
4:质量良好,符合预期
5:质量优秀,超出预期
评测结果
我们首批测评选择了国内外有代表性的12个闭源/开源的模型,整体表现情况如下:
结论及分析
在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。
相对于第一轮问题的得分,多数模型的第二轮问题得分都有不同程度的下降(最高下降4.4分);但也有一些模型的得分保持相对稳定 (如GPT3.5, MiniMax-Abab5.5, ChatGLM-6B),表明这些模型在多轮交互场景中具有良好的鲁棒性。
测评示例
示例1:智能座舱与交互
(第二轮对话)
示例2:汽车营销
(第二轮对话)
示例3:汽车理解及知识
示例4:车辆使用指南
(第二轮对话)
SuperCLUE-Auto榜单会定期进行更新,会纳入更多可用中文大模型。欢迎更多汽车行业厂商参与测评,共同推动行业智能化发展。
(也可以在公众号后台回复汽车加入)