查看原文
其他

易车大模型上榜SuperCLUE-Auto汽车测评榜单,并刷新国内最好成绩

SuperCLUE CLUE中文语言理解测评基准
2024-09-05

本测评结果仅用于学术研究。

2024年6月24日,汽车大模型测评基准SuperCLUE-Auto发布更新,新增了易车大模型的测评结果。
易车大模型是以易车经过二十余年深耕汽车行业积淀的庞大独有语料库为基础,结合前沿大模型技术自主研发训练的汽车垂直领域大模型。
易车大模型旨在为用户提供全面和精准的汽车领域生态服务,包括车辆介绍、选购推荐、购买指导、使用及保养等,贯穿从选车到购车再到用车的全生命周期。丰富的数据基础和扎实的技术让易车大模型成为用户在汽车领域可靠、专业的智能助手,为用户提供高效和专业的服务体验。
那么,易车在SuperCLUE汽车测评基准的表现如何?与国内外代表性大模型相比处于什么位置?在各项基础能力上如智能座舱与交互、汽车营销、车辆使用和汽车通用知识上会有怎样的表现?
我们基SuperCLUE-Auto汽车综合性测评基准,对易车大模型进行了全方位测评。

测评环境

考标准:SuperCLUE-Auto汽车大模型测评基准

评测模型:易车大模型(官方小范围内测API)


评测集:SuperCLUE汽车评测集,4大核心基础能力的十余个任务。


模型GenerationConfig配置:

  • temperature=0.1

  • top_p=0.8

  • max_new_tokens=1024

  • stream=true


测评方法:

本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE-Auto汽车综合性测评基准本次测评经过人工抽样校验。

先说结论
结论1:在SuperCLUE汽车测评基准上,易车大模型表现不俗,以总分82.23分的优异成绩刷新国内最好成绩。
结论2在本次测评中,相比国外代表性模型很有竞争力。总体来看,易车大模型在中文汽车应用领域总体表现好于GPT4,但与GPT4 Turbo相差1.72分,还有一定提升空间。

结论3:在本次测评中,易车大模型在各项能力上表现较为均衡,尤其在汽车营销、车辆使用指南、汽车理解与知识任务上表现出色,智能座舱与交互任务还有一定提升空间。

对比模型数据来源:SuperCLUE

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析
1  定量分析
在SuperCLUE-Auto测评中,易车大模型总体表现如下:
总体表现

注:数据来源:SuperCLUE,易车大模型数据为2024年6月12日测评结果,其他对比模型为2023年12月25日发布的测评结果。

在SuperCLUE-Auto汽车测评基准上,易车大模型取得82.23分,表现不俗,刷新国内大模型最好成绩,与GPT4-Turbo相差1.72分。


智能座舱与交互

来源:SuperCLUE
易车大模型在智能座舱与交互任务上得分74.0分。较ChatGLM-Turbo高1.4分,较文心一言3.5低3.8分。

汽车营销

来源:SuperCLUE

易车大模型在汽车营销任务上得分80.6分,表现十分出色,与GPT-4-Turbo几乎持平。


车辆使用指南

来源:SuperCLUE

易车大模型在车辆使用指南任务上得分91.3分,在本次测评的国内模型中较为领先,较GPT-4-Turbo低0.5分。

汽车理解与通用知识

来源:SuperCLUE

易车大模型在汽车理解与通用知识任务上得分82.9分,表现出色,较GPT-4-Turbo高2.5分。

小结


从评测结果我们发现,易车大模型在中文汽车行业能力上表现不俗,在总分上刷新了国内最好成绩,其中在汽车营销、车辆使用指南和汽车理解与通用知识任务上表现出色,在智能座舱与交互能力上还有一定优化空间。
2  定性分析
通过一些典型示例,对比定性分析易车大模型的特点。
(建议:在电脑端查看获得更好体验)
较好的示例1:智能座舱与交互


较好的示例2:汽车营销


较好的示例3:车辆使用指南


较好的示例4:汽车理解与通用知识

有优化空间的示例:智能座舱与交互



小结


从示例分析中我们发现,易车大模型在汽车营销、车辆使用指南、汽车理解与知识任务上表现出色,智能座舱与交互任务还有一定提升空间。

更多易车大模型的测评信息,请加入SuperCLUE汽车大模型交流群。

扩展阅读


[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存