其他
今年以来,大模型在各个领域得到了广泛应用。随着智能化、智能驾驶、车联网等技术的不断进步,高速发展的汽车行业对于中文大模型的需求也日益增长。然而,尽管大模型在汽车领域的应用潜力巨大,现有的大模型测评基准并未能覆盖汽车行业的需求,它们主要是针对通用能力的测评,这导致了行业内对大模型能力的评估缺乏公开的评价标准。为了解决这一问题,我们推出了专门针对汽车行业的大模型测评基准(SuperCLUE-Auto)。这是首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。我们希望这一基准能够促进评价和提升中文大模型在汽车行业中的应用效果,促进智能化水平的提高,同时也为行业内的研发提供方向指引。测评体系、代表性示例、榜单已经在这里发布:www.cluebenchmarks.com/superclue_auto.htmlhttps://github.com/CLUEbenchmark/SuperCLUE-autoSuperCLUE-AutoSuperCLUE-Auto包括4大核心基础能力的十余个任务。具体任务如下:能力一:智能座舱与交互这类任务主要考察模型车内人机交互能力,主要涵盖驾驶信息管理、车辆控制功能、娱乐系统及信息处理能力,提升用户体验,增加驾乘舒适度和安全性。使用场景包括但不限于:用车、出行、娱乐和信息获取。能力二:汽车营销汽车营销是一系列旨在促进汽车销售和品牌忠诚度的策略和活动,它涵盖广告、促销、品牌建设、市场研究以及客户关系管理。本次测评主要包括但不限于:汽车厂商的产品发布会文案、汽车媒体介绍产品亮点、汽车测评、4S宣传促销文案、选车、汽车视频、汽车资讯等。能力三:汽车理解与知识主要考察大模型对汽车行业的全面认知和解释能力。包括但不限于:对品牌、子品牌、型号和设计特性的识别;汽车通用知识和新能源汽车知识的了解和掌握;对用户查询的解析以提供个性化推荐和服务;以及利用这些知识来提供定制资讯和支持精准营销策略的制定与执行。能力四:车辆使用指南主要考察大模型对车辆操作和维护等方面的掌握能力,需要提供详尽的车辆功能使用方法、维护指南、故障诊断以及售后资源,以确保车辆得到正确使用和最佳维护。测评方法及打分规则评估流程1.