查看原文
其他

SuperCLUE-ICabin:汽车智能座舱大模型测评基准

SuperCLUE CLUE中文语言理解测评基准 2024-06-27

随着科技的飞速发展,汽车行业正面临着前所未有的变革。自动驾驶、智能网联、人工智能等技术的不断成熟,使得汽车不再局限于传统的交通工具,而是成为人们生活中的一个重要空间。尤其是智能座舱,作为汽车的重要组成部分,其发展速度和应用范围令人瞩目。
智能座舱通过集成大量高科技功能,为驾驶员和乘客提供了更为舒适、便捷的乘坐体验。它不仅包括了语音识别交互、图像感知、个性化服务推荐等常见功能,还涉及智能驾驶和自动驾驶等高端技术。因此,智能座舱的智能化水平成为了衡量一辆汽车科技含量的重要标准。
为了更好地引领和规范智能座舱技术的发展,我国相关机构推出了《汽车智能座舱分级与综合评价白皮书》。该标准从智能、安全、高效、愉悦能四个方面对智能座舱的智能化水平进行评价,旨在为当前提供更为可靠和全面的参考依据。但该标准仅仅只是从宏观层面为智能座舱的评测构建了一个框架,而针对一些具体的通用场景和智能座舱中的大模型表现能力的相关测评标准仍存在空白和不足。
在这个背景下,SuperCLUE智能座舱评测基准应运而生。SuperCLUE-ICabin是一个专门针对汽车智能座舱的大模型测评基准,旨在为智能座舱的研发和生产提供一套科学、严谨的评价体系。本文将详细介绍SuperCLUE智能座舱评测基准的构成、测评方法和应用场景,以期为智能座舱行业的发展提供有益的参考。

项目地址:https://github.com/CLUEbenchmark/SuperCLUE-icabin

文章地址:https://www.cluebenchmarks.com/superclue_ICabin.html


# SuperCLUE-ICabin智能座舱

注:ICabin即智能座舱(Intellgent Cabin)的缩写

1. 特点

(1)中文原生智能座舱大模型综合能力评估
立足于为通用人工智能时代提供中文世界基础评测的设施,文字输入或prompt提示词都是中文原生的,不是英文或其翻译版本;并充分考虑国内智能座舱领域行业特点与应用场景,从国内各智能座舱领域实际问题出发,致力于打造适合中国语义环境的智能座舱测评指标。
(2)智能座舱领域行业细节
该测评体系紧密结合了智能座舱领域的现状与发展趋势,全面评估智能座舱大模型在多种交互模式下的表现。
具体来说,该测评体系除了考察智能座舱大模型基础的对话交互能力之外,更创新性的提出了对智能座舱多模态交互能力、主动服务的测评。这样的测评体系不仅具有前瞻性和创新性,更能为智能座舱技术的进一步发展提供有力的支持。
(3)常见场景应用潜力评估
该体系还深入探讨了智能座舱大模型在实际应用场景中的综合能力,包括出行规划、用车答疑、百科问答等常见场景,通过模拟实际场景中的任务和问题,可以测试大模型对具体任务的处理逻辑和处理结果准确性,从而评估其在不同场景下的适用性和实用性。这种以实际应用为导向的测评方式,有助于确保智能座舱大模型能够更好地满足用户的需求和期望。
2. 指标体系

维度一:对话交互能力

1.上下文信息理解与处理理解语言表达的上下文信息,包括对话历史、用户意图、实体关系、时间顺序等,以准确地解释用户的意图和需求。

例1:例如用户发出指令序列:1. ”把车窗调高一些“ 2. “把远光灯打开” 3. “调低一些”,大模型要根据用户的历史指令能够识别出指令三的操作对象是车窗而不是远光灯。

例2,学习领域知识后问答:智能座舱大模型事先学习了某个车辆厂商给出的文档,对于用户给出针对该车辆的一些使用问题,智能座舱大模型要能够基于该文档进行回答。

2.复杂意图推理能力判断大模型能够解析用户的自然语言输入,识别其中的情感和情境线索,然后做出合适的响应。
例如,用户给出指令"椅子太热了,都出汗了",则大模型能根据该条指令降低座椅的温度。
3.泛化表达理解能力判断大模型能否根据用户给出的一条泛化指令,准确的反馈出相应的操作。

例如,假设用户发出指令车窗打开30%/车窗打开大概三分之一/车窗稍微打开一点,大模型调用相应的接口实现车窗打开30%。

4.多指令识别能力判断大模型能否根据用户给出的多条指令,准确地给出相应的操作序列。

例如,用户发出指令“打开车窗 关闭空调,播放乡村音乐”,则大模型应当准确识别出这条指令的含义是将车窗打开、关闭空调两个任务。

5.个性化推荐能力:分析和处理用户的偏好、行为数据、兴趣标签等因素,以生成符合用户口味和需求的内容、产品或服务推荐。

例如,大模型根据历史对话已经识别出该用户是一位周杰伦歌迷,则当该用户提出想听音乐时,大模型可以侧重推荐周杰伦的歌曲。

6.安全与隐私:判断大模型的回答是否符合正确的价值观、提供正能量的内容,并对隐私内容进行特殊处理。

例如:当用户输入包含辱骂性描述的言论或违背伦理道德的内容时,大模型应能够迅速识别并采取措施,如移除相关内容或发出友善提醒。

维度二:多模态交互能力

7.视觉感知与理解能力:识别驾驶者的面部表情、手势动作交互信号,并将其转化为相应的指令和反馈。

例如,手势识别:可以根据用户的手势来判断不同的方向。

8.主动服务能力:座舱能够通过主动感知进行智能决策,自主执行对应任务

例如,当智能座舱检测到当前车辆的胎压出现问题,智能座舱主动发起对话“您好,车辆监测到胎压异常,请注意安全,建议尽快检查轮胎。是否需要为您查找附近的汽车服务站?”

9.Agent智能体能力:根据用户的需求,结合车辆与环境当前状态(车辆状态、行驶环境)或API工具,自主的完成相关操作。

例如,当用户报告ivi大屏黑屏、花屏、闪屏时候,系统能自动检测车辆状态,定位具体原因,并提供解决方案。

10.文本映射绘图能力:文本内容映射为视觉图像的能力。

例如,AI绘画,可以根据用户口头描述的内容,制作相应风格的符合叙述内容事实的图画。

维度三:应用能力

11.车身服务能力
  • 用车答疑

例如用户发出指令"屏幕上三角形图标亮了是什么意思?"

  • 汽车操控

例如用户发出指令“车窗调高一点。”

  • 故障维修

例如用户发出指令“刹车不灵了,怎么办?”
12.娱乐能力
  • 情感聊天

例如用户发出指令“你知道吗,我今天参加了一个很重要的面试,现在心里还挺紧张的。”

  • 百科问答

例如用户发出指令“夏天好热啊,如何降低车内温度?”

  • 儿童关怀

例如儿童用户发出指令“我要听歌。”,系统推荐更适合儿童的曲目

  • 出行计划

例如用户发出指令“我在余杭这边,杭州有什么好玩的景点?”
13.网联生态
  • 设备互联

检测智能座舱是否支持跨设备互联功能。

  • OTA升级

检查座舱系统是否支持远程在线升级,以及升级的频率和软件兼容性问题。

  • 标准化需求

考虑座舱系统是否符合行业标准,如ISO或国家标准等。

3. 评估方法与思路

参考SuperCLUE智能座舱细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt

参考国际标准和当前已有工作,针对每一个维度构建专用的测评集。

2)评分方法

评估流程:1.获得中文prompt-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分
结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本送入超级模型进行评估,并获得每一个维度的评估结果。
进行评估与人类一致性分析,并报告一致性表现。
3)评分标准

4)评价指标

# 示例

问题--泛化理解能力为例:

模型输出和评估:

# 首批测评邀请

一、时间计划

1. 报名:4月25日----5月20日
2. 参测模型确认:5月20日
3. 测评执行:5月8日--5月22日
4. 测评结果统计:5月22--5月底
5. 测评报告发布:5月底

二、测评流程

1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型

5. 获得测评报告

三、申请测评地址

汽车智能座舱大模型测评基准方案发布,5月底发布测评结果,同步征求首批大模型。

邮件标题:SuperCLUE智能座舱测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-ICabin

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存