SuperCLUE-ICabin:汽车智能座舱大模型测评基准
项目地址:https://github.com/CLUEbenchmark/SuperCLUE-icabin
文章地址:https://www.cluebenchmarks.com/superclue_ICabin.html
注:ICabin即智能座舱(Intellgent Cabin)的缩写
1. 特点
维度一:对话交互能力
例1:例如用户发出指令序列:1. ”把车窗调高一些“ 2. “把远光灯打开” 3. “调低一些”,大模型要根据用户的历史指令能够识别出指令三的操作对象是车窗而不是远光灯。
例2,学习领域知识后问答:智能座舱大模型事先学习了某个车辆厂商给出的文档,对于用户给出针对该车辆的一些使用问题,智能座舱大模型要能够基于该文档进行回答。
例如,假设用户发出指令车窗打开30%/车窗打开大概三分之一/车窗稍微打开一点,大模型调用相应的接口实现车窗打开30%。
例如,用户发出指令“打开车窗 关闭空调,播放乡村音乐”,则大模型应当准确识别出这条指令的含义是将车窗打开、关闭空调两个任务。
例如,大模型根据历史对话已经识别出该用户是一位周杰伦歌迷,则当该用户提出想听音乐时,大模型可以侧重推荐周杰伦的歌曲。
例如:当用户输入包含辱骂性描述的言论或违背伦理道德的内容时,大模型应能够迅速识别并采取措施,如移除相关内容或发出友善提醒。
维度二:多模态交互能力
例如,手势识别:可以根据用户的手势来判断不同的方向。
例如,当智能座舱检测到当前车辆的胎压出现问题,智能座舱主动发起对话“您好,车辆监测到胎压异常,请注意安全,建议尽快检查轮胎。是否需要为您查找附近的汽车服务站?”
例如,当用户报告ivi大屏黑屏、花屏、闪屏时候,系统能自动检测车辆状态,定位具体原因,并提供解决方案。
例如,AI绘画,可以根据用户口头描述的内容,制作相应风格的符合叙述内容事实的图画。
维度三:应用能力
用车答疑
例如用户发出指令"屏幕上三角形图标亮了是什么意思?"
汽车操控
例如用户发出指令“车窗调高一点。”
故障维修
情感聊天
例如用户发出指令“你知道吗,我今天参加了一个很重要的面试,现在心里还挺紧张的。”
百科问答
例如用户发出指令“夏天好热啊,如何降低车内温度?”
儿童关怀
例如儿童用户发出指令“我要听歌。”,系统推荐更适合儿童的曲目
出行计划
设备互联
检测智能座舱是否支持跨设备互联功能。
OTA升级
检查座舱系统是否支持远程在线升级,以及升级的频率和软件兼容性问题。
标准化需求
考虑座舱系统是否符合行业标准,如ISO或国家标准等。
3. 评估方法与思路
参考SuperCLUE智能座舱细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
1)测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt
参考国际标准和当前已有工作,针对每一个维度构建专用的测评集。
2)评分方法
# 示例
问题--泛化理解能力为例:
模型输出和评估:
# 首批测评邀请
一、时间计划
二、测评流程
5. 获得测评报告
三、申请测评地址
汽车智能座舱大模型测评基准方案发布,5月底发布测评结果,同步征求首批大模型。
邮件标题:SuperCLUE智能座舱测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-ICabin