汽车智能座舱大模型榜单8月首发,引入function-call,国内大模型表现优异
8月测评摘要
测评要点2:国内大模型表现优异国内大模型qwen_max_longcontext在本次测评中表现优异,取得了78.54分,与GPT-4o的差距不大,特别是在应用能力上两者仅相差2.43分。其余国内大模型的得分集中在74分以上,且彼此之间的差距很小,体现了国内大模型在座舱领域的强大竞争力。
测评要点3:国内大模型普遍基础能力弱于应用能力参评的国内大模型普遍存在基础能力弱于应用能力的现象,其中最高分差者可达8.98分。这一现象表明,国产大模型需要着重关注座舱基础领域,并在未来进行进一步的优化提升。
榜单地址:www.superclueai.com
1. 特点
2. 任务方向与评价体系
基础能力
e.个性化推荐能力:分析和处理用户的偏好、行为数据和兴趣标签等因素,以生成符合用户口味和需求的内容、产品或服务推荐。
应用能力
f.车身服务能力:解决用户车辆相关问题、提供操控指导和故障维修方面的综合能力。
2.2 评价标准
回答正确:模型提供的答案符合问题的要求,并且是准确的、相关的和有帮助的。
用户意图理解:针对用户的口语化表达、使用词义多样性等可能产生歧义的对话场景,试图对用户的意图进行推测并给出恰当的回应。
逻辑与清晰度:答案表达清晰,逻辑性强,易于用户理解。
技术可行性:回答提出的操作是依据所提供文档中的函数调用信息制定,确保技术上的可行性。
个性化匹配度:在遵循用户意图,满足用户目的和基本需求的基础上,能够结合用户个人偏好与身份特点,给出个性化的回答。
内容的丰富性:在遵循用户意图,满足用户目的和基本需求的基础上,针对用户提出的话题,答案能够尽可能的做到内容丰富、多样。
2.3 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
2)评价获取
3)计算模型得分
4)测评过程示例(以GPT 4o为例)
a.问题
b.答案
3. 发送短信给张三,内容为“我大约一小时后到”。
1. set_destination:
{
"name": "set_destination",
"parameters": {
"destination": "上海虹桥机场"
}
}
2. play_music_type:
{
"name": "play_music_type",
"parameters": {
"music": "舒缓音乐"
}
}
3. send_message:
{
"name": "send_message",
"parameters": {
"phone_number": "+08612345678",
"message": "我大约一小时后到"
}
}
1. set_destination:
{
"name": "set_destination",
"parameters": {
"destination": "上海虹桥机场"
}
}
2. play_music_type:
{
"name": "play_music_type",
"parameters": {
"music": "relaxing"
}
}
3. send_message:假设张三的电话号码为 '+08612345678'
{
"name": "send_message",
"parameters": {
"phone_number": "+08612345678",
"message": "我大约一小时后到"
}
}
问题及改进的反馈意见:
打分与评价开始:
# 测评结果
模型象限
为体现大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。
其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
总成绩榜单
任务大类得分
基础能力榜单
应用能力榜单
# 测评分析
4)应用能力-车身服务能力分析
# 示例
问题:场景信息:驾驶座椅靠后,用户坐在驾驶位。请基于提供的函数调用文档与场景信息,回答指令:把驾驶座椅稍微往前调一点。
模型回答比较:
{
"name": "control_seat",
"parameters": {
"seat_position": "front_left",
"adjustment": "forward",
"level": "low"
}
}
ERNIE-3.5-128K(5分):
{
"name": "control_seat",
"parameters": {
"seat_position": "front_left",
"adjustment": "forward",
"level": "low"
}
}
Llama-3-8B-Instruct(2.67分):根据提供的函数调用文档和场景信息,用户坐在驾驶位,驾驶座椅靠后。要把驾驶座椅稍微往前调一点,可以使用control_seat函数。
{
"name": "control_seat",
"parameters": {
"seat_position": {
"adjustment": "forward",
"level": "low"
}
}
}
示例2:复杂意图推理能力
{
"name": "control_sunroof",
"parameters": {
"action": "open",
"level": "low"
}
}
Yi-1.5-34B-Chat-16K(3.33分):要发出“车顶能打开一点吗?”的指令,我们需要在提供的API文档中找到与车顶控制相关的函数。从文档中我们可以看到,与车顶控制相关的函数是 control_sunroof。这个函数允许控制天窗的打开和关闭,同时也支持调节天窗的倾斜和滑动。
因此,基于上面的解析,一个可能的指令是:
{
"name": "control_sunroof",
"parameters": {
"action": "open",
"way": "tilt"
}
}
{
"name": "control_sunroof",
"parameters": {
"action": "tilt",
"level": "medium"
}
}
GPT-4o(4分):根据提供的车辆当前状态信息和任务需求,可以按顺序调用以下函数完成任务:
5. 后视镜向上调整
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
}
调用2: 将后排左座椅向前调整
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
}
{
"name": "control_temperature",
"parameters": {
"temperature": 21
}
}
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
}
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "left",
"adjustment": "up"
}
}
通过以上调用可以完成所有任务。
[
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
},
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
},
{
"name": "control_ac",
"parameters": {
"temperature": 21
}
},
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
},
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "left",
"adjustment": "up"
}
}
]
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
}
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
}
3. 空调温度调至21度:
{
"name": "control_climate_control",
"parameters": {
"temperature": 21
}
}
4. 前车灯调至最亮:
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
}
5. 后视镜向上调整:
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "rear",
"adjustment": "up"
}
}
[
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
},
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
},
{
"name": "control_climate_control",
"parameters": {
"temperature": 21
}
},
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
},
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "rear",
"adjustment": "up"
}
}
]
问题:请基于提供的函数调用文档,回答小孩的问题:小聪明车,帮我把座椅调低一点,再放首儿歌。
模型回答比较:
1. 将座椅调低一点。
根据您的需求,以下是对应的函数调用:
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "down"
}
}
{
"name": "play_music_type",
"parameters": {
"music": "children"
}
}
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "down",
"level": "low"
}
}
{
"name": "play_music",
"parameters": {
"track": "儿歌"
}
}
Doubao-lite-32k(2.33分):
{
"name":"control_seat",
"parameters":{
"seat_position":"rear_left",
"adjustment":"down",
"level":"medium",
"seat_heating":"medium",
"seat_massage":"open"
}
}
问题:请基于提供的函数调用文档与场景信息,完成用户要求。场景信息:用户A坐在驾驶座,用户C坐在副驾驶座。用户A觉得空调温度太高。此时,用户A:“请将空调温度调低一些。”
{
"name": "control_temperature",
"parameters": {
"temperature": 22
}
}
qwen_max_longcontext(3.33分):
{
"name": "control_temperature",
"parameters": {
"temperature": 20
}
}
Llama-3-8B-Instruct(2分):根据提供的函数调用文档和场景信息,我将完成用户的要求。
{
"name": "control_climate_control",
"parameters": {
"temperature": 22_
}
}
# 测评申请
一、测评流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
二、申请测评地址
本次测评为首批大模型测评,后续会持续更新专用智能座舱大模型测评结果,欢迎智能座舱大模型研发机构申请报名。
邮件标题:SuperCLUE智能座舱测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Image