「AI搜索」测评基准首期榜单发布!4o领先幅度小,国内大模型表现亮眼,共5大基础11大场景14大模型
AI搜索测评摘要
测评要点2:国内大模型的整体表现颇为亮眼,超越了一些国际同行从测评结果来看,秘塔AI搜索(研究模式)、智谱清言AI搜索与海螺AI等国内大模型在综合表现上较为亮眼,与海外大模型 Gemini-1.5-Pro-Search 不相上下。除此之外,综合成绩处于中游的几个国内大模型如360AI搜索(深入回答)、文小言、通义千问(深度搜索)等大模型的表现不相上下,展现出较小的差异。
测评要点3:在不同的场景应用中,模型展现出了不同程度的表现。在AI搜索的测评中,我们还关注了各个大模型在不同场景应用下的表现。国内大模型在科技、文化、商业和娱乐等场景下表现得相对出色,在把握住信息时效性的同时,展现出卓越的信息检索与整合的能力。但在股票、体育等场景应用中,国内大模型还有提升的空间。
# 榜单概览
榜单地址:www.superclueai.com
#SuperCLUE-AISearch介绍
SuperCLUE-AISearch是中文AI搜索模型综合性测评集准,旨在为中文领域提供一个AI搜索模型能力评估参考。
基础能力包括AI搜索任务中需要具备的五项能力:跨领域关联能力、信息检索能力、语义理解能力、最新信息获取能力和推理能力。
场景应用包括AI搜索任务中常见的11种场景:天气、股票、出行、新闻、购物、体育、娱乐、教育、旅行、商业、文化、科技、医疗和生活。
1)测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。2)评分方法
评估流程开始于模型与数据集的交互,模型需要基于提供的问题进行理解和回答。
评估标准涵盖了思维过程、解题过程、反思与调整等维度。
打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。
3)评分标准
针对各个大模型在测评任务上的回答质量评估,我们采用了两份评估标准分别对测评集中的主观题与客观题进行评估。这些标准在评估中被赋予不同的权重,以全面反映大模型在AI搜索任务上的表现。
提示词Prompt:神州十九号载人飞船是在何时何地发射的,此次的航天员都有谁?
参考答案:10月30日凌晨,神舟十九号载人飞船在酒泉卫星发射中发射取得圆满成功。执行神舟十九号载人飞行任务的航天员乘组由蔡旭哲、宋令东、王浩泽3名航天员组成。
模型回答:
超级模型(chatgpt-4o-latest)裁判:
对这个答案进行评估如下:
AI助手的回答准确地提供了神舟十九号载人飞船的发射时间、地点以及航天员名单。然而,回答中未提及此次任务的主要目标和任务内容,未能全面满足用户对任务细节的了解需求。此外,航天员的个人简介部分虽然详细,但可能超出了用户的关注范围。因此,建议在回答中增加对任务目标和主要任务的简要说明,以更全面地满足用户的需求。1.信息实用性(5分):
AI助手提供了神舟十九号的发射时间、地点和航天员名单,满足了用户对这些基本信息的需求。然而,未提及任务的主要目标和任务内容,未能全面满足用户对任务细节的了解需求。因此,信息实用性得分为4分。
得分:4/52.分析准确性(5分):
AI助手准确地从用户的问题中提取了发射时间、地点和航天员名单等关键信息,并提供了详细的个人简介。但未涉及任务目标和主要任务内容,未能全面满足用户的需求。因此,分析准确性得分为4分。
得分:4/53.表达清晰度(5分):
AI助手的回答结构清晰,信息组织合理,易于理解。个人简介部分详细,便于用户了解航天员的背景。因此,表达清晰度得分为5分。
得分:5/5综合得分 = 4*0.6 + 4*0.2 +5*0.2 = 4.2综合以上,AI助手的回答的综合得分为 4.2 分。(满分5分)
# 参评模型
基础能力榜单
场景应用榜单
主观题榜单
# 模型对比示例
模型回答比较(满分5分):
因为本次自动化评价有较高可靠性。
# 测评分析及结论
1.AI搜索综合能力,chatgpt-4o-latest 保持领先。
由测评结果可知,chatgpt-4o-latest(73.41分)综合能力表现出色,领跑SuperCLUE-AISearch基准。较国内最好模型Kimi探索版仅高0.71分。
从测评结果来看,秘塔AI搜索(研究模式)、智谱清言AI搜索和海螺AI 等国内模型在基础能力上表现较为不错,有赶超海外大模型 Gemini-1.5-Pro-Search 的势头。总体而言,综合成绩处于中游的几个国内大模型如海螺AI 、文小言 、通义千问(深度搜索),模型间的表现不相上下,展现出较小的差异。
例如在AI搜索的过程中,模型需要准确拆解出用户的搜索需求、搜索正确的相关网页与准确的时效性信息,最后将信息进行整合,形成一份对于用户来说有实用性的回答结果。从当前的观察来看,国内的大模型有时无法准确地分析出搜索需求,在整合信息的过程中有时参考了不相关的网页内容,导致国内大模型在某些场景应用中表现不佳。
# 测评邀请
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:AI搜索测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、AI搜索模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark