「小学奥数」基准榜单公布!7大任务,o1得73.50分,其余30个模型未及格
中文大模型小学奥数(SC-Math6o)测评基准发布,旨在深入评估模型的小学奥数解题能力。关注模型回答的结果正确性外,还重点考察其逻辑清晰性以及思维创造性等。涵盖了小学奥数中常见的应用题、行程题、数论、计数、几何、计算以及杂项等问题。
测评方案见:奥林匹克数学竞赛-Math6o基准测评方案发布。本次我们测评了国内外31个代表性大模型的数学能力,以下为详细测评报告。
小奥数测评摘要
测评要点2:国内大模型在小学奥数任务中综合表现相近,不同模型各有所长从测评结果来看,Doubao-pro-32k-240828、Qwen2.5-72b-instruct 和Baichuan4-Turbo等国内模型综合表现相近,分数相差不大。在此次的测评中,Doubao-pro-32k-240828更擅长处理几何类题目,Qwen2.5-72b-instruct更擅长解决计数类题目,Baichuan4-Turbo更擅长应用类题目。
测评要点3:期待国内大模型的小学奥数解题综合能力加强,有追赶海外模型的势头总体而言,相较于模型o1-preview,此次所测评国内大模型的表现尚存在一定的差距。但此次排名第一的国内模型Doubao-pro-32k-240828与海外模型Gemini-1.5-Pro-002相差2.39分,更是与chatgpt-4o-latest仅相差2.1分!国内模型综合能力有待继续加强,有望超过一些海外模型。
# 榜单概览
榜单地址:www.superclueai.com
#SuperCLUE-Math6o介绍
1)测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。2)评分方法
评估流程开始于模型与数据集的交互,模型需要基于提供的问题进行理解和回答。
评估标准涵盖了结果正确性、逻辑清晰度、思维创造等维度。
打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。
3)评分标准
SuperCLUE-Math6o 根据模型在不同标准上的表现情况,超级模型打分,综合各个标准的得分得到平均分。
问题:
三个施工队A、B、C各以一定的工作效率对一块工地进行施工。A施工队比C施工队早10天开始施工,C施工队比B施工队早5天开始施工,B施工队开始施工10天后,B、C两队的施工量是一样的。C施工队开始施工30天后,A、C两队的施工量是一样的。B施工队开始施工多少天后能与A施工队的施工量一样。
对这个答案进行评估如下:
1.结果正确性(5分,权重45%):AI助手的回答是正确的,解答正确且合理,包含了所有必要步骤,结果得出"B施工队工作15天后与A施工队的工作量相同"。基于标准1的得分为 5 分。
得分:5/52.逻辑清晰度(5分,权重40%):
AI助手的解答过程逻辑严密,解答步骤完整清晰,从开始定义变量,到建立方程,再到最终求解,层层推进,逻辑通顺。基于标准2的得分为 5 分。
得分:5/53.思维创造性(5分,权重5%):
AI助手的计算步骤规范且使用了一些标准的方法,但这些方法只是常规的解题步骤,并无特别创新。基于标准3的得分为 3 分。
得分:3/54.表达清晰度(5分,权重5%):
AI助手的表达大体上是清晰的,但在一些步骤和变量的表述上可以更加明确一些,特别是在定义时间和条件的地方可以有更精确的描述。基于标准4的得分为 4 分。
得分:4/55.知识灵活性(5分,权重5%):
AI助手在解答过程中灵活地运用了工作量和时间的关系建立方程,并顺利求解,体现出了一定的知识灵活性。基于标准5的得分为 4 分。
得分:4/5 综合得分 = (5 * 45%) + (5 * 40%) + (3 * 5%) + (4 * 5%) + (4 * 5%) = 4.8综合以上,AI助手的回答的综合得分为 4.8 分。(满分5分)
# 参评模型
开源榜单
# 模型对比示例
模型回答比较(满分5分):
# 测评分析及结论
由测评结果可知,o1-preview(73.50分)综合能力表现出色,领跑 SuperCLUE-Math6o 基准。较 Gemini-1.5-Pro-002 高 18.93 分,较国内最好模型 Doubao-pro-32k-240828 高 21.32 分。
# 测评邀请
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:小学奥数测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、小学奥数模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark