「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

中文大模型小学奥数（SC-Math6o）测评基准发布，旨在深入评估模型的小学奥数解题能力。关注模型回答的结果正确性外，还重点考察其逻辑清晰性以及思维创造性等。涵盖了小学奥数中常见的应用题、行程题、数论、计数、几何、计算以及杂项等问题。

测评方案见：奥林匹克数学竞赛-Math6o基准测评方案发布。本次我们测评了国内外31个代表性大模型的数学能力，以下为详细测评报告。

小奥数测评摘要

测评要点1：o1-preview在小学奥数任务的表现上大幅领先在本次测评中，o1-preview以优异成绩获得73.50分，领先所有参评模型（20分+）。在应用题、行程、数论、计数、几何、计算以及杂项等小学奥数题目中表现出色，展现了出色的推理解题能力，在多个维度上展现出卓越的综合性能。
测评要点2：国内大模型在小学奥数任务中综合表现相近，不同模型各有所长从测评结果来看，Doubao-pro-32k-240828、Qwen2.5-72b-instruct 和Baichuan4-Turbo等国内模型综合表现相近，分数相差不大。在此次的测评中，Doubao-pro-32k-240828更擅长处理几何类题目，Qwen2.5-72b-instruct更擅长解决计数类题目，Baichuan4-Turbo更擅长应用类题目。
测评要点3：期待国内大模型的小学奥数解题综合能力加强，有追赶海外模型的势头总体而言，相较于模型o1-preview，此次所测评国内大模型的表现尚存在一定的差距。但此次排名第一的国内模型Doubao-pro-32k-240828与海外模型Gemini-1.5-Pro-002相差2.39分，更是与chatgpt-4o-latest仅相差2.1分！国内模型综合能力有待继续加强，有望超过一些海外模型。

# 榜单概览

榜单地址：www.superclueai.com

详情请查看下方#正文。

#SuperCLUE-Math6o介绍

SuperCLUE-Math6o是中文大模型小学奥数综合性测评基准，旨在深入评估模型的数学推理能力。该测评不仅重点关注模型的结果正确性与逻辑清晰度，还考察其知识灵活性、表达清晰度等维度。测评内容涵盖了应用题、行程、数论、计数等小学奥数领域的问题，全面检验模型在数学推理任务中的表现。

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1）测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt；针对每一个维度构建专用的测评集。

2）评分方法

评估流程开始于模型与数据集的交互，模型需要基于提供的问题进行理解和回答。

评估标准涵盖了结果正确性、逻辑清晰度、思维创造等维度。

打分规则结合了自动化定量评分与专家复核，高效评分的同时，确保评估的科学性和公正性。

3）评分标准

SuperCLUE-Math6o 根据模型在不同标准上的表现情况，超级模型打分，综合各个标准的得分得到平均分。

我们制定的综合评分标准满分为 5 分，我们将从结果正确性、逻辑清晰度、思维创造性、表达清晰性和知识灵活性五个维度来综合评分。每个维度的满分都是5分，然后按照对应的权值进行加权平均得到最终的分数。其中结果正确性占45%，逻辑清晰度占40%，思维创造性占5%，表达清晰度占5%，知识灵活性占5%。

测评示例

问题：

三个施工队A、B、C各以一定的工作效率对一块工地进行施工。A施工队比C施工队早10天开始施工，C施工队比B施工队早5天开始施工，B施工队开始施工10天后，B、C两队的施工量是一样的。C施工队开始施工30天后，A、C两队的施工量是一样的。B施工队开始施工多少天后能与A施工队的施工量一样。

模型回答：

超级模型（GPT-4o）裁判：

对这个答案进行评估如下：

1.结果正确性（5分，权重45%）：

AI助手的回答是正确的，解答正确且合理，包含了所有必要步骤，结果得出"B施工队工作15天后与A施工队的工作量相同"。基于标准1的得分为 5 分。

得分：5/5

2.逻辑清晰度（5分，权重40%）：

AI助手的解答过程逻辑严密，解答步骤完整清晰，从开始定义变量，到建立方程，再到最终求解，层层推进，逻辑通顺。基于标准2的得分为 5 分。

得分：5/5

3.思维创造性（5分，权重5%）：

AI助手的计算步骤规范且使用了一些标准的方法，但这些方法只是常规的解题步骤，并无特别创新。基于标准3的得分为 3 分。

得分：3/5

4.表达清晰度（5分，权重5%）：

AI助手的表达大体上是清晰的，但在一些步骤和变量的表述上可以更加明确一些，特别是在定义时间和条件的地方可以有更精确的描述。基于标准4的得分为 4 分。

得分：4/5

5.知识灵活性（5分，权重5%）：

AI助手在解答过程中灵活地运用了工作量和时间的关系建立方程，并顺利求解，体现出了一定的知识灵活性。基于标准5的得分为 4 分。

得分：4/5 综合得分 = (5 * 45%) + (5 * 40%) + (3 * 5%) + (4 * 5%) + (4 * 5%) = 4.8

综合以上，AI助手的回答的综合得分为 4.8 分。（满分5分）

# 参评模型

为综合衡量当前国内外大模型在小学奥能力的发展水平，本次测评选取了13个海外模型和18个国内代表性模型。其中为进一步评估开源和闭源的不同进展，本次参评模型包括16个开源模型、15个闭源模型。

# 测评结果

总榜单

开源榜单

七大任得分

# 模型对比示例

#示例1 应用题

提示词Prompt：

模型回答比较（满分5分）：

o1-preview-2024-09-12（得分：4.85分）：

Doubao-pro-32k-240828（得分：4.35分）：

Llama3.1-8B-Instruct（得分：1.15分）：

#示例2 行程

提示词Prompt：

模型回答比较（满分5分）：

Claude-3.5-Sonnet(1022)（得分：4.4分）：

step-2-16k（得分：4.4分）：

phi-3-mini-4k（得分：1.1分）：

#示例3 数论

提示词Prompt：

模型回答比较（满分5分）：

Gemini-1.5-Pro-002（得分：4.85分）：

Baichuan4-Turbo（得分：3.9分）：

gemma-2-2b-it（得分：1.1分）：

#示例4 计数

提示词Prompt：

模型回答比较（满分5分）：

GLM-4-Plus（得分：4.35分）：

DeepSeek V2.5（得分：1.65）：

Yi-1.5-6b-chat（得分：1.15分）：

#示例5 几何

提示词Prompt：

模型回答比较（满分5分）：

Qwen2.5-72b-instruct（得分：4.4分）：

o1-mini-2024-09-12（得分：4.4分）：

Qwen2.5-0.5b-instruct（得分：0.6分）：

#示例6 计算

提示词Prompt：

模型回答比较（满分5分）：

Qwen-max-0919（得分：4.35分）：

gpt-4-turbo-2024-04-09（得分：1.6分）：

mistral-7b-v0.3（得分：0.55分）：

#示例7 奥数杂项

提示词Prompt：

模型回答比较（满分5分）：

chatgpt-4o-latest（得分：4.35分）：

Spark-4-Ultra（得分：4.35分）：

RWKV-6-World-7b（得分：0.55分）：

# 人类一致性评估

为确保大模型自动化测评的科学性，我们对 o1-preview在小学奥数评价任务中的人类一致性进行了评估。

具体操作方法为：选取5个模型，每个模型一个人进行独立打分，分别针对结果正确性、逻辑清晰度、思维创造性、表达清晰性和知识灵活性五个维度进行评分，然后按照评分标准加权求平均。我们计算每道题目人类评分与模型评分的差值，求和取平均后得到每道题的平均差距作为人类一致性评估的评估结果。

最终得到的平均结果如下：

平均差异结果为（百分制）：4.43 分

因为本次自动化评价有较高可靠性。

# 测评分析及结论

1.小学奥数综合能力，o1-preview 保持领先。

由测评结果可知，o1-preview（73.50分）综合能力表现出色，领跑 SuperCLUE-Math6o 基准。较 Gemini-1.5-Pro-002 高 18.93 分，较国内最好模型 Doubao-pro-32k-240828 高 21.32 分。

2.除 o1-preview 以外，国内大模型在小学奥数的综合表现与国外大模型难分上下。

通过细致地分析测评数据，我们发现 Doubao-pro-32k-240828、Qwen2.5-72b-instruct 以及Baichuan4-Turbo的综合得分在国内大模型中名列前茅，表现卓越。特别值得一提的是，国内综合表现最为突出的 Doubao-pro-32k-240828 与国外排名第二的 Gemini-1.5-Pro-002 之间的得分差距仅为2.4分，这一微小差距显示出国内大模型在国际舞台上的竞争力。

此外，阿里云旗下的 Qwen2.5-72b-instruct 和 Qwen-max-0919 紧随其后，它们的表现可圈可点。尽管国内大模型在小学奥数测评中的整体表现令人鼓舞，但放眼整个榜单，除了 o1-preview 以外，无论是国外还是国内的大模型，其综合得分均未突破 60 分大关，与排名第一的国外大模型 o1-preview-2024-09-12 相比，差距依然显著。这表明所有大模型在小学奥数领域都还有较大的提升空间，需要进一步的优化和改进。

3.期待国内大模型的小学奥数解题综合能力加强，有追赶海外模型的势头

总体而言，相较于模型o1-preview，此次所测评国内大模型的表现尚存在一定的差距。但此次排名第一的国内模型Doubao-pro-32k-240828与海外模型Gemini-1.5-Pro-002相差2.39分，更是与chatgpt-4o-latest仅相差2.1分！国内模型综合能力有待继续加强，有望超过一些海外模型。

# 测评邀请

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题：小学奥数测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、小学奥数模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

您可能也对以下帖子感兴趣