查看原文
其他

推理榜单更新:QwQ国内排名第一,与o1差距缩小

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

本测评结果仅用于学术研究。

11月28日,Qwen团队发布实验性研究模型QwQ-32B-Preview,专注于增强 AI 推理能力,目前为预览版本

11月25日,上海AI实验室开放强推理模型书生InternThinker试用体验。该模型具备长思维能力,并能在推理过程中进行自我反思和纠正,从而在多种复杂推理任务上取得更优结果。

针对公众关注的QwQ-32B-Preview、InternThinker,在中文场景下的推理和数学的性能问题,专业第三方测评机构SuperCLUE进行了深入评估。

QwQ-32B-Preview访问地址:

https://huggingface.co/Qwen/QwQ-32B-Preview

InternThinker试用链接:

https://internlm-chat.intern-ai.org.cn

DeepSeek-R1-Lite-Preview体验地址:

https://chat.deepseek.com/

k0-math体验地址:

https://kimi.moonshot.cn

测评环境

参考标准:SuperCLUE-CoT中文链式推理测评基准SuperCLUE-Math6o奥林匹克数学竞赛测评基准
评测模型:QwQ-32B-Preview、InternThinker

评测集:

1. SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。 2.SuperCLUE-Math6o奥林匹克数学竞赛(小学)评测集。覆盖小学奥数中常见7类问题:应用题、行程、数论、几何、计数、计算及奥数杂题。


测评方法:针对每一道推理题目,我们提供人工校验和核对后的参考答案和推理过程;然后根据设定的评估流程、评价标准和打分规则(1-5分),裁判模型对候选模型的答案进行评估。链式推理设定的评价标准包括:思维过程、解题过程、最终答案等。小学奥数设定的评价标准包括:结果正确性、逻辑清晰度、表达清晰度等。



先说结论
结论1:与 o1-preview相比,QwQ-32B-Preview在两大推理任务中的平均差距约为10分,缩小了国内外模型的差距。
结论2: 相比Qwen2.5-72b-instruct,QwQ-32B-Preview在两大推理任务中平均提升了18分。
结论3:与国内其他中文大模型相比,QwQ-32B-Preview当前链式推理中处于国内最好水平,在小学奥数中排行第二。
结论4:InternThinker在在两大推理任务中均表现突出,处于上游位置,得分均超过50分。

注:这两大推理任务,分别是小学奥数(math6o)的总分,以及链式推理(CoT)的总分。

测评结果
对比分析

# 加入社群
更多详细最新大模型测评详情,可加入交流群。

# 联系我们


链式推理测评申请方式:

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。

邮箱: contact@superclue.ai,标题是:SuperCLUE链式推理测评申请

小学奥数测评申请方式:

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。

邮箱: contact@superclue.ai,标题是:SuperCLUE小学奥数测评申请

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE


   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存