GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Original SuperCLUE CLUE中文语言理解测评基准

2024-09-06

本测评结果仅用于学术研究。

7月18日，OpenAI发布了GPT-4o mini，称其为最具成本效益的小型模型，比前沿模型便宜一个数量级，且比GPT-3.5 Turbo便宜60%以上。GPT-4o mini具备卓越的文本智能和多模态推理能力，支持文本和视觉输入，以低成本和低延迟执行广泛任务。官方表示，其在文本智能和多模态推理方面的学术基准超越了GPT-3.5 Turbo和其他小型模型，并支持与GPT-4o相同的语言范围。

针对公众关注的GPT-4o mini的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对GPT-4o mini在数学和编程方面的能力进行了全面评估。

先说结论

结论1：在完成SuperCLUE中文推理任务时，GPT-4o mini的整体得分为76.77分，大幅超过GPT-3.5 Turbo（高20分），略超GPT-4（高0.7分），和GPT-4 Turbo相比有一定提升空间（低3.37分）。

结论2：GPT-4o mini在小学数学多步基准（SC-Math6）上得分89.67分，较GPT-4 提升1.27分，判定为推理等级5，得分更加接近GPT-4o。

结论3：GPT-4o在代码生成单元测试基准（SC-Code3）上得分63.87分，较GPT-4提升0.13分，和GPT-4 Turbo相比有较大的提升空间（低5.7分）。

测评结果

SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息，可加入SuperCLUE-GPT-4o mini交流群。

Math6数据集申请方式：

请使用单位邮箱，将数据研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱，并承诺不向第三方提供。

邮箱: contact@superclue.ai，标题是：SuperCLUE-Math6测试集申请

Code3测评申请方式：

请使用单位邮箱发送邮件至contact@superclue.ai，标题：SuperCLUE-Code3测评

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址：www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址：www.cluebenchmarks.com/superclue_code3.html

点击阅读原文，查看SuperCLUE排行榜

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

您可能也对以下帖子感兴趣