通义千问2.5性能全面赶超GPT-4 Turbo？

Original SuperCLUE CLUE中文语言理解测评基准 2024-06-17

本测评结果仅用于学术研究。

5月9日，阿里云正式发布通义千问2.5。阿里云官方表示，该模型性能全面赶超GPT-4 Turbo。

针对公众关注的通义千问2.5的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对通义千问2.5在数学和编程方面的能力进行了全面评估。

先说结论

结论1：在SuperCLUE推理相关任务上，通义千问2.5取得总分74.93分，与GPT-4 Turbo仍有一定差距，相差5.21分。

结论2：通义千问2.5在SC-Math6数学基准上得分86.53分，与GPT-4-Turbo有4.18分差距，判定为推理等级5；在SC-Code3代码基准上得分63.32分，与GPT-4-Turbo有6.25分差距。

结论3：通义千问2.5在国内大模型中很有竞争力，稳居国内大模型第一梯队。其中在Math6数学推理能力上取得国内最好成绩。

测评结果

SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息，可加入SuperCLUE-通义千问2.5交流群。

Math6数据集申请方式：

请使用单位邮箱，将数据研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱，并承诺不向第三方提供。

邮箱: contact@superclue.ai，标题是：SuperCLUE-Math6测试集申请

Code3测评申请方式：

请使用单位邮箱发送邮件至contact@superclue.ai，标题：SuperCLUE-Code3测评

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址：www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址：www.cluebenchmarks.com/superclue_code3.html

点击阅读原文，查看SuperCLUE排行榜

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个