通义千问2.5性能全面赶超GPT-4 Turbo?
本测评结果仅用于学术研究。
5月9日,阿里云正式发布通义千问2.5。阿里云官方表示,该模型性能全面赶超GPT-4 Turbo。
针对公众关注的通义千问2.5的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对通义千问2.5在数学和编程方面的能力进行了全面评估。
先说结论
结论1:在SuperCLUE推理相关任务上,通义千问2.5取得总分74.93分,与GPT-4 Turbo仍有一定差距,相差5.21分。
结论2:通义千问2.5在SC-Math6数学基准上得分86.53分,与GPT-4-Turbo有4.18分差距,判定为推理等级5;在SC-Code3代码基准上得分63.32分,与GPT-4-Turbo有6.25分差距。
结论3:通义千问2.5在国内大模型中很有竞争力,稳居国内大模型第一梯队。其中在Math6数学推理能力上取得国内最好成绩。
SuperCLUE-Math6
SuperCLUE-Code3
Math6数据集申请方式:
请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。
Code3测评申请方式:
请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html
[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html