零一万物Yi-Large模型全网首测,总分74.29,打平Claude3,刷新国内最好成绩|SuperCLUE
本测评结果仅用于学术研究。
零一万物(01.AI)在5月13日发布了Yi-Large大模型。SuperCLUE团队提前受官方邀请体验Yi-Large API,并对Yi-Large进行了通用性能评测。
测评环境
评测模型:Yi-Large(官方小范围内测API)
评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。
模型GenerationConfig配置:
temperature=0.6
top_p=0.9
max_new_tokens=2048
stream=false
本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
结论3:在本次测评中,Yi-Large在各项能力上表现均衡,尤其在计算、代码、知识百科和语言理解能力上处于国内领先位置,适用于数理运算、编程助手、知识运用及文本处理等应用场景。安全能力还有一定提升空间。
注:对比模型数据来源:SuperCLUE, 2024年4月30日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。
在SuperCLUE通用综合测评基准上,Yi-Large取得74.29分,表现不俗,刷新国内大模型最好成绩。Yi-Large综合性能与Claude3-Opus水平相当。较GPT-4-Turbo-0125低4.84分。
Yi-Large在十大基础能力上的表现
Yi-Large在十大任务上较为均衡。其中,计算(76.0)、代码(79.1)、知识百科(82.2)和语义理解(77.6)均刷新国内最好成绩;在安全能力上还有一定优化空间。
将Yi-Large与国内大模型平均得分对比,我们可以发现,Yi-Large在绝大部分能力上高于平均线,展现出较均衡的综合能力。尤其在计算(+12.32)、逻辑推理(+11.09)、代码(+27.16)、工具使用(+9)、长文本(+9.37)、知识百科(+7.50)能力上远高出平均线6分以上。
Yi-Large与国外代表模型对比
来源:SuperCLUE, 2024年4月30日;模型在每道题上的得分与GPT-4(官网)相比计算差值,得到胜(差值大于0.5分)、平(差值在-0.5~+0.5分之间)、负(差值低于-0.5)。
我们统计了所有大模型在测评中与GPT-4(官网)的对战胜率,可以发现Yi-Large的胜率为21.87%,表现优于Claude3-Opus。
小结:
较好的示例2:长文本
小结:
更多Yi-Large模型的测评信息,请加入SuperCLUE Yi-Large交流群。
扩展阅读
[1] SuperCLUE在线完整4月报告地址(可下载):
www.cluebenchmarks.com/superclue_2404
[2] CLUE官网:www.CLUEBenchmarks.com
[3] SuperCLUE排行榜网站:www.superclueai.com
[4] Github地址:https://github.com/CLUEbenchmark/SuperCLUE