其他
o1等国外头部大模型,在高难度任务上具备较大领先性 | SuperCLUE
www.cluebenchmarks.com/superclue_2410
SuperCLUE排行榜地址:
#国外大模型总体表现
分析1:OpenAI和Anthropic的系列模型在中文环境下是全球最好的两个系列模型。
10月SuperCLUE基准测评涵盖了16个代表性国外大模型。国内大模型金牌平均线为10月测评中取得金牌的4个国内大模型的平均值。
可以发现,在指令遵循、高阶推理、计算、逻辑推理、代码能力上,海外模型有较大领先性。在文科属性较强的任务上,国内外模型表现相当。
在中文理科任务上,o1-preview小幅领先。ChatGPT-4o-latest、Claude 3.5 Sonnet(1022)和国内大模型金牌平均线表现紧随其后。目前全球头部大模型在基础理科能力上,如计算、代码等能力上区分不明显。
分析4:文科任务上,国内外头部大模型总体无明显差异。
报告完整详细内容,可点击文章底部【阅读原文】查看高清完整PDF版。
在线完整报告地址(可下载):
更多10月SuperCLUE基准报告详情,可加入交流群。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] 报告地址:www.cluebenchmarks.com/superclue_2410