深度求索DeepSeek-V2中文推理任务表现强劲,总分74.46,超越Llama3|SuperCLUE
本测评结果仅用于学术研究。
近日,深度求索正式开源第二代MoE模型DeepSeek-V2,引起了中文技术社区的广泛关注。
据官方说明,DeepSeek-V2是一个参数更多、能力更强、成本更低的模型。值得注意的是,DeepSeek-V2每百万tokens输入1元、输出2元(32K上下文),价格仅为GPT-4-Turbo的近百分之一。而且官方披露DeepSeek-V2在开源模型中最强,与GPT-4-Turbo等闭源模型在评测中处于同一梯队。
针对公众关注的DeepSeek-V2的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对DeepSeek-V2在数学和编程方面的能力进行了全面评估。
先说结论
结论1:在完成SuperCLUE推理任务时,DeepSeek-v2的整体得分为74.46,表现突出。该模型与一些国际领先模型相比具有优势,比如它比Llama3-70B高出1.29分。然而,与GPT-4 Turbo相比,DeepSeek-v2仍有提升空间,低了5.68分;在国内模型中,DeepSeek-v2也显示出强劲的竞争力,仅与通义千问2.5相差了0.47分。
结论2:DeepSeek-v2在SC-Math6数学基准上得分86.39分,判定为推理等级5。成绩介于文心一言4.0(-0.79)和通义千问2.5(+0.14)之间。
结论3:DeepSeek-v2在SC-Code3代码基准上得分62.52分,与GPT-4只相差1.2分,与通义千问2.5相差在1分内。
SuperCLUE-Math6
SuperCLUE-Code3
Math6数据集申请方式:
请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。
Code3测评申请方式:
请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html
[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html