CLUE中文语言理解测评基准

推理榜单更新：QwQ国内排名第一，与o1差距缩小

SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案，还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。

12月3日下午 4:49

中文多模态、文生图大模型基准12月榜单征集公告

#中文多模态、文生图大模型基准12月榜单征集为了更全面综合评估中文多模态大模型的阶段性进展，SuperCLUE团队即将发布《中文多模态大模型基准12月榜单》、《中文文生图大模型基准12月榜单》。现邀请各厂商参与多模态基准12月测评。一、参与流程1.

12月2日下午 4:37

其他

如何测评中文Agent智能体？AgentCLUE基准方案发布！

路径下增加100个文件或文件夹描述、针对exp.txt文件末尾添加上上万字的随机文本，以增加上下文长度，考察模型捕捉主要信息的能力。模型调用方式在获取模型回复时，支持两种调用方式：Function

11月28日下午 4:58

其他

「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型

中文大模型「AI搜索」（SuperCLUE-AISearch）基准测评发布，皆在深入评估大模型结合搜索的能力。该测评不仅关注大模型的基础能力，还重点考察其在场景应用的表现。测评内容涵盖了5个基础能力如信息检索能力、最新信息获取能力等，以及11个场景应用如新闻、生活应用等的考核，全面检验模型在不同基础能力和场景应用任务中结合搜索的表现。测评方案见：「AI搜索」基准测评方案发布。本次我们测评了国内外14个代表性大模型的AI搜索能力，以下为详细测评报告。AI搜索测评摘要测评要点1：chatgpt-4o-latest

11月27日下午 4:19

其他

Kimi数学模型小学奥数基准测评公布！超4o，落后o1近20分

推出的首款推理能力强化模型，采用了全新的强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升了解决数学难题的能力，可以帮助用户完成更具挑战性的数学任务

11月26日下午 7:35

其他

DeepSeek「推理模型」中文基准评测出炉！小学奥数紧随o1，链式推理进步空间大

11月22日下午 12:18

其他

DeepSeek「推理模型」中文基准评测出炉！小学奥数紧随o1，链式推理进步空间大

11月21日下午 8:25

其他

TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

本测评结果仅用于学术研究。11月8日，SuperCLUE发布《中文大模型基准测评10月报告》，引起了中文技术社区的广泛关注。在报告中，SuperCLUE对于国内外代表性的43个大模型进行了全方位测评。其中，TeleChat2首次上榜SuperCLUE通用能力基准测评榜单，表现惊艳，成为唯一跻身【第一梯队】的央国企机构；TeleChat2-35B在SuperCLUE开源榜单上夺得铜牌。本文将详细说明TeleChat2的测评分析结果。模型简介星辰大模型（TeleChat）由中国电信人工智能研究院自主研发。继2023年发布千亿参数星辰大模型后，近日，中国电信人工智能研究院(TeleAl)发布首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参)星辰语义大模型--TeleChat2。星辰语义大模型上一代TeleChat系列已开源1B、7B、12B、52B参数规模大模型，最新TeleChat2系列已开源3B、7B、

11月21日下午 12:16

其他

语音合成大模型测评基准（方案）发布

随着人工智能技术在语音合成（Text-to-Speech，TTS）领域的迅速发展，新一代语言模型在语音合成任务中的表现也成为了研究重点。为更精确评估大模型的语音合成能力，我们基于中文基准测评经验，推出了全新的语音合成测评基准SuperCLUE-TTS。该基准评估关注模型的语音合成基础能力，全面衡量模型所生成的语音的准确度、清晰度、自然度与情感表现能力，并且纳入了大量应用场景的考察。这一框架旨在未来模型研发提供参考，确保其在复杂任务中具备更高的可靠性和灵活性。排行榜地址：www.SuperCLUEai.com#

11月20日下午 5:43

其他

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

测评团队｜SuperCLUE近期，SuperCLUE发布了《中文大模型基准测评2024年10月报告》，重点评估了国内外43个大模型，在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析开源模型在不同维度下的详细表现。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_2410SuperCLUE排行榜地址：www.superclueai.com#全球闭源模型TOP和开源模型对比分析1：中文场景下，头部开源模型具备较强竞争力，接近头部闭源模型10月SuperCLUE基准测评涵盖了21个代表性开源大模型。全球闭源模型Top5的平均线为10月测评中取得前5名（包括海外模型）的大模型的平均值。通过测评结果可以发现，Qwen2.5-72B-Instruct在中文环境下领跑全球开源模型。Qwen2.5-72B-Instruct取得总分68.90分，和全球闭源模型Top5平均线相差2.34分，这表明国内开源模型的顶尖水平和全球闭源模型Top5的平均水平接近。#海外开源和国内开源的对比分析2：中文场景上国内开源模型表现优于国外开源模型10月SuperCLUE基准测评涵盖了9个海外开源大模型和12个国内开源大模型。由图可知，Qwen2.5-72B-Instruct和DeepSeek-V2.5，较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名，有超过Llama-3.1-70B-Instruct的表现。MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。#开源模型在三大维度上的表现情况和特性分析3：中文高难度Hard任务上，开源大模型整体能力有待加强。在中文高难度Hard任务（高阶推理和精确指令遵循）上，Qwen2.5-72B-Instruct、Llama-3.1-405B-Instruct和DeepSeek-V2.5得分均低于50分，和顶尖模型（o1-preview）相差近20分。在Hard的二级维度中，Qwen系列模型的Qwen2.5-72B-Instruct在指令遵循上超过20分，其余最高10.42分；在高阶推理上，接近70分，其余均在20分以上。在Hard的二级维度中，Llama系列模型的Llama-3.1-405B-Instruct在指令遵循上超过30分，高于Qwen系列，其余最高10；在高阶推理上，接近60分。Llama-3.1-70B-Instruct的表现优于Llama-3.1-90B-Instruct，和Llama-3.1-405B-Instruct在高阶推理上得分接近。分析4：中文理科任务上，开源大模型实力强劲。在中文理科任务上，开源模型表现强劲。代表模型Qwen2.5-72B-Instruct获得83.12分，表现突出。紧随其后的还有DeepSeek-V2.5和Llama-3.1-405B-Instruct。其余均分在60分左右。分析5：文科任务上，开源大模型总体水平接近。在文科任务上，国内外头部开源大模型均处于70-80分之间，总体上无明显差异。报告完整详细内容，可点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_2410更多10月SuperCLUE基准报告详情，可加入交流群。扩展阅读[1]

11月18日下午 4:32

其他

文生视频大模型最新基准11月榜单发布！Top3国产大模型表现亮眼，7大维度27大任务10大模型

中大模型文生视频生成（SuperCLUE-T2V）测评基准发布，旨在深入评估模型的文生视频生成能力。该测评不仅关注模型的视频画质，还重点考察其文本理解与遵循能力。测评内容涵盖了视频画质、外观遵循能力、动态遵循能力等基础与技术性的考核，以及不同应用场景下的视频质量，全面检验模型在不同应用场景任务中的表现。测评方案见：文生视频大模型「新版」测评基准（方案）发布。本次我们测评了国内外10个代表性大模型的文生视频生成能力，以下为详细测评报告。文生视频测评摘要测评要点1：PixVerse

11月12日下午 2:17

其他

o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

测评团队｜SuperCLUE近期，SuperCLUE发布了《中文大模型基准测评2024年10月报告》，重点评估了国内外43个大模型，在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析国外模型在不同维度下的详细表现。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_2410SuperCLUE排行榜地址：www.superclueai.com#国外大模型总体表现分析1：OpenAI和Anthropic的系列模型在中文环境下是全球最好的两个系列模型。10月SuperCLUE基准测评涵盖了16个代表性国外大模型。国内大模型金牌平均线为10月测评中取得金牌的4个国内大模型的平均值。通过测评结果可以发现，OpenAI和Anthropic的模型在中文环境仍然是全球最好的大模型。其中，o1-preview取得总分75.85分，有较大领先优势。Claude

11月11日下午 3:50

其他

中文大模型基准测评2024年10月报告

SuperCLUE团队2024/11背景自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年，全球大模型竞争态势日益加剧，随着Sora、GPT-4o、o1的发布，国内大模型在2024年进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此，我们发布了《中文大模型基准测评2024年10月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_2410SuperCLUE排行榜地址：www.superclueai.com报告核心内容摘要摘要1：OpenAI发布o1后，全球大模型竞争加剧o1-preview的推出进一步拉大了与其他模型的差距。经测评，目前国内大模型正在持续接近Claude

11月8日上午 8:13

其他

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

中文大模型小学奥数（SC-Math6o）测评基准发布，旨在深入评估模型的小学奥数解题能力。关注模型回答的结果正确性外，还重点考察其逻辑清晰性以及思维创造性等。涵盖了小学奥数中常见的应用题、行程题、数论、计数、几何、计算以及杂项等问题。测评方案见：奥林匹克数学竞赛-Math6o基准测评方案发布。本次我们测评了国内外31个代表性大模型的数学能力，以下为详细测评报告。小奥数测评摘要测评要点1：o1-preview在小学奥数任务的表现上大幅领先在本次测评中，o1-preview以优异成绩获得73.50分，领先所有参评模型（20分+）。在应用题、行程、数论、计数、几何、计算以及杂项等小学奥数题目中表现出色，展现了出色的推理解题能力，在多个维度上展现出卓越的综合性能。测评要点2：国内大模型在小学奥数任务中综合表现相近，不同模型各有所长从测评结果来看，Doubao-pro-32k-240828、Qwen2.5-72b-instruct

11月4日下午 12:59

其他

ChatGPT 「AI搜索」体验与对比

Search会先进行联网搜索，获取最新数据，然后进行深入分析。相比之下，传统的非联网GPT-4o模型通常只提供宏观分析，缺乏具体数据支持。4.强大的数据收集与整合能力：ChatGPT

11月1日下午 5:24

其他

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

SuperCLUE-CoT是中文大模型链式推理能力测评基准，旨在深入评估模型的思维链推理能力。该测评不仅关注模型的解题过程和最终答案，还重点考察其构建思维链和反思能力。测评内容涵盖了物理、化学、生物等科学领域的问题，以及编解码等挑战，全面检验模型在复杂推理任务中的表现。本次我们测评了国内外33个代表性大模型的推理能力，以下为详细测评报告。链式推理测评摘要测评要点1：o1-preview

10月31日下午 5:33

其他

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

Sonnet升级版进行了深入评估。测评环境参考标准：SuperCLUE-Reasoning中文高阶推理测评基准、SuperCLUE-Code3中文代码测评基准。评测模型：Claude

10月23日下午 7:37

其他

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

‌文生图大模型目前正处于快速发展阶段，并已在多个领域进行了广泛应用，例如DALL-E、Midjourney等。这一革命性技术使得从文本生成视觉内容的过程变得更加便捷与高效，推动了艺术创作、内容制作以及教育等多个领域的创新。SuperCLUE团队已于2024年6月12日发布首期中文文生图测评基准首期榜单，受到了中文技术社区的广泛关注和反馈。为了进一步全面的实时跟进国内外文生图大模型的阶段性进展，我们于近期正式发布了9月中文原生文生图测评基准SuperCLUE-Image报告。9月测评摘要测评要点1：DALL-E

10月21日下午 12:02

其他

「AI搜索」基准测评方案发布

随着人工智能技术的迅速发展，AI搜索正在逐步改变人们获取信息的方式。虽然传统搜索引擎可以满足大部分需求，但在处理复杂查询、理解用户意图和提供个性化服务方面仍存在局限。AI搜索通过运用大数据分析、自然语言处理和机器学习等技术，更加精准地理解用户查询，并提供更丰富、个性化的搜索结果。为了确保AI搜索技术的进步真正满足用户需求并推动行业创新，对其能力的测评变得尤为重要。为此，我们推出了

10月16日下午 2:54

其他

文生视频大模型「新版」测评基准（方案）发布

随着人工智能技术在文生视频（Text-to-Video，T2V）领域的迅速发展，大语言模型在文生视频任务中的表现也成为了研究重点。以OpenAI为例，其春季发布的额Sora文生视频模型亮眼的表现，展现了新一代模型的强大潜力。为更精确评估大模型的文生视频能力，我们基于中文基准测评经验，推出了文生视频「新版」测评基准SuperCLUE-T2V。该基准评估关注视频画质质量和文本理解能力，全面衡量模型所生成的视频的质量与其指令遵循能力，并纳入了大量应用场景的考察。这一框架旨在未来模型研发提供参考，确保其在复杂任务中具备更高的可靠性和灵活性。排行榜地址：www.SuperCLUEai.com#

10月15日下午 12:49

其他

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

SuperCLUE。使用上面的例子来解码：dyiwgnlseyubi请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。【思维过程和自我反思】包括：1.

10月14日下午 4:01

其他

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

自2024年以来，AI大模型技术和应用逐渐从文本扩展至更多模态。随着OpenAI发布GPT-4系列多模态版本，掀起了国内外多模态理解大模型的研发热潮和广泛应用。SuperCLUE团队已于2024年8月2日发布首期多模态测评基准8月榜单，受到了中文技术社区的广泛关注和反馈。为了进一步全面的实时跟进国内外多模态大模型的阶段性进展，我们正式发布了10月中文多模态理解测评基准SuperCLUE-V报告。10月测评摘要测评要点1：ChatGPT-4o-latest在综合能力上领跑ChatGPT-4o-latest取得77.81分，领跑多模态基准。其中多模态应用能力上有超过80分的表现，展现出较强的场景适配性和落地能力。测评要点2：国内多模态大模型在部分细分任务上具备领先优势Step-1V-8k在细粒度视觉认知任务如特征定位、对象计数方面表现优异；hunyuan-vision在中文元素理解和推理任务中表现可圈可点，有超过GPT-4o的表现。SenseChat-Vision

10月12日下午 3:13

其他

奥林匹克数学竞赛-Math6o基准测评方案发布

SuperCLUE-Math6o奥数测评申请，发送到contact@superclue.ai请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

10月10日下午 6:46

其他

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

SuperCLUE团队2024/09背景自2024年以来，AI大模型技术和应用逐渐从文本扩展至更多模态。随着OpenAI于今年5月份发布GPT-4o多模态版本，掀起了国内外语音和视觉大模型的研发热潮，OpenAI也于近期正式开放GPT-4o高级语音能力。基于此，中文大模型测评基准SuperCLUE于近期对国内外实时语音大模型能力，进行了系统性量化测评。测评核心内容摘要摘要1：在中文实时语音总体能力上，GPT-4o高级语音有一定领先性，但在安全策略和幻觉问题等方面仍有较大提升空间。GPT-4o总体取得74.31分，领跑中文实时语音交互基准。并在说话风格、自然度、语言理解、记忆能力方面有较大领先性。不过GPT-4o高级语音在核心问题上仍有提升空间，如安全策略的高频误触、幻觉问题等。摘要2：在中文语音环境下，国内头部语音产品具有较好的竞争力。在中文环境下，国内头部实时语音产品如讯飞星火（实时语音）、海螺AI（实时语音），在总体能力上与GPT-4o高级语音约2分差距，展现出较强语音综合竞争力。摘要3：国内实时语音产品在响应延时、打断能力和部分通用能力上存在一定优势。响应延时方面，讯飞星火有突出表现；打断能力方面，通义表现突出，有超过GPT-4o高级语音的表现；整体通用能力方面，海螺AI和豆包具备较强的综合能力，在记忆和推理方面表现不俗。摘要4：在中文场景应用方面，国内实时语音产品具有独特优势。在实时语音场景应用领域，国内实时语音产品表现不俗。文小言在健康咨询、购物咨询等方面表现突出；智谱清言在情感咨询方面有较好表现；通义在实时翻译和教育辅导方面较为擅长；豆包则更擅长教育辅导。#榜单概览目录一、SuperCLUE-Voice基准介绍1.

9月29日下午 3:56

其他

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

2024年9月25日，SuperCLUE发布首期中文原生代码助手测评基准榜单。测评摘要测评要点1：Cursor处于领先地位Cursor在本次代码助手测评中取得89.87分，处于领先地位。并在代码生成与改写、代码优化与修复、跨函数与跨文件三个维度上有绝对优势。在代码理解与分析能力上还有提升空间。测评要点2：国内代码助手表现不俗从测评结果看，文心快码、通义灵码两产品分别达到87.55、87.36的综合得分，在国内代码助手产品中大幅领先其他产品，仅稍微落后于Cursor，并且在代码理解与分析领域稍占上风。测评要点3：国内外代码助手能力区分性较大在本次代码助手测评中第一档的产品，如Cursor、文心快码Baidu

9月25日下午 12:27

其他

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

本测评结果仅用于学术研究。9月13日凌晨，OpenAI正式发布新一代大模型o1-preview。据OpenAI官方介绍，o1在推理能力上取得重大进展，可进行复杂的任务推理，尤其是复杂的科学、数学和编程任务。与历史版本不同的是，o1模型处理问题时会像人类一样“思考”，用时约几秒至数十秒不等，内部会产生较长的思维链。在国际数学奥林匹克的资格考试（AIME）中，o1的正确率为83.3%，o1-preview的正确率为56.7%，而GPT-4o仅有13.4%的准确率。针对公众关注的o1中文性能和推理能力的问题，专业第三方测评机构SuperCLUE选取了中文复杂任务高阶推理测评集，对o1-preview的中文推理能力进行了全面评估。测评环境参考标准：SuperCLUE-Reasoning中文高阶推理测评基准评测模型：o1-preview（API）评测集：SuperCLUE-Reasoning中文复杂任务高阶推理评测集。共302道题，包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。模型GenerationConfig配置：参考OpenAI

9月13日下午 4:52

其他

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

2024年9月11日，中文原生长文本测评基准SuperCLUE-Long基准榜单发布。长文本测评摘要测评要点1：GPT-4o处于领先地位，但仍有较大提升空间GPT-4o-2024-05-13取得68.39分，领跑长文本基准。其中解析任务有70+分的表现。但摘要任务和创作任务上低于70分，仍有较大的提升空间。可见，当前长文本任务对大模型仍是较大挑战。测评要点2：国内大模型在长文本能力上正在不断接近全球领先水平国内大模型Moonshot(kimi)取得66.79分，暂列国内第一，稍落后GPT-4o-2024-05-13有1.6分。豆包、Baichuan4、360gpt2-pro-360k、通义千问2.5、文心一言4

9月11日下午 2:12

其他

中文大模型基准测评2024年8月报告

SuperCLUE团队2024/09背景自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年，全球大模型竞争态势日益加剧，随着GPT-4o、Claude3.5、Gemini-1.5-pro和Llama3.1的发布，国内大模型同样在2024年上半年内进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此，我们发布了《中文大模型基准测评2024年8月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_2408报告核心内容摘要摘要1：国内外大模型差距进一步缩小ChatGPT-4o-latest是中文上全球表现最好的模型，但国内顶尖模型在部分通用能力上已将差距缩小至2%以内。摘要2：国内大模型竞争加剧国内闭源模型中Hunyuan-Turbo-Preview、AndesGPT-2.0、SenseChat

9月2日下午 6:09

其他

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

2024年8月7日，汽车智能座舱大模型SuperCLUE-ICabin基准榜单发布。本次测评涵盖国内外最具代表性的9个通用大模型。8月测评摘要测评要点1：GPT-4o领跑GPT-4o以81.76分的成绩成为唯一在SuperCLUE智能座舱基准中得分超过80分的模型。它在基础能力和应用能力上的表现均领先于其他模型，展现了其在技术和应用方面的显著优势。测评要点2：国内大模型表现优异国内大模型qwen_max_longcontext在本次测评中表现优异，取得了78.54分，与GPT-4o的差距不大，特别是在应用能力上两者仅相差2.43分。其余国内大模型的得分集中在74分以上，且彼此之间的差距很小，体现了国内大模型在座舱领域的强大竞争力。测评要点3：国内大模型普遍基础能力弱于应用能力参评的国内大模型普遍存在基础能力弱于应用能力的现象，其中最高分差者可达8.98分。这一现象表明，国产大模型需要着重关注座舱基础领域，并在未来进行进一步的优化提升。#榜单概览榜单地址：www.superclueai.com详情请查看下方#正文。#SuperCLUE-ICabin

8月7日下午 12:10

其他

SuperCLUE-o: 中文原生多模态实时交互测评基准

G.114标准）：评估示例案例说明：以基础对话能力为例实时对话样本：响应延迟计算：参考上文对响应延迟的定义，在本视频中，我们截取了三段可测量的时间戳间隔，分别位于[2.040,

8月6日上午 11:46

其他

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

2024年8月2日，中文多模态大模型SuperCLUE-V基准8月榜单发布。本次测评涵盖国内外最具代表性的12个多模态理解大模型。8月测评摘要测评要点1：GPT-4o领跑GPT-4o取得74.36分，领跑多模态基准。其中基础多模态认知能力和应用能力均有70+分的表现，在技术和应用方面均有一定领先优势。测评要点2：国内多模态大模型表现不俗国内多模态大模型hunyuan-vision和InternVL2-40B表现不俗，取得70+分的优异成绩，仅次于GPT-4o。尤其在多模态应用方面领先Claude3.5-Sonnet和Gemini-1.5-Pro，展现出较强的应用优势。测评要点3：国内大模型基础能力仍需提升在基础能力方面国内大模型较海外模型仍有一定差距，尤其在细粒度视觉认知任务上，国内外最好模型有5分的差距，需要进一步对多模态深度认知能力做优化提升。#

8月2日下午 3:24

其他

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

测评结果首览总榜单六大场景得分排行榜地址：www.SuperCLUEai.com官网地址：www.CLUEbenchmarks.comAIGVBench登录页：www.AIGVBench.com#

8月1日上午 11:56

其他

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

提升1.27分，判定为推理等级5，得分更加接近GPT-4o。结论3：GPT-4o在代码生成单元测试基准（SC-Code3）上得分63.87分，较GPT-4提升0.13分，和GPT-4

7月25日下午 4:53

其他

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

Turbo略高（0.11分），与GPT-4o有一定差距（2分）。测评结果SuperCLUE-Math6SuperCLUE-Code3更多模型测评信息，可加入SuperCLUE

7月24日下午 7:18

其他

中文大模型基准测评2024上半年报告

SuperCLUE团队2024/07背景自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年，全球大模型竞争态势日益加剧，随着GPT-4o、Claude3.5、Gemini1.5-pro和Llama3的发布，国内大模型同样在2024年上半年内进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此，我们发布了《中文大模型基准测评2024上半年报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_24h1报告核心内容摘要摘要1：国内外大模型差距进一步缩小国内外大模型差距进一步缩小：OpenAI最新模型GPT-4o依然是全球表现最好的模型，但国内大模型已将差距缩小至5%以内。摘要2：国内开源模型崛起本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct，并且超过了众多国内外闭源模型。摘要3：各任务表现在文科、理科和Hard任务中，GPT-4o综合最佳，Claude-3.5在Hard任务表现突出，Qwen2-72B在文科任务表现优异。摘要4：端侧小模型表现惊艳端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。详情请查看#正文或完整报告。目录一、国内大模型关键进展1.

7月9日下午 6:09

其他

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

近年来，随着技术的进步，文生视频（Text-to-Video）的研究和应用在全球范围内蓬勃发展。例如，OpenAI推出的Sora模型便能根据文本创建逼真的视频内容，这类技术在短视频制作、影视制作、广告和娱乐行业等领域具有巨大的应用潜力和商业价值。Sora

7月2日下午 3:15

其他

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

本测评结果仅用于学术研究。2024年6月24日，汽车大模型测评基准SuperCLUE-Auto发布更新，新增了易车大模型的测评结果。易车大模型是以易车经过二十余年深耕汽车行业积淀的庞大独有语料库为基础，结合前沿大模型技术自主研发训练的汽车垂直领域大模型。易车大模型旨在为用户提供全面和精准的汽车领域生态服务，包括车辆介绍、选购推荐、购买指导、使用及保养等，贯穿从选车到购车再到用车的全生命周期。丰富的数据基础和扎实的技术让易车大模型成为用户在汽车领域可靠、专业的智能助手，为用户提供高效和专业的服务体验。那么，易车在SuperCLUE汽车测评基准的表现如何？与国内外代表性大模型相比处于什么位置？在各项基础能力上如智能座舱与交互、汽车营销、车辆使用和汽车通用知识上会有怎样的表现？我们基于SuperCLUE-Auto汽车综合性测评基准，对易车大模型进行了全方位测评。测评环境参考标准：SuperCLUE-Auto汽车大模型测评基准评测模型：易车大模型（官方小范围内测API）评测集：SuperCLUE汽车评测集，4大核心基础能力的十余个任务。模型GenerationConfig配置：temperature=0.1top_p=0.8max_new_tokens=1024stream=true测评方法：本次测评为自动化评测，具体评测方案可点击查阅SuperCLUE-Auto汽车综合性测评基准。本次测评经过人工抽样校验。先说结论结论1：在SuperCLUE汽车测评基准上，易车大模型表现不俗，以总分82.23分的优异成绩刷新国内最好成绩。结论2：在本次测评中，相比国外代表性模型很有竞争力。总体来看，易车大模型在中文汽车应用领域总体表现好于GPT4，但与GPT4

6月24日下午 3:03

科技

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

文生图技术已在人工智能领域取得重要进展，使计算机能够依据文本描述生成图像。特别是在中文场景中，此技术不仅改变了内容创作方式，还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。目前，国际上如DALL-E

6月12日下午 9:10

其他

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

对战发起团队｜SuperCLUE2024年6月6日，国内首个中文大模型匿名对战竞技场「琅琊榜」正式发布，首期榜单包含17个中文代表性大模型，截止6月5日共获得12608次有效投票。#大模型竞技场「琅琊榜」「琅琊榜」是SuperCLUE团队推出的中文大模型匿名对战竞技场，旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。在这里，顶尖的中文大模型们将在完全匿名的环境下进行激烈对决，通过真实用户投票，实时产生排名和分析报告，为研究者和开发者提供宝贵的数据支持。琅琊榜致力于推动中文人工智能技术的发展，打造中文大模型领域的权威竞技场和榜单。「琅琊榜」竞技场官方唯一地址：www.langyb.com#首期榜单在首期大模型竞技场「琅琊榜」榜单中，MiniMax的abab6.5-chat以1173分暂列榜首，智谱AI的GLM-4和月之暗面的moonshot-v1-128k（Kimi）紧随其后，分别取得1079分和1059分。在本次榜单中，超过1000分的大模型有10个，均有不俗表现。注：已排除获得少于300票的模型，因为它们的置信区间可能会很大。部分模型API的价格是分别基于输入和输出的

6月6日下午 12:16

其他

SuperCLUE-Long：中文原生长文本测评基准

随着大语言模型应用的推广，越来越多的用户开始参与到模型的使用中，进而对模型的性能也提出了更多的要求。“长文本”作为用户普遍关注的热点话题，是目前国内外企业重点推进的项目，例如OpenAI推出的GPT-4

5月30日下午 12:28

其他

国内大模型竞争加剧！百川智能「Baichuan4」全网首测，以总分80.64刷新SuperCLUE中文基准

本测评结果仅用于学术研究。据悉，百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请，对Baichuan4在SuperCLUE通用大模型综合性中文测评基准上，进行了全方位综合性测评。Baichuan4体验地址：https://www.baichuan-ai.com/（已官方更新为准）测评环境参考标准：SuperCLUE综合性测评标准评测模型：Baichuan4（官方于5月19日提供的内测API版本）评测集：SuperCLUE综合性测评基准4月评测集，2194道多轮简答题，包括计算、逻辑推理、代码、长文本在内的基础十大任务。模型GenerationConfig配置：temperature=0.3repetition_penalty=1.05top_p=0.85max_new_tokens=2048stream=false测评方法：本次测评为自动化评测，具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。先说结论结论1：国内最佳成绩在SuperCLUE综合基准上的评测中，Baichuan4以总得分80.64分刷新了国内记录。不仅如此，它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125，展现了其在大模型方面的强大实力。结论2：分类任务表现分析理科表现：在理科领域，Baichuan4虽然以国内最佳成绩领先，但与GPT-4-Turbo-0125相比还有4.23分的差距，显示出进一步优化的空间。文科表现：在文科任务中，Baichuan4以83.13分的高分不仅领先国内，也是国际上的最高分，比GPT-4-Turbo-0125高出5.33分，验证了其在文科领域的卓越能力。结论3：全面而均衡的能力展示Baichuan4在多个领域展示了其均衡的能力，特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而，它在代码能力方面仍有提升的潜力。对比模型数据来源：SuperCLUE,

5月22日下午 1:02

其他

商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑

PT-4-Turbo-0125低4.35分，还有一定提升空间。其中，计算（80.6）、逻辑推理（73.8）、工具使用（80.8）均刷新国内最好成绩；在代码能力上还有一定优化空间。SenseChat

5月21日下午 12:22

其他

SuperCLUE-V: 中文原生多模态理解测评基准

随着人工智能技术的飞速发展，多模态大模型及其应用已经成为热点方向。国际上如GPT-4o等模型表现出色（见图1、图2），国内也已经出现多个多模态模型，但大多数现有基准测试以英文或及其翻译版本为主，或侧重选择题形式。虽然容易测试，但无法充分反映中文多模态大模型与用户之间交互的实际需求。为弥补这一差距，我们基于SuperCLUE中文综合性测评基准的经验和积累，推出了SuperCLUE-V。它从基础能力和应用能力两个大方向，以开放式问题形式对多模态大模型进行评估，涵盖了8个一级维度30个二级维度。图1：利用GPT-4o解决数学问题图2：利用GPT-4o询问景点信息文章地址：www.CLUEbenchmarks.com/superclue_v.html项目地址：https://github.com/CLUEbenchmark/SuperCLUE-V#

5月16日下午 4:35

其他

Baichuan3上榜金融基准测评：综合能力评级A，金融知识评级A+

本测评结果仅用于学术研究。4月24日，SuperCLUE团队发布金融大模型基准测评首批结果，引起了金融行业的广泛关注和热议。近期SuperCLUE团队已陆续开展第二批次金融基准测评，对国内通用大模型及金融垂直大模型进行，进行了全方位的金融能力测评。测评报名方式申请见文章底部本文是对Baichuan3的金融基准能力进行的最新详细测评结果。#模型简介Baichuan3是百川智能推出的第三代基础模型，参数规模超千亿，于2024年1月29正式发布。相比去年9月推出的Baichuan2，各方面性能有了大幅提升，尤其在数学、逻辑及行业知识理解能力上做了着重优化。体验地址：https://www.baichuan-ai.com/chat#测评环境参考标准：SuperCLUE-Fin中文金融测评基准评测模型：Baichuan3（小范围内测API）评测集：SuperCLUE-Fin中文金融测评基准，包括六大金融领域相关应用场景、二十五项细分任务类型。模型GenerationConfig配置：repetition_penalty=1.05temperature=0.3top_k=5top_p=0.85max_new_tokens=2048do_sample=1测评方法：本次测评为自动化评测，具体评测方案可查阅SuperCLUE-Fin中文金融测评基准。本次测评经过人工抽样校验。SuperCLUE金融等级评定机制，具体规则说明如下：其中第一梯队模型需满足条件：模型等级不低于A、基础能力等级与应用能力等级至少一项不低于A，即模型可以达到满足ToC及ToB的两种业务需求；第二梯队模型需满足条件：模型等级不低于B、基础能力等级不低于B、应用能力等级不低于C，即模型可以基本满足ToC业务需求，但需提升ToB业务能力；第三梯队模型即为等级为C或D的，需同时提升ToC与ToB两大业务需求的、具备发展潜力的模型。#先说结论结论1：在SuperCLUE-Fin金融基准上，Baichuan3表现不俗，金融总体评级A级。在国内大模型中，Baichuan3在金融能力方面处于第一梯队。有超过GPT-4的表现，较GPT-4

5月15日下午 12:57

其他

GPT-4o登顶中文推理基准，总分81.73，刷新数学和代码最好成绩

本测评结果仅用于学术研究。5月14日凌晨，OpenAI召开春季发布会，发布新版本模型GPT-4o。它具备实时多模态人机交互能力，打通了文本、语音和视觉，语音延迟大幅降低。GPT-4o的API速度比GPT-4

5月14日下午 6:13

其他

零一万物Yi-Large模型全网首测，总分74.29，打平Claude3，刷新国内最好成绩|SuperCLUE

本测评结果仅用于学术研究。零一万物（01.AI）成立于2023年5月16日，致力于打造全新的AI2.0平台。去年11月，零一万物发布Yi-6B、Yi-34B双语开源模型；前不久又推出一站式

5月13日下午 12:04

其他

深度求索DeepSeek-V2中文推理任务表现强劲，总分74.46，超越Llama3|SuperCLUE

本测评结果仅用于学术研究。近日，深度求索正式开源第二代MoE模型DeepSeek-V2，引起了中文技术社区的广泛关注。据官方说明，DeepSeek-V2是一个参数更多、能力更强、成本更低的模型。值得注意的是，DeepSeek-V2每百万tokens输入1元、输出2元（32K上下文），价格仅为GPT-4-Turbo的近百分之一。而且官方披露DeepSeek-V2在开源模型中最强，与GPT-4-Turbo等闭源模型在评测中处于同一梯队。针对公众关注的DeepSeek-V2的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对DeepSeek-V2在数学和编程方面的能力进行了全面评估。先说结论结论1：在完成SuperCLUE推理任务时，DeepSeek-v2的整体得分为74.46，表现突出。该模型与一些国际领先模型相比具有优势，比如它比Llama3-70B高出1.29分。然而，与GPT-4

5月11日下午 7:46

其他

通义千问2.5性能全面赶超GPT-4 Turbo？

本测评结果仅用于学术研究。5月9日，阿里云正式发布通义千问2.5。阿里云官方表示，该模型性能全面赶超GPT-4

5月10日下午 6:00

其他

SuperCLUE-Image: 中文原生文生图测评基准

5月7日下午 12:33

其他

中文大模型基准测评2024年4月报告

SuperCLUE团队2024/04背景自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年4月，全球大模型竞争态势并未衰减，随着Claude3、Gemini1.5和Llama3的发布，更是推动国内外大模型领域进入到更为激进的大模型发展新常态。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。基于此，我们发布了《中文大模型基准测评2024年度4月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。点击文章底部【阅读原文】查看高清完整PDF版。在线完整报告地址（可下载）：www.cluebenchmarks.com/superclue_2404目录一、国内大模型关键进展1.

4月30日上午 8:56

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

CLUE中文语言理解测评基准