中文多模态大模型基准8月榜单发布!8大维度30个测评任务,3个模型超过70分
8月测评摘要
测评要点2:国内多模态大模型表现不俗国内多模态大模型hunyuan-vision和InternVL2-40B表现不俗,取得70+分的优异成绩,仅次于GPT-4o。尤其在多模态应用方面领先Claude3.5-Sonnet和Gemini-1.5-Pro,展现出较强的应用优势。
测评要点3:国内大模型基础能力仍需提升在基础能力方面国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有5分的差距,需要进一步对多模态深度认知能力做优化提升。
# 榜单概览
# SuperCLUE-V介绍
1)测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。2)评分方法
评估流程开始于模型与数据集的交互,模型需要基于提供的多模态信息进行理解和回应。评估标准涵盖了理解准确性、回应相关性和推理深度等维度。打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。3)评分标准
SuperCLUE-V根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况,GPT-4o打分1-5分,综合各个标准的得分得到平均分。详见下方#示例。
示例图片:
模型答案:
这是一组连续的电影画面,展示了在日落背景下,背对镜头的一个人物的轮廓。
第一张图片中,天空橙红色,太阳快要落下,该人物的右手拉着一个看不清的物体。图片的底部显示了中英文字幕:“我虽然有观点 / I have an opinion.”
第二张图片保持了相同的背景与人物的位置,不过人物的姿势和截图的时间可能稍有不同。字幕显示为:“但只是我个人观点,不一定对 / But that's my opinion. I could be wrong.”
第三张图片继续承接前两张图片的情景和人物位置,背景依旧是橙红的日落,人物继续面向远方,右手依然拉着那个物体。字幕内容变为:“所以不能误导你 / So why would I screw up yours?”
----逐项打分开始----
----逐项打分结束----
数据来源:SuperCLUE,2024年8月2日;本次榜单海外模型仅作对比参考不参与排名。
模型象限
为进一步体现多模态大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。
其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
# 模型对比案例
基础认知能力
示例1:细粒度视觉认知-文本理解
提示词:「请分析一下收据上“椰黄包”的价格是多少?」
GPT-4o答案:
在收据上,“”椰黄包“的价格是6.50元评分:【5分】
hunyuan-vision答案:
收据上”“椰黄包”的价格是6.50元。评分:【5分】
示例2:细粒度视觉认知-对象计数
GPT-4o答案:
图片中有以下几个球体和立方体:1. 球体: - 1个绿色的光滑球体2. 立方体: - 1个黄色的立方体 - 1个棕色的立方体 - 1个灰色的立方体 - 1个橙色的小立方体 - 1个红色的小立方体总计:- 球体:1个- 立方体:5个评分:【3分】
InternVL2-40B答案:
图片中有1个球体和7个立方体。具体分析如下:1. 图片中有一个绿色的球体。2. 图片中有七个立方体,分别是: - 一个黄色的立方体 - 一个灰色的立方体 - 一个红色的立方体 - 一个棕色的立方体 - 一个较小的棕色立方体 - 一个中等大小的棕色立方体 - 一个最小的棕色立方体因此,图片中总共有1个球体和7个立方体。评分:【3分】
Gemini-1.5-Pro答案:
根据图片信息,广州在2015年的常住人口是 **1594.95** 万人。评分:【5分】
Qwen-VL-Plus答案:
根据图片中的数据,我们可以看到,在2015年的常住人口数量为167838万人。评分:【1.5分】
Claude3.5-Sonnet答案:
这张图片是一个流行的网络表情包,源自一个可爱的卡通小鸡形象。图中的小鸡看起来有些沮丧或无奈,头上还有一个蓝色的汗滴emoji。_x000D__x000D_小鸡旁边放着一个拖把,暗示它可能正在做清洁工作。图片底部的中文文字"真是坠了"是一种网络用语,大致意思是"真是没办法了"或"真是太糟糕了"。_x000D__x000D_这个梗通常用来表达对某种令人沮丧或无奈的情况的反应。它以幽默和可爱的方式传达了一种"无可奈何"或"真是麻烦"的感觉。_x000D__x000D_这种表情包在社交媒体上很受欢迎,人们经常用它来表达日常生活中的小烦恼或无奈的情绪,比如面对繁重的家务或工作任务时的心情。它的可爱外表与略显消极的情绪形成反差,增添了幽默感,使得表达负面情绪的方式变得轻松有趣。
评分:【3.83分】
GPT-4o答案:
这张图片中的小鸡看起来是在打扫地板,头上还带着一个表情符号(汗滴),下面的文字写着“真是坍了”。这个梗的关键在于小鸡可爱的外表和它在做家务时的“无奈”心情。“真是坍了”一般用来表达一种无语或者无奈的情绪,意思是对某种情况感到无力或者无可奈何。结合图片中的小鸡,可能它遇到了一些让它无语或者无奈的事情,所以这个表情包常常用来表达遇到让人无法接受或尴尬情况时的心情。这个梗的幽默之处就在于用一只可爱的小鸡来传达一种很日常、很接地气的情感。由于它的形象非常可爱,所以能够让人会心一笑,同时也能够很好地表达一种“无奈接受”的情绪。评分:【3.33分】
step-1v-8k答案:
图片展示的是中国古代的一种乐器,称为编钟。编钟是青铜铸成的,通常一组编钟会包含不同大小的钟,悬挂在一个框架上。每个编钟可以通过敲击来发出不同音高的声音。这种乐器在古代中国有着悠久的历史,最早可以追溯到3000多年前的周朝。编钟不仅仅是一种乐器,它还象征着权力和地位。在古代,只有帝王和贵族才能拥有和使用编钟。它们通常在祭祀、宴会或仪式等重要场合演奏,用以表达对神灵的敬意或庆祝重大事件。编钟的铸造和调音需要高超的工艺和艺术技巧。每个编钟的形状、大小和厚度都经过精心设计,以产生准确的音高和音质。编钟的音乐通常优雅而庄重,能够营造出一种神圣和肃穆的氛围。在中国的历史长河中,编钟不仅是一种乐器,更是中国文化的重要组成部分。它们承载着丰富的历史和文化内涵,反映了中国古代音乐的辉煌成就。评分:【4.5分】
ERNIE-4-Turbo答案:
这张图片生动地展现了中国古代铜铃铛的艺术魅力,同时也蕴含了丰富的中国文化知识。首先,铜铃铛在中国文化中有着悠久的历史和深厚的文化内涵。它们不仅是古代乐器的一种,还常用于宗教仪式、庆典活动和日常生活中。铜铃铛的声音清脆悦耳,能够传递出祥和、宁静的氛围,因此深受人们喜爱。在这张图片中,铜铃铛被巧妙地安置在一个装饰性的木架上,形成了一种独特的艺术美感。木架的设计精致而复杂,上面的小人形支架更是体现了古代工匠的精湛技艺。这些铜铃铛大小不一,形状各异,但都呈现出一种古朴典雅的风格,充满了岁月的痕迹。值得注意的是,这些铜铃铛的表面看起来有些磨损,这正是它们年代感的体现。这些磨损的痕迹不仅记录了铜铃铛的历史,也见证了它们所承载的文化价值。此外,图片中还有一支红色的笔,虽然与铜铃铛和木架相比显得较为突兀,但也为整个场景增添了一抹亮色。这支笔可能代表着书写和记录,与铜铃铛所承载的文化知识形成了有趣的对比。总的来说,这张图片通过展示中国古代铜铃铛和装饰性木架,向我们传递了中国古代文化的独特魅力和深厚底蕴。这些铜铃铛不仅是艺术品,更是中国文化的瑰宝,值得我们深入了解和欣赏。评分:【2.25分】
# 人类一致性评估
# 测评分析及结论
由测评结果可知,GPT-4o(74.36分)综合能力表现出色,领跑SuperCLUE-V基准。国内最好模型hunyuan-vision取得71.95分,略低于GPT-4o有2.41分。
3.不同模型在不同多模态任务中表现差异较大
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
# 邮件申请
邮件标题:多模态理解测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、多模态理解模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark