SuperCLUE-Image: 中文原生文生图测评基准
项目地址:https://github.com/CLUEbenchmark/SuperCLUE-Image
文章地址:https://www.cluebenchmarks.com/superclue_image.html
1. 特点
维度一:图片质量
图片质量的评估应基于人类的美学标准,确保生成的图像符合视觉感知和普遍审美偏好。不仅需要在技术上达标,还要在视觉和情感上与人类的审美共鸣。
饱和度:评估图像颜色的饱和度水平以及颜色在不同区域的分布。
例如:创建一幅图像,城市屋顶花园里,红色玫瑰、紫色罗勒和金黄向日葵与蓝天形成鲜明对比,彩色花盆排列整齐,绿色植被中点缀着开放的鲜花。
准确性:评估图片中的颜色是否与实际场景或主题相符。包括对颜色的明亮度、色调的准确性进行检查。
对比度:评估图片中不同颜色之间的明暗差异程度。合适的对比度可以使图像更加生动和清晰,而过低或过高的对比度可能会导致细节丢失或视觉效果不佳。
辨识难度:评估图片被识别为人工智能生成的难度。
例如:一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑。
分辨率:评估图像识别细节的程度。高分辨率的图像包含更多像素,因此可以显示更精细的细节。
锐度:评估图像中细节和边缘的清晰度。
结构合理性:评估图像在逻辑、几何和美学上的连贯性与真实性。涉及图像中的对象、场景和元素是否按照现实世界的物理规则和视觉习惯来展现。
维度二:图文一致性
单轮交互:评估大模型在用户提供反馈或修改文本提示的情况下,是否能够灵活调整,提供改进的图像输出。
交互1:将夕阳下非洲大草原上长颈鹿和斑马的双人大头贴扩成全身照。
多轮交互:评估大模型是否能根据上一次生成的图片以及文本信息继续改进或者生成用户需要的图片。
交互1:生成一张包含卫衣的介绍卫衣的图片。
交互2:生成一张这个卫衣的帽子部分(作为放大后的效果)。
例如:根据描述场景生成图片,描述场景:古朴的茶馆,顾客品茗谈天,茶香与人声酝酿出一种悠闲的氛围。
时序逻辑
因果逻辑
5.歧义解析:评估大模型对具有多个意义的词汇或句子,是否能够根据上下文准确地解释并选择合适的意义,生成符合大多数人认知的图像。
中国物品:中文场景下的特定物品。
诗词意象:中文传统诗词中的意象理解。
神话故事:中国传统神话故事的场景。
维度三:内容创造
1.组合元素:评估大模型组合用户要求的元素并创造用户需要的内容的能力。
2.创造不可能:评估大模型根据词汇特殊组合成的文本生成创造性的内容的能力。
3.风格能力:评估大模型识别和理解每种风格的关键特征的能力,并能够将多种风格融合在一起,创造新风格。
1.简单生成:评估大模型根据简单提示词生成图片的时间。
2.复杂生成:评估大模型根据组合提示词生成图片的时间。
3. 评估方法与思路
1)测评集构建
2)评分方法
问题--图像--评估过程及打分
案例1:图像质量-用户情感
模型答案:
超级模型(gpt-4v)裁判:
根据您提供的图片以及评价指标,我们可以进行如下评分:
1.情感细腻程度:
图片中的恋人们紧密相拥,在烟花的映衬下,他们之间的情感细腻且复杂,不仅传达了爱情的温馨,还有一种浪漫与幸福的氛围。他们的表情和身体语言表现出亲密和深深的爱意。
得分:5/5
2.情感范围:
图片强烈地传达了爱情这一核心情感,但除此之外,情感状态可能不是很多样。由于重点是恋人之间的情感交流,所以可能并没有展现出更多种类的情感状态,如愤怒或惊讶等。
得分:4/5
3.回应的个性化:
个性化通常涉及到对特定个体的情感状态的回应。由于这是一张静态图片,它无法展示动态的个性化互动。但是,如果我们假设这幅画是根据特定用户的要求(描述情感的细腻度和浪漫)定制的,那么它在一定程度上体现了对这种要求的个性化回应。
得分:4/5
案例2:图文一致性-中文语境之诗词意象
模型答案1:
超级模型(gpt-4v)裁判:
根据您提供的图片以及评价指标,我们可以进行如下评分:
1.基础知识把握与描述:
图片展示了一位身着传统服饰的人物,在柳树下对着夕阳饮酒,旁边是一张书桌,上面摆放着茶壶和茶杯,还有一个古筝。地面铺着几张展开的书卷,上面书写着汉字。整个场景营造了一种古典诗意的氛围。
得分:5/5
2.上下文理解与深入分析:
描述的场景符合“对酒当歌,人生几何”的诗意,展现了中国古代文人饮酒吟诗的惬意生活,体现了人与自然和谐共处的理念。夕阳和宁静的湖面强化了对生命哲学的沉思,即在有限的人生中应当把握当下,享受生活中的美好时光。
得分:5/5
3.历史与文化融合的阐释:
这幅图不仅复现了古代文化的场景,而且通过细节的描绘,如书桌上的文房四宝、古筝等元素,体现了中国深厚的文化传统。通过这样的细节,图画彰显了对历史和文化的尊重和传承。
得分:5/5
模型答案2:
超级模型裁判:
1.基础知识把握与描述:
画面中展示了一个微笑的男性,坐在桌前,桌上有一瓶酒和一杯已经倒满酒的玻璃杯,以及一个橙色的水果。 人物的表情传达了愉悦和享受的情绪,与“对酒当歌,人生几何”中的快乐和畅饮的主题相契合。 画面采用了温暖的色调,营造了一种愉悦和舒适的氛围。
得分:5/5
2.上下文理解与深入分析:
该画面很好地捕捉到了诗句“对酒当歌,人生几何”的情感基调,即在饮酒作乐中反思人生的短暂。 男性的笑容和放松的姿态反应了对当前欢乐时光的享受,而不是过分担忧未来或过去,这与诗句中体现的及时行乐的哲学相吻合。 橙色水果可能代表着生活中的简单乐趣,而酒则是传统上用于庆祝和沉思的饮品。
得分:5/5
3.历史与文化融合的阐释:
图片中的酒文化在中国有着悠久的历史,常常与诗歌、音乐和朋友相伴,作为人生享受和文化表达的一部分。
然而,图片中没有明显的中国特定历史或文化元素展示,如中国传统服饰、酒器或环境装饰等,这些可能会更直接地反映出中国的历史和文化背景。 为了更丰富地阐释“对酒当歌,人生几何”在历史文化融合上的意义,可能需要在画面中加入更多具有中国传统象征的元素。
加权平均分计算:
由于没有具体的权重指标给出,若每个标准等权重,则加权平均分为4.33分。
案例3:内容创作-组合元素
模型答案:
超级模型(gpt-4v)裁判:
1.组合元素的视觉识别:
颜色:海报使用了鲜明的橙色调,与万圣节的主题色调相匹配,同时也与太空服的颜色相呼应。
形状:太空服和南瓜的形状被清晰地展示出来,符合太空探索与万圣节的元素。
纹理:图像中的材质,如太空服的金属质感、南瓜的表面纹理等,都被细致地表现出来。
得分:4.5/5
2.组合元素的和谐与对比分析:
和谐度:太空服与南瓜在色彩和主题上都保持了一致性,构成了一个整体的故事。 对比度:明亮的太空服和南瓜与深色的太空背景形成对比,增强了视觉冲击力。
得分:4/5
3.组合元素的创意与整体效果评价:
创意:将太空探索与万圣节装扮结合的想法很有创意,且执行得当。 整体美学效果:整体视觉效果引人注目,形成了一个令人记忆深刻的画面。
得分:4.5/5
综上,这张图片的总体加权平均得分为4.33分。
# 测评规划(首批)
一、测评流程
5. 获得测评报告
二、时间计划
三、申请测评地址
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-image