SuperCLUE-Image: 中文原生文生图测评基准

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

文生图技术已在人工智能领域取得重要进展，使计算机能够依据文本描述生成图像。特别是在中文场景中，此技术不仅改变了内容创作方式，还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。

目前，国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内大模型已在中文文生图领域做出尝试，但理解和生成具有中文文化特色的复杂图像依然具有挑战或成长空间。

为此，我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计，提供全面公正的评估框架，覆盖生成质量、多样性和文本一致性等方面的表现，以推动技术的标准化和国际化，加速其在更多实际应用场景的应用。

项目地址：https://github.com/CLUEbenchmark/SuperCLUE-Image

文章地址：https://www.cluebenchmarks.com/superclue_image.html

# SuperCLUE-Image文生图

1. 特点

（1）中文原生文生图能力评估

立足于为通用人工智能时代提供中文世界测评基础设施，文字输入或提示词（prompt）都是中文原生的，不是英文或其翻译版本；并充分体现中文世界的场景和特点，比如识别并融入我国的习俗和文化元素，比如根据中国文化元素生成具有中国风的图片，不仅展现了图像美学，也蕴含了丰富的文化内涵。

（2）场景还原能力评估

该体系深入探讨了大型模型利用图片还原场景的能力，包括评估模型是否能根据用户提供的提示词生成符合预期的图片。通过构图、光影、色彩、细节处理等方面评价大型模型生成图片的质量，同时对其生成的图片进行内容创造能力的评估。

（3）应用潜力评估

本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题，突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试，评估模型在理解和生成各种复杂场景下图像的能力，从而体现其在捕捉细节精确性和文化深度方面的卓越表现，证明了其在多种场景中的实用性和创新性。

2. 指标体系

维度一：图片质量

图片质量的评估应基于人类的美学标准，确保生成的图像符合视觉感知和普遍审美偏好。不仅需要在技术上达标，还要在视觉和情感上与人类的审美共鸣。

1.构图：评估构图是否合理，包括比例尺度，空间关系，空间深度，以及图像分割是否清晰。

例如：创作一张图片，内容为一个具有丰富前、中、后景层次的自然景观，例如连绵的山峦或层叠的梯田，使用递进的手法构建深远和立体的空间感。

2.光影：评估图像光线的均匀性、阴影的自然性以及光影相互作用的和谐性，判断图片的整体质量和艺术性。

例如：生成一张展现古老城墙的细节，使斑驳的阳光透过树叶间隙，营造出历史的质感。

3.色彩

饱和度：评估图像颜色的饱和度水平以及颜色在不同区域的分布。

例如：创建一幅图像，城市屋顶花园里，红色玫瑰、紫色罗勒和金黄向日葵与蓝天形成鲜明对比，彩色花盆排列整齐，绿色植被中点缀着开放的鲜花。

准确性：评估图片中的颜色是否与实际场景或主题相符。包括对颜色的明亮度、色调的准确性进行检查。

例如：创作一张在清晨的天空中飘浮的热气球图片，色彩斑斓的热气球与晨光中的云层形成了鲜明的对比。

对比度：评估图片中不同颜色之间的明暗差异程度。合适的对比度可以使图像更加生动和清晰，而过低或过高的对比度可能会导致细节丢失或视觉效果不佳。

例如：生成一张河畔的垂钓者的肖像图，对比度平衡下的宁静与专注让人感到内心的平和。

4.细节处理：评估图像是否包含细微的细节，如背景中的微妙纹理、人物的面部特征、自然场景的复杂性等。

例如：捕捉一张展示森林中树木皮纹的照片，细节的纹理分析和深浅对比。

5.情感：评估大模型表达不同情感，情绪，氛围的能力。

例子：描述一个在日落时分露出微笑的孩子，捕捉那份纯真与悠闲。

6.图片保真度

辨识难度：评估图片被识别为人工智能生成的难度。

例如：一位32岁的年轻女性自然保护主义者，正在丛林中探险。她体格健壮，一头短卷发，面带亲切的微笑。

分辨率：评估图像识别细节的程度。高分辨率的图像包含更多像素，因此可以显示更精细的细节。

例如：生成一张分辨率4608*3456以上的火山爆发图片。

锐度：评估图像中细节和边缘的清晰度。

例如：输出一张锐度增强的植物标本照片，提升纹理和颜色的清晰度。

结构合理性：评估图像在逻辑、几何和美学上的连贯性与真实性。涉及图像中的对象、场景和元素是否按照现实世界的物理规则和视觉习惯来展现。

例如：生成一张野餐布上美食和用具摆放的图片。

维度二：图文一致性

1.文本遵循：评估图片是否全面包含文本提到的信息，能否精确地理解文本中的字面意义。

例如：绘制一张图像，反映一本打开的书籍，书页上有一片枫叶作为书签。

2.交互反馈

单轮交互：评估大模型在用户提供反馈或修改文本提示的情况下，是否能够灵活调整，提供改进的图像输出。

例如：夕阳下非洲大草原上长颈鹿和斑马。

交互1：将夕阳下非洲大草原上长颈鹿和斑马的双人大头贴扩成全身照。

多轮交互：评估大模型是否能根据上一次生成的图片以及文本信息继续改进或者生成用户需要的图片。

例如：生成一张卫衣搜索界面的图。

交互1：生成一张包含卫衣的介绍卫衣的图片。

交互2：生成一张这个卫衣的帽子部分（作为放大后的效果）。

3.语境理解：评估大模型是否能够抓住文本中的前后文信息，正确理解和表达提供的语境，是否能识别并适当地处理文本中的隐喻、比喻、拟人等修辞手法。

例如：根据描述场景生成图片，描述场景：古朴的茶馆，顾客品茗谈天，茶香与人声酝酿出一种悠闲的氛围。

4.逻辑连贯性：评估大模型是否能够理解文本中描述的因果逻辑、涉及的时间序列，并在图像中体现出来。

时序逻辑

例如：生成一组图片，内容为从入学到毕业典礼上抛帽，象征教育阶段的结束。

因果逻辑

例如：生成一张图片，内容为一条狗狗悲伤地躺在角落，接着有人安慰它，之后狗狗摇尾乐观。

5.歧义解析：评估大模型对具有多个意义的词汇或句子，是否能够根据上下文准确地解释并选择合适的意义，生成符合大多数人认知的图像。

例如：生成一张图像，厨师在甜点上绘制了夏天的味道。

6.中文语境：评估大模型在中文的应用语境和场景下的表现能力。

中国物品：中文场景下的特定物品。

例如：设计一张图展示中国结的编制过程和其象征意义。

诗词意象：中文传统诗词中的意象理解。

例如：生成图画：“山重水复疑无路，柳暗花明又一村”。

神话故事：中国传统神话故事的场景。

例如：创建一张图像，展示中国民间传说“白蛇传”的爱情和忠诚。

维度三：内容创造

1.组合元素：评估大模型组合用户要求的元素并创造用户需要的内容的能力。

例如：制作一张节日海报，融合太空探索主题与万圣节传统装扮。

2.创造不可能：评估大模型根据词汇特殊组合成的文本生成创造性的内容的能力。

例如：创作糖果制成的森林。

3.风格能力：评估大模型识别和理解每种风格的关键特征的能力，并能够将多种风格融合在一起，创造新风格。

例如：创作图像，赛博朋克风格的古代神庙。

维度四：效率

1.简单生成：评估大模型根据简单提示词生成图片的时间。

例如：生成一张简约风格的苹果树图片(约15s生成)。

2.复杂生成：评估大模型根据组合提示词生成图片的时间。

例如：呈现一张图像，一位古风美人在桃花盛开的园林中悠闲地品茶，她的旗袍上绣有精致的花鸟图案，与周围景色和谐相融(约16s生成)。

3. 评估方法与思路

参考SuperCLUE文生图细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1）测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt

参考当前已有工作，针对每一个维度构建专用的测评集。

2）评分方法

评估流程：1.获得中文prompt-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分

结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本送入超级模型进行评估，并获得每一个维度的评估结果。

进行评估与人类一致性分析，并报告一致性表现。

3）评分标准

# 评估案例

问题--图像--评估过程及打分

案例1：图像质量-用户情感

问题：展现一对恋人在烟花下深情相拥的画面，传达爱情的温馨与浪漫。

模型答案：

超级模型（gpt-4v）裁判：

根据您提供的图片以及评价指标，我们可以进行如下评分：

1.情感细腻程度：

图片中的恋人们紧密相拥，在烟花的映衬下，他们之间的情感细腻且复杂，不仅传达了爱情的温馨，还有一种浪漫与幸福的氛围。他们的表情和身体语言表现出亲密和深深的爱意。

得分：5/5

2.情感范围：

图片强烈地传达了爱情这一核心情感，但除此之外，情感状态可能不是很多样。由于重点是恋人之间的情感交流，所以可能并没有展现出更多种类的情感状态，如愤怒或惊讶等。

得分：4/5

3.回应的个性化：

个性化通常涉及到对特定个体的情感状态的回应。由于这是一张静态图片，它无法展示动态的个性化互动。但是，如果我们假设这幅画是根据特定用户的要求（描述情感的细腻度和浪漫）定制的，那么它在一定程度上体现了对这种要求的个性化回应。

得分：4/5

所以，这幅画的加权平均分大约为 4.33 分（满分为 5 分）。

案例2：图文一致性-中文语境之诗词意象

问题：生成图画：“对酒当歌，人生几何”。

模型答案1：

超级模型（gpt-4v）裁判：

根据您提供的图片以及评价指标，我们可以进行如下评分：

1.基础知识把握与描述：

图片展示了一位身着传统服饰的人物，在柳树下对着夕阳饮酒，旁边是一张书桌，上面摆放着茶壶和茶杯，还有一个古筝。地面铺着几张展开的书卷，上面书写着汉字。整个场景营造了一种古典诗意的氛围。

得分：5/5

2.上下文理解与深入分析：

描述的场景符合“对酒当歌，人生几何”的诗意，展现了中国古代文人饮酒吟诗的惬意生活，体现了人与自然和谐共处的理念。夕阳和宁静的湖面强化了对生命哲学的沉思，即在有限的人生中应当把握当下，享受生活中的美好时光。

得分：5/5

3.历史与文化融合的阐释：

这幅图不仅复现了古代文化的场景，而且通过细节的描绘，如书桌上的文房四宝、古筝等元素，体现了中国深厚的文化传统。通过这样的细节，图画彰显了对历史和文化的尊重和传承。

得分：5/5

综上所述，每项得分均为满分，所以整体加权平均分也为5分。这幅画对中国的元素进行了深刻的展现，不仅在视觉上呈现出美感，在文化传达上也非常成功。

综上，这张图片的总体加权平均得分为5分。

模型答案2：

超级模型裁判：

由于我无法直接识别或评论真实人物的身份，我将侧重于对图片的艺术元素和意象进行评价。

1.基础知识把握与描述：

画面中展示了一个微笑的男性，坐在桌前，桌上有一瓶酒和一杯已经倒满酒的玻璃杯，以及一个橙色的水果。
人物的表情传达了愉悦和享受的情绪，与“对酒当歌，人生几何”中的快乐和畅饮的主题相契合。
画面采用了温暖的色调，营造了一种愉悦和舒适的氛围。

得分：5/5

2.上下文理解与深入分析：

该画面很好地捕捉到了诗句“对酒当歌，人生几何”的情感基调，即在饮酒作乐中反思人生的短暂。
男性的笑容和放松的姿态反应了对当前欢乐时光的享受，而不是过分担忧未来或过去，这与诗句中体现的及时行乐的哲学相吻合。
橙色水果可能代表着生活中的简单乐趣，而酒则是传统上用于庆祝和沉思的饮品。

得分：5/5

3.历史与文化融合的阐释：

图片中的酒文化在中国有着悠久的历史，常常与诗歌、音乐和朋友相伴，作为人生享受和文化表达的一部分。
然而，图片中没有明显的中国特定历史或文化元素展示，如中国传统服饰、酒器或环境装饰等，这些可能会更直接地反映出中国的历史和文化背景。
为了更丰富地阐释“对酒当歌，人生几何”在历史文化融合上的意义，可能需要在画面中加入更多具有中国传统象征的元素。

得分：3/5

加权平均分计算：

由于没有具体的权重指标给出，若每个标准等权重，则加权平均分为4.33分。

案例3：内容创作-组合元素

问题：制作一张节日海报，融合太空探索主题与万圣节传统装扮

模型答案：

超级模型(gpt-4v)裁判：

1.组合元素的视觉识别：

颜色：海报使用了鲜明的橙色调，与万圣节的主题色调相匹配，同时也与太空服的颜色相呼应。
形状：太空服和南瓜的形状被清晰地展示出来，符合太空探索与万圣节的元素。
纹理：图像中的材质，如太空服的金属质感、南瓜的表面纹理等，都被细致地表现出来。

得分：4.5/5

2.组合元素的和谐与对比分析：

和谐度：太空服与南瓜在色彩和主题上都保持了一致性，构成了一个整体的故事。
对比度：明亮的太空服和南瓜与深色的太空背景形成对比，增强了视觉冲击力。

得分：4/5

3.组合元素的创意与整体效果评价：

创意：将太空探索与万圣节装扮结合的想法很有创意，且执行得当。
整体美学效果：整体视觉效果引人注目，形成了一个令人记忆深刻的画面。

得分：4.5/5

综上，这张图片的总体加权平均得分为4.33分。

# 测评规划（首批）

一、测评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

二、时间计划

1. 报名：5月7日----5月20日

2. 参测模型确认：5月20日

3. 测评执行：5月9日--5月22日

4. 测评结果统计：5月22--5月底

5. 测评报告发布：5月底

三、申请测评地址

邮件标题：SuperCLUE文生图测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、文生图大模型简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE-image

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

SuperCLUE-Image: 中文原生文生图测评基准

一、测评流程

二、时间计划

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

SuperCLUE-Image: 中文原生文生图测评基准

一、测评流程

二、时间计划

您可能也对以下帖子感兴趣