文生图技术已在人工智能领域取得重要进展,使计算机能够依据文本描述生成图像。特别是在中文场景中,此技术不仅改变了内容创作方式,还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。目前,国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内模型如百度文心一言已在中文文生图领域做出尝试,但理解和生成具有中文文化特色的复杂图像依然具有挑战。为此,我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计,提供全面公正的评估框架,覆盖生成质量、多样性和文本一致性等方面的表现,以推动技术的标准化和国际化,加速其在更多实际应用场景的应用。SuperCLUE排行榜网站:www.superclueai.com
# SuperCLUE-Image
1. 特点
立足于为通用人工智能时代提供中文世界测评基础设施,文字输入或提示词(prompt)都是中文原生的,不是英文或其翻译版本;并充分体现中文世界的场景和特点,比如识别并融入我国的习俗和文化元素,比如根据中国文化元素生成具有中国风的图片,不仅展现了图像美学,也蕴含了丰富的文化内涵。该体系深入探讨了大型模型利用图片还原场景的能力,包括评估模型是否能根据用户提供的提示词生成符合预期的图片。通过构图、光影、色彩、细节处理等方面评价大型模型生成图片的质量,同时对其生成的图片进行内容创造能力的评估。本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题,突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试,评估模型在理解和生成各种复杂场景下图像的能力,从而体现其在捕捉细节精确性和文化深度方面的卓越表现,证明了其在多种场景中的实用性和创新性。
2. 任务方向与评价体系
a.图像质量:考察模型是否基于人类的美学标准,生成的图像是否符合视觉感知和普遍审美偏好,且不仅需要在技术上达标,还要在视觉和情感上与人类的审美共鸣。
b.图文一致性:考察模型生成的图像是否全面包括文本提到的信息,模型能否精确地理解文本中的字面意义。
c.内容创造:考察模型是否具备组合用户要求的元素创造用户需要的内容的能力。
d.复杂度适应性:评估模型在面对不同复杂度的文本描述时的适应能力和表现,包括简单描述和复杂描述的生成效果。
2.2 评价标准
2.3 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
通过单轮问答形式,使用API 调用方式来获取模型的答案。2)评价获取
对于每个任务类型都有一个或多个评价维度,每个维度按照评分标准分为5级,定义为1-5分。结合参考答案使用超级模型进行打分,模型回答的得分是对应各个维度得分的平均值。例如“图片质量”中的“图片保真度之辨识难度”任务,设定四个评价打分维度:a.满足基本需求:图片应当严格满足问题中的所有要点,图片中必须包括文字中描述的所有元素,以及准确完整地展现文字中描述的事件的过程,并且如果出现人物,人物的五官(包括眼睛、耳朵、鼻子、嘴巴)和身体躯干、四肢应当细节完整,清晰和正常人一样,符合现实世界的规律。如果图片中没有完整地展现文字中要求的所有内容,或者人物的五官或身体躯干、四肢出现细节扭曲,细节模糊以及出现明显不合理的情况,则本项评分必须打低分(不超过2分)。由于本项要求是图像质量的基础,所以如果本项的得分低于或等于2分,那么之后的每项评分最高只能评为3分;b.基本图像属性辨识:考察图像的纹理,清晰度,颜色是否能被区分为真实或生成的图片;c.环境与上下文一致性:图像中光照方向和阴影是否自然,以及它们是否与环境一致,物体的空间定位和相互关系是否符合真实世界的逻辑;d.图像细节中的微妙不一致之处:如皮肤纹理、反光和微小物体的边缘。3)计算模型得分
本次测评共设置单轮问答题目660道,最终通过计算各模型以上660个问题的答案均值,并通过归一化为百分制分数作为模型的测评得分。4)测评过程示例(以GPT 4o为例)
问题及改进的反馈意见:
总体而言,这是一张高质量的图片,并且很好地诠释了用户的问题。然而,有些元素显得不够精致,比如某些果蔬看起来略微人工。同时,没有人物出现在图像中,所以无法评价人物细节。打分与评价开始:
1. 基于标准1的<满足基本需求>:这张图片包括了大量新鲜的果蔬,布满整个摊位,并且整体展示符合用户描述的“装满新鲜果蔬的农夫市场摊位”。除果蔬外,周围环境也与农夫市场一致。由于图像中没有涉及到人物,因此无法评价人物的细节。基于标准1的得分:4分。 2. 基于标准2的<基本图像属性辨识>:图像有良好的清晰度和色彩,再现了新鲜果蔬的自然色彩和纹理。但部分果蔬的质感显得有些人工。基于标准2的得分:4分。3. 基于标准3的<环境与上下文一致性>:光照和阴影看起来自然且与环境一致,摊位和果蔬在空间关系上布局合理,符合现实情景。基于标准3的得分:5分。
4基于标准4的<图像细节中的微妙不一致之处>:整体细节表现良好,但仔细观察一些果蔬的边缘和表面可能会发现些许人工痕迹。肌理和微小物体的边缘处理中存在微小不一致。基于标准4的得分:4分。
综合以上,AI助手的回答的综合得分(平均分)为[[4.25]]
为了验证本次测评标准的可靠性与数据集的实用性,在进行正式测评之前,我们选取了两个国内外具有代表性的模型进行了测评可靠性实验,具体实验过程如下:我们从660道题目中针对2个模型,每个模型随机抽取了103道题目进行人工复审,审核内容及标准包括:基本符合自己的判断:及格(60或以上)或良好(75或以上);特别符合自己的判断,评价的特别好:优秀(85或以上)
由此可见,本次测评的可靠性较高。
# 测评结果
总成绩榜单
任务大类榜单
图像质量榜单
图文一致性榜单
内容创造榜单
图片复杂度榜单
# 测评分析
在中文文生图总体能力上,国内外模型有一定差距。DALL·E 3以76.94的高分较为领先,是唯一得分超70分以的文生图模型;紧随其后的是百度的文心一格与vivo的BlueLM-Art,取得国内最好成绩;另外,智谱AI的Cogview3、字节跳动的豆包和昆仑万维的天工AI表现同样不俗,均有65分以上的表现。DALL·E 3在各项指标上均有优异表现,特别是在图片质量、效率和内容创造方面展现出很强的竞争力。文心一格和 BlueLM-Art(vivo)在国内模型中表现也较为出色,但在图文一致性方面有提升空间。其余模型在图文一致性与内容创作的能力均有很大的改进空间。
在SC-Image图像质量测评中,DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗,BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。
在SC-Image图文一致性测评中,国内外模型均得分不高。相对来说,DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高,表现不俗。
在SC-Image内容创造测评中,DALL·E 3展现较大的领先优势,CogView3在风格创造上展现了很高的水准,而文心一格在组合元素创造性上表现不俗。
在SC-Image复杂度适应性测评中,BlueLM-Art和豆包对于复杂任务上有很好的生成能力,通义万相在简单任务上表现不俗。
# 示例
问题:一张街头嘉年华的图像,面具装饰着亮银色羽毛和宝石般的红宝石色点彩。
模型回答比较:
问题:一个红色的苹果。
问题:现实中不可能存在的景象图片,宝石生长的树木。
示例4:复杂度适应性【简单生成】
问题:一张正方形和圆形来组合的机器人图像。
# 测评申请
一、测评流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
二、申请测评地址
本次测评为首批大模型测评,后续会持续更新专用文生图大模型测评结果,欢迎文生图大模型研发机构申请报名。
邮件标题:SuperCLUE-Image文生图大模型测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Image