查看原文
其他

文生图大模型中文基准测评9月榜单公布,6大维度34大任务14大模型,国内大模型在文字创作能力上表现惊艳

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

文生图大模型目前正处于快速发展阶段,并已在多个领域进行了广泛应用,例如DALL-E、Midjourney等。这一革命性技术使得从文本生成视觉内容的过程变得更加便捷与高效,推动了艺术创作、内容制作以及教育等多个领域的创新。
SuperCLUE团队已于2024年6月12日发布首期中文文生图测评基准首期榜单,受到了中文技术社区的广泛关注和反馈。为了进一步全面的实时跟进国内外文生图大模型的阶段性进展,我们于近期正式发布了9月中文原生文生图测评基准SuperCLUE-Image报告。

9月测评摘要


测评要点1:DALL-E 3在综合能力上领跑DALL-E 3(72.91分)综合能力表现出色,领跑SuperCLUE-Image基准。较国内最好模型高1.39分。
测评要点2:国内文生图大模型有较大进展,其中文字创作和中华文化和元素任务上,有一定领先优势。国内文生图大模型在总体能力上进展较大。BlueLM-Art、混元文生图和豆包文生图均有65分以上的优异表现。其中在文字创作任务上,BlueLM-Art取得75.57分,有较大领先优势;在中华文化和元素任务上,豆包文生图则取得82.97分有超过DALL-E 3的表现。
测评要点3:国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升通过测评数据可以发现,海外文生图模型DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上,如图像质量、图文一致性和内容创造性方面有一定领先优势。国内文生图模型则仍有一定提升空间。



# 榜单概览

榜单地址:www.superclueai.com
详情请查看下方#正文。

# SuperCLUE-Image介绍

SuperCLUE-Image是中文文生图大模型综合性测评基准,旨在为中文领域提供一个文生图大模型多维度能力评估参考。
测评体系
SuperCLUE-Image基准包括6个一级维度和34个二级维度,以开放式问题形式对文生图大模型进行评估。

测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。

2)评分方法

对于每个任务类型都有一个或多个评价维度,每个维度按照评分标准分为5级,定义为1-5分。结合参考答案使用超级模型进行打分,模型回答的得分是对应各个维度得分的平均值。

3)评分标准

SuperCLUE-Image根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况,GPT-4o打分1-5分,综合各个标准的得分得到平均分。
详见下方#示例。
测评示例

示例任务:文字创作-广告与标识

提示词Prompt:一家中餐馆的传统风格招牌,文字内容为“老四川江湖菜”。

模型A生成图片:

超级模型(GPT-4o)裁判:
----逐项打分开始----
**内容完整性**:图像中的文字“老四川江湖菜”完整准确,符合用户的文本要求。
- 评分:5
**特征准确性**:招牌文字和周围灯笼装饰符合传统中餐馆的特征,但在川菜及地域文化特色的细微表达上可以有更多的细节和创意。
- 评分:4
**布局美观度**:文字排布合理,整体布局美观。但在视觉冲击力和传统元素的展现上还有进一步提升的空间。
- 评分:4
综上,本次测评综合得分为(5 + 4 + 4) / 3 = [[4.33]]
----逐项打分结束----

模型B生成图片:

超级模型(GPT-4o)裁判:
----逐项打分开始----
**内容完整性**:生成的图像文字内容与用户指定的"老四川江湖菜"不符,文字内容出现较大偏差。
- 评分:2
**特征准确性**:从传统中餐馆的风格来看,图像的设计符合但出现了无关的文字,整体文字特征吻合,但内容错误严重。
- 评分:2
**布局美观度**:
- 图像整体的文字布局美观且符合传统中餐馆的风格,尽管内容不对,但视觉效果和布局表现尚可。
- 评分:3
综上,本次测评综合得分为(2 + 3 + 4) / 3 = [[2.67]]。
----逐项打分结束----

# 参评模型

为综合衡量当前国内外文生图大模型发展水平,本次测评选取了4个海外模型和10个国内代表性文生图模型。

测评结果
总榜单

图像质量榜单

图文一致性榜单

复杂度适应性榜单

内容创造榜单

文字创作榜单

中华文化与元素榜单

# 模型对比示例

示例1:文字创作【非平面文字】

提示词Prompt:一个浅黄色的陶罐上,用行书字体写着“修身养性”。

模型回答比较:

BlueLM-Art(得分:4.67分):

混元文生图(得分:4分):

豆包文生图(得分:2.67分):

DALL·E 3(得分:2分):

文心一格(得分:2分):


示例2:图像质量【光影】

提示词Prompt:光线从窗户斜入的室内照,突出物体的边缘和层次。

模型回答比较:

DALL·E 3(得分:5分):

Flux.1 Pro(得分:5分):

文心一格(得分:4.75分):

豆包文生图(得分:4分):

Cogview3-Plus(得分:3.5分):


示例3:图文一致性【文本遵循】

提示词Prompt:繁星下的露营地,有帐篷和篝火

模型回答比较:

Flux.1 Pro(得分:4分):

混元文生图(得分:4分):

豆包文生图(得分:3.5分):

Wanx-v1(得分:3分):

示例4:复杂度适应性【复杂生成】

提示词Prompt:一位科学家在实验室中研究新型能源,试管和仪器组成了他前沿科技的工作台。

模型回答比较:

DALL·E 3(得分:4.67分):

BlueLM-Art(得分:4分):

豆包文生图(得分:4分):

Midjourney(得分:4分):

星火绘图(得分:2.33分):

示例5:内容创造【组合元素】

提示词Prompt:结合深海探险与古代海洋神话的元素。

模型回答比较:

Flux.1 Pro(得分:4分):

BlueLM-Art(得分:4分):

天工AI(得分:2分):

示例6:中华文化与元素【民族风情】

提示词Prompt:描绘一个穿着传统藏族服饰、脸晒得通红的小男孩。

模型回答比较:

豆包文生图(得分:4.5分):

天工AI(得分:3.5分):

美图AI(得分:2.5分):

Cogview3-Plus(得分:2.5分):

示例7:中华文化与元素【传统技艺】

提示词Prompt:一个红衣女子坐在舞台上演奏古筝。

模型回答比较:

Midjourney(得分:4.5分):

BlueLM-Art(得分:4分):

Cogview3-Plus(得分:3分):

# 人类一致性评估

为确保大模型自动化测评的科学性,我们对GPT-4o在文生图评价任务中的人类一致性进行了评估。
具体操作方法为:抽取4个模型,按任务类型进行分层抽样,对各模型对应的120个任务输出答案的质量进行人工评价,并与GPT-4o的评分进行比较,考察GPT-4o评价与真实情况的吻合程度,给出相应的评分(优秀/良好/及格/不及格)。
最终得到的人类一致性评估结果(合格率)如下:
  • 模型1:98.99%

  • 模型2:94.95%

  • 模型3:94.50%

  • 模型4:94.28%
平均合格率为:95.68%。因为本次自动化评价有较高可靠性。

# 测评分析及结论

1.文生图综合能力,DALL-E 3保持领先。

由测评结果可知,DALL-E 3(72.91分)综合能力表现出色,领跑SuperCLUE-Image基准。较国内最好模型高1.39分。

2.国内文生图大模型有较大进展,其中文字创作和中华文化和元素任务上,有一定领先优势。
国内文生图大模型在总体能力上相较于6月份有较大进展。BlueLM-Art、混元文生图和豆包文生图均有65分以上的表现。其中,在文字创作任务上,BlueLM-Art取得75.57分,有较大领先优势;在中华文化和元素任务上,豆包文生图取得82.97分有超过DALL-E 3的表现。

3.国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升

通过测评数据可以发现,DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上,如图像质量、图文一致性和内容创造性方面表现优异。国内文生图模型需要进一步提升基础核心文生图能力。

# 年度报告征集

为了更全面综合评估中文文生图大模型的阶段性进展,SuperCLUE团队即将发布《2024年度中文多模态大模型进展评估报告》。现邀请各厂商参与文生图基准年度测评,并征集优秀文生图大模型和优秀应用案例。

年度报告发布时间:2024年12月18日。

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题:文生图年度测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、文生图模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存