文生图大模型中文基准测评9月榜单公布,6大维度34大任务14大模型,国内大模型在文字创作能力上表现惊艳
9月测评摘要
测评要点2:国内文生图大模型有较大进展,其中文字创作和中华文化和元素任务上,有一定领先优势。国内文生图大模型在总体能力上进展较大。BlueLM-Art、混元文生图和豆包文生图均有65分以上的优异表现。其中在文字创作任务上,BlueLM-Art取得75.57分,有较大领先优势;在中华文化和元素任务上,豆包文生图则取得82.97分有超过DALL-E 3的表现。
测评要点3:国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升通过测评数据可以发现,海外文生图模型DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上,如图像质量、图文一致性和内容创造性方面有一定领先优势。国内文生图模型则仍有一定提升空间。
# 榜单概览
# SuperCLUE-Image介绍
1)测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。2)评分方法
对于每个任务类型都有一个或多个评价维度,每个维度按照评分标准分为5级,定义为1-5分。结合参考答案使用超级模型进行打分,模型回答的得分是对应各个维度得分的平均值。3)评分标准
SuperCLUE-Image根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况,GPT-4o打分1-5分,综合各个标准的得分得到平均分。详见下方#示例。
示例任务:文字创作-广告与标识
提示词Prompt:一家中餐馆的传统风格招牌,文字内容为“老四川江湖菜”。
模型A生成图片:
模型B生成图片:
为综合衡量当前国内外文生图大模型发展水平,本次测评选取了4个海外模型和10个国内代表性文生图模型。
内容创造榜单
文字创作榜单
# 模型对比示例
提示词Prompt:一个浅黄色的陶罐上,用行书字体写着“修身养性”。
模型回答比较:
BlueLM-Art(得分:4.67分):
混元文生图(得分:4分):
豆包文生图(得分:2.67分):
DALL·E 3(得分:2分):
文心一格(得分:2分):
提示词Prompt:光线从窗户斜入的室内照,突出物体的边缘和层次。
模型回答比较:
DALL·E 3(得分:5分):
Flux.1 Pro(得分:5分):
文心一格(得分:4.75分):
豆包文生图(得分:4分):
Cogview3-Plus(得分:3.5分):
提示词Prompt:繁星下的露营地,有帐篷和篝火
模型回答比较:
Flux.1 Pro(得分:4分):
混元文生图(得分:4分):
豆包文生图(得分:3.5分):
Wanx-v1(得分:3分):
提示词Prompt:一位科学家在实验室中研究新型能源,试管和仪器组成了他前沿科技的工作台。
模型回答比较:
DALL·E 3(得分:4.67分):
BlueLM-Art(得分:4分):
豆包文生图(得分:4分):
Midjourney(得分:4分):
星火绘图(得分:2.33分):
提示词Prompt:结合深海探险与古代海洋神话的元素。
模型回答比较:
Flux.1 Pro(得分:4分):
BlueLM-Art(得分:4分):
天工AI(得分:2分):
提示词Prompt:描绘一个穿着传统藏族服饰、脸晒得通红的小男孩。
模型回答比较:
豆包文生图(得分:4.5分):
天工AI(得分:3.5分):
美图AI(得分:2.5分):
Cogview3-Plus(得分:2.5分):
提示词Prompt:一个红衣女子坐在舞台上演奏古筝。
模型回答比较:
Midjourney(得分:4.5分):
BlueLM-Art(得分:4分):
Cogview3-Plus(得分:3分):
# 人类一致性评估
模型1:98.99%
模型2:94.95%
模型3:94.50%
模型4:94.28%
# 测评分析及结论
由测评结果可知,DALL-E 3(72.91分)综合能力表现出色,领跑SuperCLUE-Image基准。较国内最好模型高1.39分。
3.国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升
通过测评数据可以发现,DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上,如图像质量、图文一致性和内容创造性方面表现优异。国内文生图模型需要进一步提升基础核心文生图能力。
为了更全面综合评估中文文生图大模型的阶段性进展,SuperCLUE团队即将发布《2024年度中文多模态大模型进展评估报告》。现邀请各厂商参与文生图基准年度测评,并征集优秀文生图大模型和优秀应用案例。
年度报告发布时间:2024年12月18日。
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:文生图年度测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、文生图模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark