查看原文
其他

文生视频大模型测评结果8月首发!AIGV-t2v基准新增4大模型

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

2024年7月31日,中文专用的多层次文生视频基准测评AIGVBench-T2V发布更新,新增了四大模型:Runway Gen-3智谱清影可灵网页版PixVerse V2
本次更新进一步丰富了测评基准的广度和深度。其中,Runway Gen-3 是由位于美国的公司 Runway 开发,代表了海外模型的先进水平。与此同时,智谱清影、可灵网页版和 PixVerse V2 均由国内领先的人工智能公司研制,展示了中国在视频生成技术领域的卓越成果。AIGVBench 通过引入这些新模型,旨在为用户提供更全面的评测数据,帮助他们在选择视频生成工具时作出更为明智的决策,促进中文视频生成领域的研究、开发与技术创新。
测评结果首览

总榜单

六大场景得分

排行榜地址:www.SuperCLUEai.com

官网地址:www.CLUEbenchmarks.com
AIGVBench登录页:www.AIGVBench.com

# 测评体系

AIGVBench-T2V文生视频测评体系包括测评指标与应用场景,其中测评指标汇总如下:

文生视频测评设置了六大应用场景:资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下:

# 测评方法

在本研究中,我们通过使用具备视频理解的超级模型(Gemini-1.5-Pro),对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:

1.任务分配与数据采集:

我们从待评估的模型或产品中选取了100个预设任务,这些任务代表了不同的视频生成需求,包括了6大应用场景。例如,一个任务可能是根据给定的文本描述一辆SUV汽车内部空间及外部风景的视频。

2.评分标准与提示词使用:

Gemini-1.5-Pro根据预先定义的提示词(prompt)进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求,确保评分的一致性和公正性。

  • 例如,对于感官质量的评分,提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。

3.自动化评分:

Gemini-1.5-Pro将根据视频的感官质量、文本指令的遵循程度、以及视频中物理现象的真实模拟能力进行自动化评分。
  • 每个一级维度都会得到一个分数,例如,在SUV汽车内部空间及外部风景的视频任务中,如果视频在不同帧中保持汽车内饰和外景的外观一致性,展示高分辨率的稳定画面,以及真实且视觉吸引力强的构图,那么其视频感官质量将获得高分评价。

4.综合评分与反馈:

最终,我们将三个一级维度的平均分计算出来,作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。

结果将以统一的输出格式提供,包括每个单独任务的详细评分和总体评价。具体见【测评示例】。
通过上述流程,我们的测评方法,提供了一个客观、细致的技术评估框架,可以精确地评价和指导视频生成领域的技术发展。这种评估不仅帮助开发者理解产品性能,在实际应用中也极具参考价值,尤其是在优化和调整视频生成模型时。
此外,我们还以分层抽样的方式,从4个待测模型或产品中选出100个预设任务的输出,对视频质量与大模型评价的一致性进行主观打分,作为本次测评可信度的一个参考(具体见【人类一致性评估】)。
# 新增模型

注:执行测试的时间为2024年7月29日~2024年7月31日。

# 测评示例

【测评模型】:可灵
【应用场景】:影视
【提示词】:生成动漫风格的视频,一只小猫盯着鱼缸里游动的小鱼发呆。
【生成视频】:如下

【评价打分】:

----

---逐项打分开始---

我的思考与答案:

该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰,但缺乏动漫风格的特征,例如明显的线条感、夸张的表情等。

问题及改进的反馈意见:

1. 可以尝试使用卡通渲染或其他技术,使画面呈现出明显的动漫风格。

2. 小猫的眼神可以更加专注,例如放大瞳孔、增加眼神的细节等。

打分与评价开始:

1. 基于标准1(视频感官质量评估):

- 外观一致性:小猫和鱼的外观在不同帧之间保持一致。得分:5分

- 画面稳定性:画面清晰稳定,没有明显的噪点和失真。得分:4分

- 构图真实性:小猫和鱼缸的比例协调,整体布局符合认知。得分:4分

- 视觉美观度:画面较为清晰,但缺乏动漫风格的特征。得分:2分

一级维度得分:(5+4+4+2)/4 = 3.75

2. 基于标准2(文本指令遵循能力):

- 对象准确性:视频中出现了小猫、鱼缸和小鱼,符合文本描述。得分:5分

- 数量准确性:小猫、鱼缸和小鱼的数量均符合文本描述。得分:5分

- 要素完整性:视频展现了小猫盯着鱼缸里游动的小鱼的场景,符合文本描述。得分:5分

- 特征精准性:小猫盯着小鱼,表现出好奇或渴望的神情,符合文本描述。得分:4分

一级维度得分:(5+5+5+4)/4 = 4.75

3. 基于标准3(物理真实模拟能力):

- 流体动力表现:鱼缸内的水流效果较为自然。得分:4分

- 动态真实性:鱼的游动姿态较为自然,但小猫的动作略显僵硬。得分:3分

- 光影效果:光影效果较为平淡,可以尝试增强明暗对比,突出立体感。得分:3分

- 交互仿真度:小猫和鱼之间缺乏互动,例如小猫可以尝试用爪子抓鱼。得分:2分

一级维度得分:(4+3+3+2)/4 = 3

综合以上,AI助手的回答的综合得分(平均分)为:[(3.75 + 4.75 + 3) / 3 = 3.83]

----逐项打分结束----

测评结果

总榜单

高级难度任务榜单

基础难度任务榜单

六大场景得分


# 模型对比案例

提示词1:生成一辆汽车连续穿过森林、山地、浅滩的广告视频。

【Runway Gen-3】:4分
【智谱清影】:4.17分
【可灵网页版】:3.83分

【PixVerse V2】:3.75分


提示词2:在一个半导体工厂中,一个工程师模样的老年男子正在接受采访,背景是芯片产品的生产线。

【Runway Gen-3】:4.83分

【PixVerse V2】:3.47分



提示词3:生成动漫风格的视频,一只金色的凤凰和一条黑色的恶犬在空中斗法,天空中乌云密布、电闪雷鸣。

【Runway Gen-3】:4.42分

【PixVerse】:3.25分

【可灵网页版】:3.61分


# 测评分析及结论
1.Runway Gen-3 在综合得分和多项指标中表现最佳

Runway Gen-3 在各个场景中的评分普遍较高,尤其是在资讯(81.9分)、影视(79.18分)和短视频(80.18分)方面表现尤为突出,显示出其在多种应用场景中的强大能力。智谱清影由智谱华章开发,以75.08分排名国内第一,特别擅长文本指令遵循。可灵网页版由快手开发,以75.02并列国内第一,表现稳定可靠。PixVerse V2 由爱诗科技开发,以73.32分排名国内第二,表现均衡且适应性强。

2.智谱清影和 Dreamina即梦在中国文化场景中表现突出

在中国文化场景中,智谱清影(76.65)和 Dreamina即梦(82.00)表现优异,特别是 Dreamina即梦在这一场景下得分最高,达到82.00。这表明这些国内模型在处理与中国文化相关的视频生成任务时具备显著优势,能够更好地理解和呈现中国文化元素,适合用于本土化的内容创作。


3.国内模型在高难度任务中表现强劲:
国内模型如智谱华章的智谱清影(75.24)和字节跳动的 Dreamina即梦(75.80)在高难度任务中表现优异,分别位列国内第三和第一。此外,快手的可灵网页版(73.13)和可灵(70.98)也表现不俗,进入国内前五。这显示了国内模型在高难度任务处理上的强劲实力和竞争力。



# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5获得测评报告

# 邮件申请

邮件标题:视频生成测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、视频生成模型类型及简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存