文生视频大模型测评结果8月首发!AIGV-t2v基准新增4大模型
总榜单
六大场景得分
排行榜地址:www.SuperCLUEai.com
# 测评体系
AIGVBench-T2V文生视频测评体系包括测评指标与应用场景,其中测评指标汇总如下:
文生视频测评设置了六大应用场景:资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下:
# 测评方法
在本研究中,我们通过使用具备视频理解的超级模型(Gemini-1.5-Pro),对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:
1.任务分配与数据采集:
2.评分标准与提示词使用:
Gemini-1.5-Pro根据预先定义的提示词(prompt)进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求,确保评分的一致性和公正性。
例如,对于感官质量的评分,提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。
3.自动化评分:
每个一级维度都会得到一个分数,例如,在SUV汽车内部空间及外部风景的视频任务中,如果视频在不同帧中保持汽车内饰和外景的外观一致性,展示高分辨率的稳定画面,以及真实且视觉吸引力强的构图,那么其视频感官质量将获得高分评价。
4.综合评分与反馈:
最终,我们将三个一级维度的平均分计算出来,作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。
# 测评示例
---逐项打分开始---
我的思考与答案:
该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰,但缺乏动漫风格的特征,例如明显的线条感、夸张的表情等。
问题及改进的反馈意见:
1. 可以尝试使用卡通渲染或其他技术,使画面呈现出明显的动漫风格。
2. 小猫的眼神可以更加专注,例如放大瞳孔、增加眼神的细节等。
打分与评价开始:
1. 基于标准1(视频感官质量评估):
- 外观一致性:小猫和鱼的外观在不同帧之间保持一致。得分:5分
- 画面稳定性:画面清晰稳定,没有明显的噪点和失真。得分:4分
- 构图真实性:小猫和鱼缸的比例协调,整体布局符合认知。得分:4分
- 视觉美观度:画面较为清晰,但缺乏动漫风格的特征。得分:2分
一级维度得分:(5+4+4+2)/4 = 3.75
2. 基于标准2(文本指令遵循能力):
- 对象准确性:视频中出现了小猫、鱼缸和小鱼,符合文本描述。得分:5分
- 数量准确性:小猫、鱼缸和小鱼的数量均符合文本描述。得分:5分
- 要素完整性:视频展现了小猫盯着鱼缸里游动的小鱼的场景,符合文本描述。得分:5分
- 特征精准性:小猫盯着小鱼,表现出好奇或渴望的神情,符合文本描述。得分:4分
一级维度得分:(5+5+5+4)/4 = 4.75
3. 基于标准3(物理真实模拟能力):
- 流体动力表现:鱼缸内的水流效果较为自然。得分:4分
- 动态真实性:鱼的游动姿态较为自然,但小猫的动作略显僵硬。得分:3分
- 光影效果:光影效果较为平淡,可以尝试增强明暗对比,突出立体感。得分:3分
- 交互仿真度:小猫和鱼之间缺乏互动,例如小猫可以尝试用爪子抓鱼。得分:2分
一级维度得分:(4+3+3+2)/4 = 3
综合以上,AI助手的回答的综合得分(平均分)为:[(3.75 + 4.75 + 3) / 3 = 3.83]
----逐项打分结束----
总榜单
高级难度任务榜单
基础难度任务榜单
六大场景得分
# 模型对比案例
提示词1:生成一辆汽车连续穿过森林、山地、浅滩的广告视频。
【PixVerse V2】:3.75分
提示词2:在一个半导体工厂中,一个工程师模样的老年男子正在接受采访,背景是芯片产品的生产线。
【Runway Gen-3】:4.83分
【PixVerse V2】:3.47分
【Runway Gen-3】:4.42分
【PixVerse】:3.25分
【可灵网页版】:3.61分
Runway Gen-3 在各个场景中的评分普遍较高,尤其是在资讯(81.9分)、影视(79.18分)和短视频(80.18分)方面表现尤为突出,显示出其在多种应用场景中的强大能力。智谱清影由智谱华章开发,以75.08分排名国内第一,特别擅长文本指令遵循。可灵网页版由快手开发,以75.02并列国内第一,表现稳定可靠。PixVerse V2 由爱诗科技开发,以73.32分排名国内第二,表现均衡且适应性强。
在中国文化场景中,智谱清影(76.65)和 Dreamina即梦(82.00)表现优异,特别是 Dreamina即梦在这一场景下得分最高,达到82.00。这表明这些国内模型在处理与中国文化相关的视频生成任务时具备显著优势,能够更好地理解和呈现中国文化元素,适合用于本土化的内容创作。
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
# 邮件申请
邮件标题:视频生成测评申请,发送到contact@superclue.ai
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark