YouKu-mPLUG最大中文视频数据集和Benchmark,助力多模态大型模型发展
mPLUG-video 在以上的基准测试中取得了新的 SOAT 结果:在视频分类方面性能提高了高达 23.1%,在视频描述生成任务上的 CIDEr 指标上获得 68.9 的高分。借助于大语言模型 Bloomz 和 GPT-3,mPLUG-video 仅使用 1.7% 的训练参数就可以显著提升对人类指令的和视频内容的理解能力,效果显著好于 video-LLaMA 等大模型效果。
代码链接:
mPLUG系列工作:
https://github.com/X-PLUG
Youku-mPLUG 中的数据例子如下:
mPLUG-video 可以准确指出下面视频中的关键角色是“奥特曼”,而其他两个视频大模型明显不能给出准确答案。
这导致了两个重要问题:首先,该社区的发展和应用已经滞后。其次,一些研究能够通过使用其他研究无法公平比较的秘密下游基准测评获得惊人的性能,从而使得建立性能评估标准变得困难。因此,该工作构建的公开的预训练数据集和评测基准是有重要意义的。
1.2 预训练数据集构建过程
为保证高质量,团队对视频和文本进行了严格的数据清洗。针对文本,要求视频标题长度在 5 到 30 个字之间,而且至少包含 5 个汉字,同时过滤明显的广告和无意义内容。对于视频质量和完整度,团队特别挑选了近期上传的视频,长度在 10 到 120 秒之间,以确保内容清晰完整。此外,还运用了中文图像文本预训练模型 CLIP 来过滤那些特征和图像特征相似度较低的视频。图 3 呈现了视频时长和标题长度的分布情况。
1.3 构造下游任务基准测评
论文使用视频文本检索、视频类别预测和视频描述生成三种类型的下游任务来评估模型在理解和生成方面的能力。表 3 总结了用于这三种任务的统计数据:
视频类别预测(Video Category Classification)
论文开始使用优酷的分类预估模型来给视频自动生成类别,但发现准确率只有 94%,这个结果不太让人满意。因此论文开始使用人工标准的方法,在招聘到一批标记的员工后,首先要对标注员进行筛选,每个标注员会对 100 个视频进行打标,如果错误率达到 2.5% 就判定为不合格。在筛选到合适的标注员后,为了保证最高的准确率,又额外使用了三名标记员来复核每个视频的的标记结果。
在预标注阶段结束,标注员会继续对数据进行标注,为了防止数据穿越,同一个视频的片段或者有相似标题的视频会专门分配到训练集或者测试集。此外,研究团队还招募了三个以上的标注员来标注视频片段,用来验证和测试视频的多样性和质量。
视频文本检索(Video-Text Retrieval)
论文从上述已经标注的视频字幕中选择部分子集作为视频文本检索任务的文本 query。此外,视频的标题也会合并到文本 query 中以增强文本 query 的多样性。
mPLUG-video
具体地,视频编码器使用了 12 层的 TimeSformer。进一步,为了降低长视频序列的计算复杂度,论文引入了视觉抽取模块,它利用可学习的大小为 M×D 的 query 来减少视频序列的长度,其网络结构包括 cross-attention 和 FFN。将预训练的大语言模型作为通用的文本解码器。此时需要将视频看成是外语(video-guidded language),然后将缩减后的视频序列与从文本 embedding 层获取的 token 特征 concat 起来输入到大语言模型中,最后这种视频引导的语言特征会预测输出下一个 token。
2.2 预训练阶段-训练目标
论文用自回归的方式(auto-regressive)的方式训练 mPLUG-video,训练任务为预测下一个词,即模型需要根据给定的视频补全文本,大语言模型的损失函数如下:
2.3 应用到下游任务阶段-训练目标
视频描述自动生成(Video Captioning)
视频描述生成是一种自回归任务。论文在对视频描述数据集进行微调的过程中,训练目标和与预训练目标保持一致。
视频类别预测(Video Category Classification)
视频分类预测任务也可以看成是视频描述生成任务,分类预测任务评估的是预估类别的准确率。
视频文本检索(Video-Text Retrieval)
与 mPLUG-2 不同,mPLUG-video 不能直接应用于检索任务。因此论文将视频-文本对输入到模型中并提取最后一个 token 的特征,然后通过对最后一个 token 应用一个额外的线性层来获取匹配的得分。mPLUG-2 也是达摩院发布的图/文/视频通用的大模型。
实验结果
从表 5 中可以看到在视频-文本检索任务上,mPLUG-video 的效果却不如 mPLUG-2,这是因为冻结语言模型的参数会影响 mPLUG-video 提取跨模态特征,这也表明论文发布的 Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。
3.2 在zero-shot视频指令理解上的人工评测
为了测试不同模型的视频指令理解能力,论文在 50 个随机采样的视频(45 个来自 Youku-mPLUG,5 个来自 HD-VILA-100M)上手动设置了 65 条指令并要求标注员对每个模型的响应结果进行打分,打分分为 A、B、C、D 四个等级,其中A表示“正确且令人满意”;B 表示“有一些不完美,但可以接受”;C 表示“理解了指令但是回复存在明显错误”;D 表示“完全不相关或不正确的回复”。如图 5 所示,使用预训练的 mPLUG-video 模型在视频指令的响应效果上取得了最好的结果。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧