GPT-4o能力大幅领先！迈向长上下文的多模态模型评估基准MileBench

Original 让你更懂AI的 PaperWeekly

2024-08-23

🚀 GPT-4o 的超强多模态长上下文能力备受瞩目！ 然而，现有评估基准往往忽视了长文本和多图像任务的复杂性。为了解决这一问题，我们推出了首个专为测试 MLLMs 在多模态长上下文中表现的基准——MileBench！

📊 评估结果显示，尽管闭源模型在某些任务中表现出色，但开源模型在长文本任务上仍有很大提升空间。详情请阅读我们的最新研究！

引言

随着多模态大语言模型（MLLMs）如 GPT-4V、Gemini、LLaVA 等的迅速发展，MLLMs 在各种多模态任务中表现出了惊人的性能。然而，现有的评估基准主要集中在单图像和短文本样本上，这未能充分反映现实世界中复杂和多样化的情景需求。本文将介绍我们最新推出的基准——MileBench，它专为测试 MLLMs 在长文本和多图像任务中的表现而设计。

论文标题：

MileBench: Benchmarking MLLMs in Long Context

项目主页：

https://milebench.github.io/

论文地址：

https://arxiv.org/abs/2404.18532

代码地址：

https://github.com/MileBench/MileBench

数据地址：

https://huggingface.co/datasets/FreedomIntelligence/MileBench

背景与动机

近年来，MLLMs在许多领域展示了卓越的能力，但现实应用中常常需要处理长文本和多图像任务，包括基于多轮对话的多图像任务、动作预测任务、3D空间导航任务以及包含图像的维基页面理解任务等。这些任务对模型在长文本和多图像情境下的处理能力提出了更高的要求。

现有评估基准的局限

现有的评估基准，如 LLaVA、MMBench 和 SEED-Bench 等，主要集中在单图像和短文本样本，未能充分捕捉现实世界中的复杂性和多样性。尽管一些基准评估了多图像任务，但其提供的图像数量有限，或者仅包含时间序列的描述任务，这无法全面评估 MLLMs 在长文本和多图像情境下的表现。

MileBench

3.1 设计理念

为了弥补现有基准的不足，我们引入了 MileBench，这是首个专为测试 MLLMs 在长文本和多图像情境下表现的基准。我们定义“多模态长上下文情境”为包含多个图像的长文本内容，或由多个图像构成的内容。我们的基准结合了文本和图像、长文本、多任务以及需要理解和生成能力的任务。

3.2 评估集的构建

我们的基准包含两个不同的评估集：诊断评估（Diagnostic Evaluation）和现实评估（Realistic Evaluation）。诊断评估探索了 MLLMs 在长上下文中的召回能力，通过大海捞针和图像检索任务来测试；现实评估则通过时间序列的多图像任务和语义相关的多图像任务，模拟真实世界中的情景，全面考察模型的性能。

▲ 图注：MileBench 的分类和四个多模态长上下文例子

3.3 数据集的统计信息

我们从 21 个现有的或自构建的数据集中收集了 6,440 个多模态长上下文样本，平均每个样本包含 15.2 张图像和 422.3 个单词。下表展示了我们数据集的详细统计信息：

▲ 图注：左图：MileBench 的关键统计数据，我们使用 LLaMA2 的分词器来计算 Token 数量；右图：MileBench 的任务分布。

结果与分析

4.1 主实验结果

▲ 图注：MileBench 的实验结果。T-1 表示任务编号（详见论文第 3 章节）。NH 和 IR 分别表示大海捞针任务和图像检索任务。闭源模型、开源图像模型和开源视频模型的最高分数分别用红色、蓝色和绿色标注。

在对 22 个模型进行评估后，我们发现：

闭源模型表现优越：闭源的多模态大语言模型（MLLMs）在多模态长上下文任务中表现优于开源模型，尤其是在长文本适应性的诊断评估中，闭源模型（平均：79.2%，最高：99.4%）与开源模型（平均：10.1%，最高：37.2%）之间的差距显著。在现实评估中，除了 VILA 和 Mantis 之外，所有开源模型的表现都明显落后。
开源图像模型表现更好：开源图像模型通常比开源视频模型表现更好。即使是表现最好的视频模型 LLaMA-VID，在现实评估中的得分为 31.8%，也低于八个图像模型。这可能是因为视频模型无法像图像模型那样捕捉图像中的详细信息。
适应长文本与执行长文本任务的能力不一定相关：例如，尽管 Qwen-VL-Chat 在开源模型中诊断评估得分最高，但在任务完成度上却落后于 Mantis（39.1% < 47.5%）。这突显了我们评估的多样性和全面性。
“大海捞针”任务中的表现：大多数开源模型在“大海捞针”图像任务中的得分为零。我们发现，许多模型部分回答了目标数字字符串，但未能完全正确。这表明开源模型需要提高从图像中检索信息的能力，特别是它们的 OCR 能力。

4.2 分析实验

在长上下文的背景下，我们对现有多模态模型进行了一些有意思分析。

分析1：MLLMs 在不同长度的上下文中表现如何？

为了研究模型在不同数量图像下的表现，我们将数据集按每个样本的图像数量分为三类：少（Few）、中（Medium）、多（Many）。下图展示了模型在这三类数据上的平均表现。

▲ 图注：模型在不同数量图像上的平均表现

主要结论：

大多数模型表现随图像数量增加而下降：随着图像数量的增加，大多数模型的表现显著下降，尤其是 LLaVA-1.5 系列模型。这表明大多数模型在多图像测试数据上泛化能力不足。可能的原因是许多模型仅在单张图像上进行了训练，导致在多图像情境下表现不佳。
部分模型在中等图像数量下表现优异：GPT-4V、GPT-4o、Gemini 1.5、Claude 3 Opus 和 Qwen-VL-Chat 在中等图像数量下的表现优于少量图像。这可能是因为这些模型在多图像数据上进行了训练，更多的图像提供了更多的信息，帮助模型完成任务。
多图像情境下仍有提升空间：尽管一些模型在多图像任务中表现出色，但当图像数量达到“多”级别时，其表现仍有所下降。这表明在多图像情境下的建模仍有很大的提升空间。

分析2：MLLMs在多模态长上下文中是否也有“Lost in the Middle”现象？

一些文献指出，在“大海捞针”任务中，模型可能会出现 “Lost in the Middle” 现象，即在长文本中难以找到位于中间的目标。我们研究了 MLLMs 在多模态情境下是否也会出现这种现象。我们选择了“大海捞针”任务中表现最好的闭源和开源模型进行分析。

▲ 图注：在大海捞针任务中，模型性能随着深度和上下文长度变化的结果可视化。X 轴表示上下文中的 Token 或图像数量，Y 轴表示目标所在的上下文深度。绿色方块表示成功提取目标的位置的针，红色方块表示失败。

主要结论：

强大的长文本处理能力重要性：在多模态长上下文情境下，GPT-4V 没有出现 “Lost in the Middle” 现象，成功完成了任务。这说明强大的长文本处理能力可以显著减少“中间迷失”现象的风险。
多模态情境中的挑战：Qwen-VL-Chat 在图像大海捞针任务中表现出一定程度的 “Lost in the Middle”，尤其是在超过其最大上下文长度的情况下。这说明 “Lost in the Middle” 现象在多模态情境中同样存在，提示我们需要进一步提升模型在多模态长上下文情境下的表现。

分析3：合并图像是否有助于多图像理解？

为了克服部分模型只能支持少量图像输入的限制，我们引入了组合图像集，并将原 MileBench 称为多图像集。在组合图像集中，多个图像被合并为一张大图，置于输入的开头，文本中的原始图像则被占位符替代。为了节省成本，我们仅选择了三个闭源的多模态大语言模型进行评估。

▲ 图注：组合图像集的实验结果。T-1 表示任务编号，NH 和 IR 分别表示大海捞针任务和图像检索任务。闭源模型、开源图像模型和开源视频模型的最高分数分别用红色、蓝色和绿色标注。

主要结论：

闭源模型表现优越：闭源模型在现实评估（平均：44.8% vs. 29.6%，最高：48% vs. 44.9%）和诊断评估（平均：51.2% vs. 12.3%，最高：60.5% vs. 32.4%）中仍优于开源模型。
分辨率对组合图像集上表现的影响：部分闭源模型在组合图像集上的表现有所下降，除了 Gemini 1.0。为了在组合图像集上保持性能，模型需要具备高分辨率的视觉能力。比如，Gemini 1.0 将图像调整为 3072×3072，而 GPT-4V 和 Claude 3 Opus 分别调整为 768×768 和 1568×1568。较低的分辨率可能是 GPT-4V 和 Claude 3 Opus 表现下降的原因。
部分开源模型性能提升：一些短上下文的开源模型在组合图像集上的表现有所提升，如 ALLaVA-Longer（从 24.7% 到 26.9%）和 MiniGPT-v2（从 17.8% 到 29.5%）。这可能是因为这些模型仅在单图像上进行了训练，组合图像减轻了多图像情境下的泛化问题。

受限于篇幅，想了解更多的实验分析，如数据污染问题和任务多样性，请参阅我们的论文。

结论与未来展望

在本研究中，我们引入了 MileBench，这是一项有前瞻性的基准测试，旨在严格评估多模态大语言模型（MLLMs）在多模态长上下文中的能力。我们建立了诊断和现实评估集，系统地评估了 MLLMs 在长文本适应性和任务完成能力方面的表现。尽管一些模型表现令人印象深刻，但我们的实验结果强调了在这些复杂情境下，亟需更多针对性的研究来提升 MLLMs 的能力。

未来展望：

长上下文多模态大语言模型：鉴于混合模态内容的普遍存在，迫切需要能够在长文本情境下熟练处理多张图像的模型。
扩展 MileBench 到更大上下文和其他模态：随着现实世界任务的不断演变，基准测试也应随之调整，纳入更大的上下文、复杂的任务结构和其他模态，以激发开发更具多样性和适应性的 MLLMs。这些努力将有助于更好地引导 MLLMs 的改进，迎接我们日益多模态的世界。

通过这些研究方向，我们希望推动 MLLMs 的发展，使其能够更加高效和准确地处理复杂的多模态长上下文任务。

参考文献

[1] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint arXiv:2303.08774, 2023.

[2] https://openai.com/index/hello-gpt-4o

[3] Team G, Anil R, Borgeaud S, et al. Gemini: a family of highly capable multimodal models[J]. arXiv preprint arXiv:2312.11805, 2023.

[4] Reid M, Savinov N, Teplyashin D, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context[J]. arXiv preprint arXiv:2403.05530, 2024.

[5] https://www.anthropic.com/news/claude-3-family

[6] Liu H, Li C, Li Y, et al. Improved baselines with visual instruction tuning[J]. arXiv preprint arXiv:2310.03744, 2023.

[7] Lin J, Yin H, Ping W, et al. Vila: On pre-training for visual language models[J]. arXiv preprint arXiv:2312.07533, 2023.

[8] Jiang D, He X, Zeng H, et al. MANTIS: Interleaved Multi-Image Instruction Tuning[J]. arXiv preprint arXiv:2405.01483, 2024.

[9] Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023.

[10] Chen J, Zhu D, Shen X, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning[J]. arXiv preprint arXiv:2310.09478, 2023.

[11] Chen G H, Chen S, Zhang R, et al. ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model[J]. arXiv preprint arXiv:2402.11684, 2024.

[12] Liu Y, Duan H, Zhang Y, et al. Mmbench: Is your multi-modal model an all-around player?[J]. arXiv preprint arXiv:2307.06281, 2023.

[13] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

[14] Liu N F, Lin K, Hewitt J, et al. Lost in the middle: How language models use long contexts[J]. Transactions of the Association for Computational Linguistics, 2024, 12: 157-173.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

GPT-4o能力大幅领先！迈向长上下文的多模态模型评估基准MileBench

引言

背景与动机

现有评估基准的局限

MileBench

3.1 设计理念

3.2 评估集的构建

3.3 数据集的统计信息

结果与分析

4.1 主实验结果

4.2 分析实验

分析1：MLLMs 在不同长度的上下文中表现如何？

分析2：MLLMs在多模态长上下文中是否也有“Lost in the Middle”现象？

分析3：合并图像是否有助于多图像理解？

结论与未来展望

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

GPT-4o能力大幅领先！迈向长上下文的多模态模型评估基准MileBench

引言

背景与动机

现有评估基准的局限

MileBench

3.1 设计理念

3.2 评估集的构建

3.3 数据集的统计信息

结果与分析

4.1 主实验结果

4.2 分析实验

分析1：MLLMs 在不同长度的上下文中表现如何？

分析2：MLLMs在多模态长上下文中是否也有“Lost in the Middle”现象？

分析3：合并图像是否有助于多图像理解？

结论与未来展望

您可能也对以下帖子感兴趣