首发！MiniGPT-4 发布，代码模型开源，支持在线体验，好用再下载！！

Original ShuYini AINLPer 2023-07-10

收录于合集 #论文分享 135个

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

相比ChatGPT，GPT-4展示出了非凡的多模态能力，它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素。这些优秀的能力在以前的视觉语言模型中很难实现。对于GPT-4惊人的多模态生成能力，其主要原因是使用了更先进的大型语言模型 (LLM)。那么能否利用目前比较先进的大型LLM进行微调从而尽可能达到GPT-4的性能呢？那么今天给大家分享的这篇文章就从该角度出发，提出了MiniGPT-4，该模型在文本方面可以达到90% ChatGPT的能力，在视觉感知方面，同样具备与GPT-4的多模态功能。注意：MiniGPT-4开源，并支持在线体验，如果觉得好用，您可自己私有化部署。地址：https://minigpt-4.github.io/。

背景介绍

近年来，大型语言模型 (LLM) 经历了快速发展。凭借出色的语言理解能力，这些模型可以通过零样本学习的方式执行各种复杂的语言任务。值得注意的是，最近推出的 GPT-4，它是一种大型多模态模型，并向我们展示了许多令人印象深刻的功能。例如，GPT-4 可以产生非常详细和准确的图像描述，解释异常的视觉现象，甚至可以根据手写文本指令构建网站。「尽管 GPT-4 展现出了非凡的能力，但其非凡能力背后的方法仍然是个谜。作者认为这些惊人的技能可能源于对更高级的大型语言模型 (LLM) 的利用」。

为了证实以上猜想，作者提出了一个名为 MiniGPT-4 的新模型：它使用先进的大型语言模型 (LLM)--Vicuna（其中 Vicuna 是基于 LLaMA 构建的）进行调优，在文本语言方面可以达到 ChatGPT 能力的90%。在视觉感知方面，作者采用了与BLIP-2相同的预训练视觉组件，其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。MiniGPT-4 只添加了一个映射层，将编码的视觉特征与Vicuna语言模型对齐，冻结了所有视觉和语言组件参数。

然而，简单地将视觉特征与 LLM 对齐不足以训练像聊天机器人这样具有视觉对话能力的高性能模型，并且原始图像文本对背后的噪声可能导致语言输出不连贯。因此，作者收集了另外 3,500 个高质量对齐的图像文本对，以使用设计的聊天模板进一步微调模型，以提高生成语言的自然性和可用性。

MiniGPT-4

MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。具体来说，在文本方面，作者利用 Vicuna 作为语言解码器，在视觉感知方面，使用了与BLIP-2相同的视觉编码器，并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视觉编码器和 LLM 之间的差距，模型架构图如下所示：在MiniGPT-4训练阶段，作者提出了一种两阶段训练方法。在第一阶段，因为在大量对齐的图像-文本对上对进行模型预训练，以获取视觉语言知识。在第二阶段，使用较小但高质量的图像文本数据集对预训练模型进行微调，以增强模型的生成可靠性和可用性。

预训练第一阶段

在初始预训练阶段，该模型旨在从大量对齐的图像文本对中获取视觉语言知识。在整个预训练过程中，预训练的视觉编码器和 LLM 都保持冻结状态，只有线性映射层被预训练。作者使用 Conceptual Caption、SBU和 LAION的组合数据集来训练我们的模型。其中模型经历了 20,000 个训练步骤，批量大小为 256，覆盖了大约 5 百万个图像-文本对。整个过程需要大约 10 个小时才能完成，使用了 4 个 A100 (80GB) GPU。

第一阶段预训练存在的问题。在第一个预训练阶段之后，MiniGPT-4 具备了处理大量知识并对人类查询提供合理回应的能力。然而，它却难以产生连贯的语言输出，例如：会产生重复的单词或句子、支离破碎的句子或不相关的内容。这些问题阻碍了 MiniGPT-4 与人类进行流畅的视觉对话的能力。

预训练第二阶段

为了使生成的语言更加自然并增强模型的可用性，第二阶段对齐过程必不可少。虽然在 NLP 领域，指令微调数据集和对话很容易获得，但视觉语言领域不存在等效的数据集。「为了解决这一缺陷，作者精心制作了一个高质量的图像文本数据集（数据集开源）」，该数据集用于在第二阶段对齐过程中，以实现对MiniGPT-4的微调。

在第二阶段，作者使用精选的高质量图像文本对来微调我们的预训练模型。在微调期间，我们使用以下格式的预定义提示：

###Human: <Img><ImageFeature></Img> <Instruction>###Assistant:

在此提示中，“<Instruction>” 表示从预定义指令集中随机抽取的指令，其中包含指令的变体形式，例如“详细描述此图像”或“您能为我描述此图像的内容吗”。需要重要的注意的是，作者在这里不计算此特定文本图像提示的回归损失。因此，MiniGPT-4 现在能够产生更自然、更可靠的反馈结果。此外，作者还观察到该模型的微调过程非常高效，只需要 400 个训练步骤，批量大小为 12，使用单个 A100 GPU 只需短短 7 分钟即可完成。

实验结果

实验结果，发现 MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能。例如，MiniGPT-4 可以生成复杂的图像描述，根据手写文本指令创建网站，以及解释不寻常的视觉现象。例如，MiniGPT-4可以通过观察令人垂涎欲滴的食物照片、工艺故事或受图像启发的说唱歌曲直接生成详细的食谱，为图像中的产品撰写广告，区分照片中显示的问题并提供相应的解决方案，并检索关于人的丰富事实，电影或直接来自图像的艺术，以及其他功能。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

首发！MiniGPT-4 发布，代码模型开源，支持在线体验，好用再下载！！

引言

背景介绍

MiniGPT-4

预训练第一阶段

预训练第二阶段

实验结果

推荐阅读

点击下方链接🔗关注我们

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

首发！MiniGPT-4 发布，代码模型开源，支持在线体验，好用再下载！！

引言

背景介绍

MiniGPT-4

预训练第一阶段

预训练第二阶段

实验结果

推荐阅读

点击下方链接🔗关注我们

您可能也对以下帖子感兴趣