首发!MiniGPT-4 发布,代码模型开源,支持在线体验,好用再下载!!
点击上方“AINLPer“,设为星标
引言
相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素。这些优秀的能力在以前的视觉语言模型中很难实现。对于GPT-4惊人的多模态生成能力,其主要原因是使用了更先进的大型语言模型 (LLM)。那么能否利用目前比较先进的大型LLM进行微调从而尽可能达到GPT-4的性能呢?那么今天给大家分享的这篇文章就从该角度出发,提出了MiniGPT-4,该模型在文本方面可以达到90% ChatGPT的能力,在视觉感知方面,同样具备与GPT-4的多模态功能。注意:MiniGPT-4开源,并支持在线体验,如果觉得好用,您可自己私有化部署。地址:https://minigpt-4.github.io/。
背景介绍
近年来,大型语言模型 (LLM) 经历了快速发展。凭借出色的语言理解能力,这些模型可以通过零样本学习的方式执行各种复杂的语言任务。值得注意的是,最近推出的 GPT-4,它是一种大型多模态模型,并向我们展示了许多令人印象深刻的功能。例如,GPT-4 可以产生非常详细和准确的图像描述,解释异常的视觉现象,甚至可以根据手写文本指令构建网站。「尽管 GPT-4 展现出了非凡的能力,但其非凡能力背后的方法仍然是个谜。作者认为这些惊人的技能可能源于对更高级的大型语言模型 (LLM) 的利用」。
为了证实以上猜想,作者提出了一个名为 MiniGPT-4 的新模型:它使用先进的大型语言模型 (LLM)--Vicuna(其中 Vicuna 是基于 LLaMA 构建的)进行调优,在文本语言方面可以达到 ChatGPT 能力的90%。在视觉感知方面,作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。MiniGPT-4 只添加了一个映射层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉和语言组件参数。
然而,简单地将视觉特征与 LLM 对齐不足以训练像聊天机器人这样具有视觉对话能力的高性能模型,并且原始图像文本对背后的噪声可能导致语言输出不连贯。因此,作者收集了另外 3,500 个高质量对齐的图像文本对,以使用设计的聊天模板进一步微调模型,以提高生成语言的自然性和可用性。
MiniGPT-4
MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视觉编码器和 LLM 之间的差距,模型架构图如下所示:
预训练第一阶段
在初始预训练阶段,该模型旨在从大量对齐的图像文本对中获取视觉语言知识。在整个预训练过程中,预训练的视觉编码器和 LLM 都保持冻结状态,只有线性映射层被预训练。作者使用 Conceptual Caption、SBU和 LAION的组合数据集来训练我们的模型。其中模型经历了 20,000 个训练步骤,批量大小为 256,覆盖了大约 5 百万个图像-文本对。整个过程需要大约 10 个小时才能完成,使用了 4 个 A100 (80GB) GPU。
第一阶段预训练存在的问题。在第一个预训练阶段之后,MiniGPT-4 具备了处理大量知识并对人类查询提供合理回应的能力。然而,它却难以产生连贯的语言输出,例如:会产生重复的单词或句子、支离破碎的句子或不相关的内容。这些问题阻碍了 MiniGPT-4 与人类进行流畅的视觉对话的能力。
预训练第二阶段
为了使生成的语言更加自然并增强模型的可用性,第二阶段对齐过程必不可少。虽然在 NLP 领域,指令微调数据集和对话很容易获得,但视觉语言领域不存在等效的数据集。「为了解决这一缺陷,作者精心制作了一个高质量的图像文本数据集(数据集开源)」,该数据集用于在第二阶段对齐过程中,以实现对MiniGPT-4的微调。
在第二阶段,作者使用精选的高质量图像文本对来微调我们的预训练模型。在微调期间,我们使用以下格式的预定义提示:
###Human: <Img><ImageFeature></Img> <Instruction>###Assistant:
在此提示中,“<Instruction>” 表示从预定义指令集中随机抽取的指令,其中包含指令的变体形式,例如“详细描述此图像”或“您能为我描述此图像的内容吗”。需要重要的注意的是,作者在这里不计算此特定文本图像提示的回归损失。因此,MiniGPT-4 现在能够产生更自然、更可靠的反馈结果。此外,作者还观察到该模型的微调过程非常高效,只需要 400 个训练步骤,批量大小为 12,使用单个 A100 GPU 只需短短 7 分钟即可完成。
实验结果
实验结果,发现 MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能。例如,MiniGPT-4 可以生成复杂的图像描述,根据手写文本指令创建网站,以及解释不寻常的视觉现象。
推荐阅读
[1]以中国神兽 “凤凰” 命名的大型自然语言模型(LLM)
[3]白泽:一个以中国神兽命名的大型自然语言模型(LLM)
[5]麻省理工(MIT)的最新研究:重塑你对LLMs的理解!
[6]OpenAGI:一个开源的通用人工智能(AGI)研究平台