Visual Instruction Tuning: 用LLaVA近似多模态GPT-4
▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses
我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手:
视觉聊天 (Visual Chat):相对得分达到了 GPT-4 的 85% 多模态推理任务的科学问答 (Science QA):达到了新的 SoTA 92.53%,超过了之前的最先进的方法:多模态思维链技术 (multimodal chain-of-thoughts)
▲ 构建一个包含30张未见图像的评估数据集,其中每个图像都关联着三种类型的指令:对话、详细描述和复杂推理。这样总共有90个新的语言-图像指令,我们进行了LLaVA和GPT-4的评测,并使用GPT-4将它们的结果从1到10进行评分。每种类型的总分和相对分数都被报告。LLaVA相对于GPT-4达到了85.1%的相对分数
项目主页 Project Page:https://llava-vl.github.io/
论文 Paper:
https://arxiv.org/abs/2304.08485代码 GitHub:
https://github.com/haotian-liu/LLaVA演示 Demo:
https://llava.hliu.cc/数据 Data (158K unique language-image instruction-following samples):
https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K模型 Model (LLaVA-13B):
https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0学习总结
(b) 强大的 OCR 文字识别能力:请看我刚刚制作的一些示例。它能识别 CVPR、我们的举办的 Computer Vision in the Wild (CVinW) Workshop 的标志的图片,和 LLaVA 本身相关的照片。
CVinW Workshop:
https://github.com/Computer-Vision-in-the-Wild
3. 科学问答(Science QA)
单独使用 LLaVA 实现了 90.92% 的准确率。我们使用仅文本的 GPT-4 作为评判者,根据其自身先前的答案和 LLaVA 的答案预测最终答案。这种“GPT-4 作为评判者”的方案产生了新的 SOTA 92.53%。令人惊讶的是,GPT-4 可以作为一种有效的模型集成方法!这些结果希望启发大家以后刷榜的时候,可以利用 GPT-4 这个神奇来集成不同方法。
更多阅读
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧