上海AI实验室发布新一代书生·视觉大模型，视觉核心任务开源领先

Original Shanghai AI Lab 上海人工智能实验室 2024-04-07

近日，上海人工智能实验室（上海AI实验室）联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型（InternVL）。上海AI实验室在视觉大模型上持续发力，在2021年、2022年先后推出书生1.0和InternImage，不仅及模型性能领先，还构建了视觉大模型的新架构。

新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B)，首次提出了对比-生成融合的渐进式对齐技术，实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务，还可以识别和解读复杂页面中的信息，甚至解决其中的数理问题。

目前，InternVL全系列模型、代码均已开源，并提供Demo试用。

开源链接：https://github.com/OpenGVLab/InternVL

论文链接：https://arxiv.org/abs/2312.14238

试用Demo：https://internvl.opengvlab.com

• 在视觉感知、图文检索、图生文和多模态对话等30余个视觉基准测试上取得最优开源性能。

• 以不到1/3的参数量，在纯视觉任务和图生文任务上逼近或超过谷歌闭源ViT-22B。

• 在TinyLVLM、MMBench等多模态大模型评测上，性能比肩GPT4V、Gemini。

持续深耕视觉基础模型

视觉基础模型是当前计算机视觉的前沿核心问题，也是构建多模态大模型的重要基础。早在2021年上海AI实验室就发布了书生1.0，是国内首个广泛覆盖多种视觉任务的大模型，一个基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在2022 年更新发布视觉大模型InternImage，构建了以动态稀疏卷积为核心操作的视觉大模型新架构，构建了非Transformer的大模型架构新途径，在12类视觉任务中实现性能领先。

视觉基础模型从判别式预训练发展至今，InternVL引领了大模型时代基础视觉模型技术进展

视觉任务性能开源领先

InternVL-6B具备纯视觉感知、图文检索、图文生成、图文多模态生成和对话等关键能力。谷歌ViT-22B是目前被公认为最强大的专注视觉的基础模型（非开源）。InternVL开源模型以不到1/3的参数量，在纯视觉任务（如ImageNet、ADE20K等）和图生文任务（如NoCaps、MS COCO等）上逼近或超过谷歌ViT-22B。

InternVL-6B（开源）对比 ViT-22B（闭源）

在视觉感知、图文检索、图文多模态生成和对话等30余个视觉基准测试上，InternVL-6B取得了开源社区的最优性能，超过了Meta、谷歌、微软、LAION等机构的同类开源模型。

在TinyLVLM 、MMBench等多模态大模型评测上，InternVL-6B取得了优秀的性能。其中，在MMBench-dev上，InternVL-6B达到76.6，虽然综合能力仍有待提高，但个别性能超越了GPT-4V（75.1）和Gemini（75.2）。

InternVL-6B具备强大的视觉表征和理解能力，尤其表现在面对信息复杂的图片时，模型仍可对细节进行精准捕捉，不仅可在图片或实际场景的复杂画面中捕捉细微的视觉信息，还可从复杂排版的图文页面中整合、解读信息，或辨别伪装外观的物体。

准确解读困难样本

日前，著名计算机科学家杨立昆（Yann LeCun）和谢赛宁（Saining Xie）等人在其最新论文《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs》相关数据集中提出了若干困难样本，例如，图中货车外观凌乱，难以辨认车门。对此，InternVL作出了准确回答，GPT-4V误判为车门关闭。

针对困难样本进行问答

理解自动驾驶场景复杂样本

例如下图，前车的反光材质造成了感知干扰，让模型难以辨别前方的车辆数目。这对于以往的自动驾驶感知技术而言是一个困难样本，而InternVL精准地辨别了前车数量，初步显示出通用泛化性的能力。

自动驾驶场景的实际样本

复杂画面计数

下图是电视剧《繁花》的一张剧照，图中光影明暗交错，人物衣着丰富。向InternVL提问有几位男士戴了领带这样的细节，它也可以快速数出是3位。

对《繁花》剧照进行细节问答

解决数理问题

对于上图所示的生物学问题，向InternVL提问：如果细胞外的pH值降低，你认为转运到细胞内的氨基酸量会增加还是减少？InternVL回答：如果细胞外的pH值降低，氨基酸就会带更多的负电荷。这会导致它们被细胞膜内部带正电的Na+离子吸引，从而导致转运到细胞中的氨基酸量增加。

在下图中，向InternVL提问：分析两种汽车，哪种更符合空气动力学？InternVL也能够正确回答并给出理由。

辨别伪装外观的物体

InternVL对细节的捕捉能力极强，可以准确地找出图像中的“隐藏”信息，让海底动物的伪装也无所遁形。

识别伪装物体

解读复杂排版图文信息

针对排版复杂的英文页面，InternVL可快速“看完”所有信息，帮助用户整合处理成中文介绍。

对AAAI官网的信息进行深度解析，识别出了网页里的重要信息

原创技术支撑能力提升

InternVL具备的强大能力来自一系列原创技术的支撑，其中首次提出的对比-生成融合的渐进式对齐技术，实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

InternVL在训练过程中引入全新的渐进式对齐策略，从海量噪声数据上的对比学习，逐渐过渡到高质量数据上的生成式学习，实现了视觉编码器和语言模型的良好对齐，并对数据进行最大化利用，从而使得InternVL具备强大的多模态任务能力。

InternVL概览

通过灵活组合视觉编码器和语言中间件，InternVL可支持各种视觉或视觉-语言任务，如同“瑞士军刀”般集成多样化能力。

针对视觉感知任务，InternVL的视觉编码器InternViT-6B可直接作为骨干网络，作为传统ViT及深度残差网络（ResNet）的有效补充及替代。

在跨模态检索任务中，可通过InternViT-6B的视觉特征或QLLaMA的查询特征实现各类对比检索，并作为CLIP模型的有效补充及替代。得益于参数量的扩大，QLLaMA在应对生成任务中具有更强大的图像字幕能力，可同时对InternViT-6B的视觉表示进行重新组织，实现多模态内容生成。

在多模态对话方面，研究人员定制了书生·视觉的对话版InternVL-Chat，将InternVL作为视觉组件连接到大语言模型，构建出多模态对话模型。

继续滑动看下一个

上海人工智能实验室

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

上海AI实验室发布新一代书生·视觉大模型，视觉核心任务开源领先

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

上海AI实验室发布新一代书生·视觉大模型，视觉核心任务开源领先

您可能也对以下帖子感兴趣