上海AI实验室发布新一代书生·视觉大模型,视觉核心任务开源领先
近日,上海人工智能实验室(上海AI实验室)联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。上海AI实验室在视觉大模型上持续发力,在2021年、2022年先后推出书生1.0和InternImage,不仅及模型性能领先,还构建了视觉大模型的新架构。
新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。
InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。
目前,InternVL全系列模型、代码均已开源,并提供Demo试用。
开源链接:https://github.com/OpenGVLab/InternVL
论文链接:https://arxiv.org/abs/2312.14238
试用Demo:https://internvl.opengvlab.com
• 在视觉感知、图文检索、图生文和多模态对话等30余个视觉基准测试上取得最优开源性能。
• 以不到1/3的参数量,在纯视觉任务和图生文任务上逼近或超过谷歌闭源ViT-22B。
• 在TinyLVLM、MMBench等多模态大模型评测上,性能比肩GPT4V、Gemini。
持续深耕视觉基础模型
视觉任务性能开源领先
准确解读困难样本
理解自动驾驶场景复杂样本
复杂画面计数
下图是电视剧《繁花》的一张剧照,图中光影明暗交错,人物衣着丰富。向InternVL提问有几位男士戴了领带这样的细节,它也可以快速数出是3位。
解决数理问题
辨别伪装外观的物体
解读复杂排版图文信息
针对排版复杂的英文页面,InternVL可快速“看完”所有信息,帮助用户整合处理成中文介绍。
原创技术支撑能力提升
InternVL具备的强大能力来自一系列原创技术的支撑,其中首次提出的对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。
InternVL在训练过程中引入全新的渐进式对齐策略,从海量噪声数据上的对比学习,逐渐过渡到高质量数据上的生成式学习,实现了视觉编码器和语言模型的良好对齐,并对数据进行最大化利用,从而使得InternVL具备强大的多模态任务能力。
通过灵活组合视觉编码器和语言中间件,InternVL可支持各种视觉或视觉-语言任务,如同“瑞士军刀”般集成多样化能力。
针对视觉感知任务,InternVL的视觉编码器InternViT-6B可直接作为骨干网络,作为传统ViT及深度残差网络(ResNet)的有效补充及替代。
在跨模态检索任务中,可通过InternViT-6B的视觉特征或QLLaMA的查询特征实现各类对比检索,并作为CLIP模型的有效补充及替代。得益于参数量的扩大,QLLaMA在应对生成任务中具有更强大的图像字幕能力,可同时对InternViT-6B的视觉表示进行重新组织,实现多模态内容生成。
在多模态对话方面,研究人员定制了书生·视觉的对话版InternVL-Chat,将InternVL作为视觉组件连接到大语言模型,构建出多模态对话模型。