全量级开源多模态大模型书生·万象InternVL2.5全面升级
实现全量级开源多模态性能第一(见图1),开源参数涵盖10亿~780亿; 在多模态长链推理方面,在专家级多学科领域知识推理基准测试MMMU中取得突破70%的成绩(仅次于目前最高分的OpenAI o1); 通用能力显著加强,在跨学科推理、文档理解、多图像/视频理解、现实世界推理、多模态幻觉检测、视觉定位、多语言等能力方面均有不同程度的提升,维持在世界领先水平; 纯语言能力完全保持,在不牺牲语言能力的情况下实现优异的多模态性能。
图1: 在OpenCompass榜单上,书生·万象2.5(InternVL2.5)在10亿~780亿量级多模态大模型中展示出强大的多模态能力,可与闭源模型相媲美,MMMU性能突破70%
技术报告链接:
https://huggingface.co/papers/2412.05271
代码开源/模型使用方法:(文末点击阅读原文可直达,欢迎star)
https://github.com/OpenGVLab/InternVL
模型地址:
https://huggingface.co/OpenGVLab/InternVL2_5-78B
▌MMMU突破70%:开创开源多模态大模型新基准
以大模型为代表的通用人工智能正迎来突破性进展,逐渐成为推动新质生产力发展的核心引擎。近年来,多模态大模型作为人工智能领域的核心技术之一,已成为各大科研机构和企业的重点布局方向。
目前,部分商业化的多模态大模型已展现出卓越的性能,但其封闭性限制了透明度和可访问性,给开发者带来了挑战;书生·万象(InternVL)系列开源多模态大模型提供了高性能的替代方案,但在性能和效率方面仍有提升空间。
基于此现状,书生·万象2.5在训练、测试策略和数据质量等方面不断取得新突破,从而提供更强大的多模态基座模型,进而为相关学术研究和产业应用创新做出贡献。
研究人员对书生·万象2.5在多个权威基准数据集上进行了广泛评估——评估涵盖跨学科推理、文档理解、多图像/视频理解、现实世界推理、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理等任务。结果显示,书生·万象2.5展现出了可与领先商业模型媲美的卓越性能。
作为首个在MMMU验证集上突破70%的开源多模态大模型,书生·万象2.5成为了继OpenAI o1后第二个MMMU性能突破70%的模型。
▌大规模视觉编码器、数据质量提升与思维链驱动性能突破
大规模视觉编码器突破:减少数据依赖,降低扩展成本,提升模型性能
大规模视觉编码器显著降低了多模态大模型对训练数据的依赖。与其他采用300M或600M视觉编码器的多模态大模型相比,InternVL2.5-78B搭载了一个6B的视觉编码器,在仅使用1/10的训练数据量的情况下,实现了更优的性能。这一创新发现可大幅降低多模态大语言模型在参数扩大过程中的探索成本,有望为行业带来突破性进展。
数据质量提升:严格筛选与驱动模型性能突破
数据质量至关重要。随着书生·万象2.0到2.5的升级,研究团队不仅将数据集规模加倍,还通过严格筛选显著提升了数据质量。通过设计严格的数据过滤管道,如精心排除重复模式等异常样本,模型在思维链推理任务中,尤其是在MMMU和OlympiadBench等复杂挑战中,表现出显著的性能提升。
思维链与推理扩展:提升复杂问答任务中的准确性与性能
推理时间的扩展在解决复杂的多模态问答任务中展现了显著的优势。在诸如MMMU等挑战性任务中,搭载思维链的InternVL 2.5-78B模型达到了70.1%的准确率,比直接回答的结果高出3.7个点。研究团队成功验证了思维链与多数投票相结合的有效性,并由此进一步提升了模型的性能。
▌体验案例
案例1
以下是解答一道MMMU原题的例子,可以看到书生·万象2.5(InternVL2.5)能理解并运用统计学的一些基本概念,正确计算出类似难度的计算推理题。
案例2
接下来这道题需要模型能理解并计算复杂公式,能够正确跟随指令,根据要求回答出正确的答案,可以看到书生·万象2.5也能正确解答出来。
案例3
在阅读明代状元试卷的案例中,书生·万象2.5不仅能够识别繁体字、正确阅读古文,还能够正确加上标点符号并将古文翻译成现代文。从多轮对话中,还可以看到书生·万象2.5能够很好地根据用户的指令执行对应的行动。
案例4
最后是一个很常见的使用案例,要求将手写笔记的知识导图转成特定格式的文档。可以看到书生·万象2.5能够出色地完成这个任务,将整个知识框架按照格式整理好,并且将公式解析正确。