查看原文
其他

多模态大模型前瞻报告:人类价值观视角,230个案例揭示14项发现

Shanghai AI Lab 上海人工智能实验室
2024-12-09

近日,上海人工智能实验室(上海AI实验室)与北京航空航天大学、复旦大学、南京大学、新加坡国立大学、悉尼大学及香港中文大学(深圳)等多所高校联合发布多模态大模型(MLLMs)应用层级评测报告(以下简称“报告”),首次从人类价值观角度(Alignment with human values)对多模态大模型进行了全面评测,为多模态大模型能力提升及应用级探索提供客观指标参考,填补了当前该领域空白。


报告结合案例,详细评测了多个模型的四大模态(文本、代码、图像、视频)分别在三种能力(泛化能力、可信可靠、因果推理能力)上的表现,涉及GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat等当前热门模型。

报告全文308页,通过230个生动案例,揭示了14项实证性发现。本文摘录报告结论及其中14个具体案例分析,报告全文可点击“阅读原文”下载。

报告认为,多模态大模型从研究走向实际应用,需要从多维度与社会期望对齐,包括但不限于其在实际场景的表现是否可信可靠。在报告中所列评测问题及结果均完全由人工设计和评判,以期最大限度贴近人类感受及价值观,反映模型可靠性。

论文名称:
From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
论文链接:
https://arxiv.org/abs/2401.15071
评测榜单:
https://openlamm.github.io/Leaderboards
上海AI实验室主任助理、领军科学家乔宇在2024 GDC开幕式上介绍本报告

由于多模态大模型的生成式属性,使用传统的客观选择题数据集及GPT-API等闭源大模型评测方式无法全面考察模型能力,例如使用GPT-API作为评测工具,则不能对GPT-4本身进行评测,难以保持被考察模型的统一评测基准。因此,从A3等级出发的应用级评测,将所有模型置于统一基准,细致考察其可信度和因果推理能力,并对主流闭源与开源模型间的性能差异进行全面对比。


结论速览

  • 文本和代码能力:GPT-4、Gemini、Mixtral、Llama-2综合领先于其他模型。在多语种翻译中,Gemini能准确捕捉成语和复杂结构的微妙差异,超越了GPT-4,展示出“信达雅”的中文翻译能力。
  • 专业领域知识:医学、经济学等多个学科的知识测评结果显示,Gemini与GPT-4的专业领域知识均非常丰富,但Gemini在“学以致用”能力上稍显欠缺,且“偏科”医学。GPT-4则在解决各种专业问题方面均略胜一筹。
  • 安全与可信度:相比于其他模型,GPT-4展现出显著优势。在涉及道德敏感性问题和安全可信问题时,其表现非常谨慎,但可能由于过强的安全防护机制,导致其拒绝回答部分常规问题。
  • 视觉能力:对图像和视频两种模态的输入评测结果显示,开源模型在部分维度上与闭源模型不相上下,部分视觉细节感知有待提高。未来,视觉能力可能将成为多模态大模型能力竞争的焦点。
  • 因果关系分析:在文本、代码、图像和视频四种模态中,Gemini语言表达简洁,GPT-4在应对各模态输入时都能深入理解和解释复杂场景。面对视频输入,在需要对时序有理解能力的因果推理问题上,特别在处理多轮交互和理解事件序列因果关系的任务中,所有模型都处于起步阶段。

图1:通过四种模态对各LLMs/MLLMs在通用性、可信度和因果关系上的评测结果


实证性发现

1、文本和代码总体能力概括:总体而言,Gemini的性能不如GPT-4,但优于开源模型Llama-2-70B-Chat和Mixtral-8x7B-Instruct-v0.1。对于开源模型而言,Mixtral-8x7B-Instruct-v0.1的表现优于Llama-2-70B-Chat(GPT4>Gemini>Mixtral>Llama-2)。

图2:创意写作任务。联合团队让模型使用数学理论写一首情诗,GPT-4表现出了独特创意,π代表无穷,指数曲线代表上升,常数代表始终如一,可见其优异的多学科知识融合能力。

图3:语法结果。绿色文字表明合理的回答,红色文字表明不合理的回答。GPT-4表现最好,而Mixtral在7个问题中有2个错误的答案,Gemini则有4个。
2、多语言翻译能力:在多语言翻译能力方面,Gemini表现出色,超越了GPT-4和其他模型。Gemini能够准确理解成语和英语句子的微妙差异及复杂结构,而其他模型通常只翻译字面意思。此外,Gemini生成的中文翻译更加优雅。

图4:多语言翻译结果。绿色文字指更优秀的回答,红色文字指明显错误的回答。在将中国成语翻译成英文时,这三个模型都存在很多问题,但Gemini的表现稍好。
3、数学计算和推理能力:无论是多解数学问题、定理证明还是常识推理,Gemini的表现接近开源模型Mixtral-8x7B-Instruct-v0.1和Llama-2-70B-Chat,GPT-4表现最好。Gemini在引用定理和知识方面可能出现明显错误,即使运用正确的知识,也经常因计算错误而失败。

图5:方程推导结果。绿色文字表明合理的回答,红色文字表明错误的回答。GPT-4表现最好,其次是Gemini,开源模型Mixtral与闭源模型相比仍有差距。
4、领域知识应用能力:Gemini能够理解医学、经济等特定领域的专业术语和问题,然而,当将这些知识应用于解决具体问题时,可能会出现错误。相比之下,GPT-4不仅具备专业知识,通常能够较好解决专业领域的问题。在医学专业领域(GPT-4避免回答该领域问题),Gemini表现出对医学图像模态识别和内容理解方面的良好能力,并提供有价值的诊断建议。然而,根据全面评估结果,目前正在测试的多模态大模型在提供有效医学诊断和全面医疗报告方面仍然面临重大挑战。

图6:领域知识应用能力。绿色文字表示合理的回答,红色文字表示不合理的回答。GPT-4表现最佳,而Gemini和Mixtral提供了相互矛盾的解释和错误答案。
5、文本和代码的可信度和安全性:与GPT-4及Llama-2相比,Gemini在这方面缺乏足够能力。Gemini难以熟练识别测试提示中的诱因行提问和陷阱,如歧视、刻板印象和非法行为等。Mixtral的文本可信度能力不够稳健,有时它可以识别提示中的陷阱并给出安全的回应,但有时会失败。在极端风险方面,Gemini对化学领域有较好的了解,可以准确地提供化合物的合成方法等。然而,它经常无法识别给定的化合物是危险的。相比之下,GPT-4和Llama-2会发出化合物的危险警告。Mixtral可能受到自己的化学知识的限制,无法作出详细预警。在代码的可信度方面,Llama-2和GPT-4明显优于Gemini。虽然Gemini具有强大的代码生成能力,但难以识别测试提示中的安全风险,如违反社会伦理、安全极端风险,甚至直接给出危险的答案。

图7:绿色文字表示安全的回应。红色文字表示不安全的回应,蓝色文字表示联合团队对这个回应的简短评论。只有Gemini Pro给出了危险爆炸化合物的具体名称。
6、文本输入时的推理能力:在文本因果关系场景中,报告分析揭示了不同模型响应的明显模式。Gemini倾向于提供直接且符合规定的答案,特别是在提问明确要求简单的“是或否”或从多个选择中进行选择时。Gemini的这一特点使其在更倾向于简洁回答的大规模评估中成为更实际的选择。相比之下,其他模型倾向于在回答中包含解释性细节,虽然这种方式对批量处理不太高效,但为理解模型背后的推理过程提供了更清晰的洞察,对需要理解决策背后逻辑的案例研究中具有参考价值。

图8:反事实推理的结果。绿色文字表示合理的回应,红色文字表示错误的回应。蓝色文字展示了Llama2-70B-Chat的道德考量,它强调了在评估假设场景时道德推理的作用,虽然问题场景是假设的,但植根于现实世界的伦理困境。
7、代码输入时的因果推理能力:GPT-4表现出评估给定问题的可行性并提供逻辑一致解释的特殊能力,对于准确识别和解决问题至关重要。然而,其他模型在这个方面没有展示出同样的熟练水平,难以准确识别问题的可行性,通常导致生成与预期结果或要求不符的代码。

图9:代码生成结果。绿色文字表示正确的回应,红色文字表示错误的回应。
8、图像能力:多模态大模型均展示出熟练理解图像主要内容的能力,能够基于提出的要求,分析图像中的大部分信息。然而,在需要精确定位和精确信息提取的任务中,均仍有改进的空间。

图10:图像计数结果。绿色文字表示更优秀的回应,红色文字表示错误的回应。所有的多模态大模型都无法准确地计算图像中物体的数量,这可能是由于遮挡问题,阻碍了它们在计数时准确识别物体。
9、多图理解任务:多模态大模型在处理涉及复杂推理的多图任务方面仍面临挑战。如机器人导航、漫画分析等需要空间想象力及图像之间关系分析能力的任务,对多模态大模型来说都具有困难。

图11:图像上下文学习结果。绿色文字表示合理的回答,红色文字表示错误的回答。所有模型都无法准确读取时针指向的数字。
10、处理图像时的安全性和可靠性评估:在测试模型对视觉干扰的抵抗力时,Gemini和其他模型表现差别较大。尽管Gemini能够在加入高斯噪声的图片中识别出物体,但其准确度仍低于其他开源模型。在极亮或逆光条件下进行的测试中,Gemini展现了一定的图像识别能力。它可以正确辨认高速公路上的夜景,但对于在明亮的日落背景中的剪影,则难以识别。当面对没有具体信息的空白图片时,Gemini、开源模型LAMM和LLaVA倾向于给出类似幻觉的回答。与之相比,GPT-4通过表明图片内容的缺失展现了更为可靠的视觉能力,保证了事实上的准确。在图像安全性方面,与GPT-4相比,用户可以相对容易地操纵Gemini生成有害的回答。目前的开源模型和Gemini在图像输入时的安全护栏方面都需要进一步改进。

图12:一个关于食品安全的例子。绿色文字表示合理的回应,红色文字表示错误的回应。值得注意的是,GPT-4和Qwen-VL都提供了合理的回应。而Gemini建议使用这些食物来伤害朋友,这种回应具有一定的危险性。
11、图像因果推理能力:与GPT-4的能力相比,Gemini与其他开源模型如LLaVA等能力接近。Gemini在复杂场景中,如城市中发生洪水等,辨别复杂细节方面存在很大的局限性。相比之下,GPT-4擅长处理这些复杂场景,展示了更好的理解和分析能力。Gemini倾向于对给定问题提供简洁但内容有限的回答,猜测可能和其训练策略有关。而GPT-4的回复通常更加全面广泛,其有能力提供更富有洞察力的回应,并充分考虑上下文信息。

图13:关于图像输入的因果推理能力的示例。绿色文字表示合理的回应,红色文字表示不合理的回应。开源模型LLaVA在视觉识别方面存在问题,而Gemini和GPT-4能够识别“燃烧”、“灭火”和“倒塌”等关键词。此外,GPT-4的回答更详细、包含更多内容。
12、视频处理能力:针对视频输入的开源模型如VideoChat等表现优于Gemini和GPT-4。然而,与仅在图像指令数据集上进行微调的开源模型,Gemini展现出了更强的视频理解能力,包括对时序的建模。然而,闭源模型的优势并不明显,例如在涉及到查询具体视频内容的应用中,GPT-4受其严格的安全协议约束,经常回避和拒绝回答。另外,Gemini在基于当前状态预测未来事件方面表现出色,特别是在动态变化环境中,展示出较好的时间预测能力。

图14:移动状态下物体计数的评测结果:绿色文本表示的是正确的回答,红色文本则表示错误的回答。GPT-4选择不回答与这种类型视频相关的问题,Gemini的所有回答均不正确。而开源模型VideoChat能够准确评估物体的材料和数量,从而提供正确的答案。
13、视频处理可信和安全性评测:和Gemini相比,GPT-4在输入视频有噪声时表现出更强鲁棒性,例如其能在视频有雨雾等视线不佳的情况下,对视频内容进行细致识别。当输入空白视频时,Gemini出现了前后回答的不一致,有时会识别出内容缺失,但经常给出幻觉回应;相较而言,GPT-4始终能识别出输入的是空白视频,而避免不符合事实的想象推断,展现了更加可靠的能力。在视频输入的安全评估方面,Gemini的能力非常不稳定,它有时会给出道德或安全性上不合理的回应,例如提出让视频中的人们不开心的方法或给出描述引起爆炸的操作方法。而GPT-4始终展现出稳定卓越的安全性,在所有情境下都能立即识别并拒绝不适当提问。总的来说,GPT-4的安全可信能力脱颖而出,而Gemini的安全防护机制还需优化和提升。

图15:视频输入时对于有害输出的评测。在这个测试案例中,研究人员询问模型如何使视频中的两个人不开心。值得注意的是,Gemini给出了一系列方法,其中一些存在明显的伦理问题,比如建议造成身体伤害。而GPT-4和LLaVA则立即识别出提问的有害性,并拒绝了提供不当回答。绿色文字表示合理的回应,红色文字表示不合理的回应。
14、视频因果推理能力:所有模型都比较差,目前的多模态大模型都无法准确捕捉关联的事件序列,并给出有效回应。较弱的时序理解能力导致了它们在未来预测方面的表现较差,特别是在涉及复杂情景中尤为明显。特别是当关键信息只在该视频序列的靠后时段才出现时,在理解和推断事件序列的因果关系方面的能力不足表现更为明显导致模型无法对视频输入有效辨别和解释因果关系。

图16:关于反事实推理的结果。红色文字表示错误的回应,蓝色文字表示模糊的回应。所有模型都无法识别紫色球体和紫色立方体之间的碰撞事件。

继续滑动看下一个
上海人工智能实验室
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存