其他
多模态大模型前瞻报告:人类价值观视角,230个案例揭示14项发现
近日,上海人工智能实验室(上海AI实验室)与北京航空航天大学、复旦大学、南京大学、新加坡国立大学、悉尼大学及香港中文大学(深圳)等多所高校联合发布多模态大模型(MLLMs)应用层级评测报告(以下简称“报告”),首次从人类价值观角度(Alignment with human values)对多模态大模型进行了全面评测,为多模态大模型能力提升及应用级探索提供客观指标参考,填补了当前该领域空白。
报告结合案例,详细评测了多个模型的四大模态(文本、代码、图像、视频)分别在三种能力(泛化能力、可信可靠、因果推理能力)上的表现,涉及GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat等当前热门模型。
报告全文308页,通过230个生动案例,揭示了14项实证性发现。本文摘录报告结论及其中14个具体案例分析,报告全文可点击“阅读原文”下载。
报告认为,多模态大模型从研究走向实际应用,需要从多维度与社会期望对齐,包括但不限于其在实际场景的表现是否可信可靠。在报告中所列评测问题及结果均完全由人工设计和评判,以期最大限度贴近人类感受及价值观,反映模型可靠性。
结论速览
文本和代码能力:GPT-4、Gemini、Mixtral、Llama-2综合领先于其他模型。在多语种翻译中,Gemini能准确捕捉成语和复杂结构的微妙差异,超越了GPT-4,展示出“信达雅”的中文翻译能力。 专业领域知识:医学、经济学等多个学科的知识测评结果显示,Gemini与GPT-4的专业领域知识均非常丰富,但Gemini在“学以致用”能力上稍显欠缺,且“偏科”医学。GPT-4则在解决各种专业问题方面均略胜一筹。 安全与可信度:相比于其他模型,GPT-4展现出显著优势。在涉及道德敏感性问题和安全可信问题时,其表现非常谨慎,但可能由于过强的安全防护机制,导致其拒绝回答部分常规问题。 视觉能力:对图像和视频两种模态的输入评测结果显示,开源模型在部分维度上与闭源模型不相上下,部分视觉细节感知有待提高。未来,视觉能力可能将成为多模态大模型能力竞争的焦点。 因果关系分析:在文本、代码、图像和视频四种模态中,Gemini语言表达简洁,GPT-4在应对各模态输入时都能深入理解和解释复杂场景。面对视频输入,在需要对时序有理解能力的因果推理问题上,特别在处理多轮交互和理解事件序列因果关系的任务中,所有模型都处于起步阶段。
实证性发现