技术科普 | 多模态大语言模型首篇综述,论文列表实时更新
新智元报道
新智元报道
【新智元导读】一篇综述、一个仓库,速通多模态大语言模型。
近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。
MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。
相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。
为此,来自中科大、腾讯等机构的研究人员深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》:
论文链接:https://arxiv.org/pdf/2306.13549.pdf
项目链接(实时更新最新论文):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
研究人员将MLLM定义为「由LLM扩展而来的具有接收与推理多模态信息能力的模型」,该类模型相较于热门的单模态LLM具有以下的优势:
1. 更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。
2. 更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。
3. 更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。
该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括:
1. 多模态指令微调(Multimodal Instruction Tuning,M-IT)
2. 多模态上下文学习(Multimodal In-Context Learning,M-ICL)
3. 多模态思维链(Multimodal Chain of Thought,M-CoT)
4. LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)
前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。
三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。
LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。
CVPR 2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。
多模态指令微调 M-IT
多模态指令微调 M-IT
指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。
通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:
图1.M-IT格式
多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。
前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为「<image> What is the answer to the question? {question}」,其中<image>和{question}(对应着图1中的<text>)为原有视觉问答任务中的图像和问题。
另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。
对于多模态指令微调,研究人员从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:
图2.M-IT总结
多模态上下文学习 M-ICL
图3.M-CoT样例
目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。
LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。
多模态思维链 M-CoT
多模态思维链 M-CoT
多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。
研究人员从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:
图4. M-CoT总结
目前M-CoT的研究也较少,仍处在初步探索阶段。
LLM辅助的视觉推理 LAVR
LLM辅助的视觉推理 LAVR
这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。
相比于传统视觉推理模型,这些工作具有以下的好的特性:
(1)强大的零/少样本泛化能力
(2)具备新的能力,这些系统能够执行更加复杂的任务,如解读梗图的深层含义
(3)更好的互动性与可控性
研究人员从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:
图5.LAVR总结
挑战和未来方向
目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,可以总结为以下几点:
1. 现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。
2. MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。
3. MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。
4. 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。
5. 高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。
上述前四点问题在与本文同系列的论文(https://arxiv.org/pdf/2306.13394.pdf)中有非常详细的评测和讨论,欢迎大家阅读。
除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。
往期回顾
2. 行业动态 | AIGC时代的翻译技术与口译教育专题研讨会圆满举办
3. 行业资讯 | 首届全国翻译技术大赛成绩公布4. 行业动态 | 北京语言大学国际语言服务研究院在雄安发布京津冀语言服务竞争力报告
行业洞见
精彩回顾 | ChatGPT和语料库会擦出什么样的火花? 精彩回顾 | 翻译语言学习遇上提示工程能擦出什么火花? 行业观察| 文理交融,相得益彰——数字人文概览 行业观察 | 王立非 付劲松:加快应急语言服务响应机制体制建设
行业技术
技术应用 | memoQ 中如何批量替换错误的原文内容? 行业科普 | 如果你也钟意BRISTOL,那真是泰酷辣! 技术应用 | 轻松翻译 InDesign 文档——IDML和INDD格式全攻略 技术科普 | SaaS本地化:挑战、 益处和最佳实践 行业技术 | LLMs能否替代人工评价作为对话生成质量的评估器?
精品课程
来了!翻译人的618,不止五折!9毛9带走海量资源! 精品课程 | 2023年暑期翻译技术实战研修班 精品课程 | GPT+:翻译、技术与语言学习工作坊 最后1天!实习证明、翻译项目,尽在四周暑期口笔译实习实践竞赛营! 一天一块钱,承包全年全方位语言服务知识学习!
资源干货
资源宝库 | 一文7款英文论文写作辅助工具 资源宝库 | 十大语言/翻译学习ChatGPT工具汇总 资源宝库|42款最强大的AI工具,建议收藏 双语干货 | 谢锋大使向中美媒体发表讲话 资源宝库|译者用“典”,多多益善——精选31款在线词典
招聘就业1. 招聘快报 | IOHA人体解剖学研究所本地化团队兼职招聘
2. 招聘快报 | 第三届翻译技术教育研究院校园大使招募3. 向AI提问,这个新职业火了4. 就业信息 | 啥是文档工程师?5. 招聘快报|年薪17万起!国企石化招聘英语翻译