如何解决复杂的多模态理解问题？多模态Agents：用LLMs链接不同多模态专家模型

OpenMMLab 2024-04-23

【OpenMMLab 社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

在人工智能领域，多模态代理（Multimodal Agents）已经成为一个备受关注的前沿研究方向。这些代理不仅能够理解和生成文本信息，还能够处理和解析图像、声音等多种形式的数据。它们的目标是模拟人类的认知过程，使机器能够像人一样理解和处理复杂的多模态信息。

因此，该技术值得我们进行深入分析其背后的机理，本次开放麦特别邀请到微软高级研究员杨征元为大家带来多模态 Agents 的深度解读，分享多模态学习范式转变、多模态涌现能力评估、从大语言模型到多模态大模型、初步工作及未来展望。

分享内容

多模态学习范式转变，通用 Agent —— MM-ReAct
多模态涌现能力评估: MM-Vet 评价数据集
从大语言模型到多模态大模型，初步工作及未来展望

分享时间

北京时间

2023 年 10 月 26 日（周四）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

杨征元

现为微软高级研究员，2021 年获罗切斯特大学计算机博士学位，导师为罗杰波教授。主要研究方向为视觉语言和多模态。曾获得 ACM SIGMM 最佳博士论文奖，ICPR 2018最佳工业论文奖，Twitch Research Fellowship。担任TCSVT AE，AAAI 2023 SPC。

内容详情

我们回顾了关于如何使用 LLMs 链接不同多模态专家来解决复杂的多模态理解问题的迅速发展的文献，这被称为多模态代理 (multimodal agents)。我们首先概述了这种建模范式的演变，然后对多模态代理进行了一般的概述，重点介绍一个典型的多模态代理 MM-REACT。

最近的大型多模态模型（LMMs）已经展现出多种引人入胜的能力，如解决黑板上写的数学问题，推理新闻图片中的事件和名人，以及解释视觉笑话。模型的迅速进步给评估基准的开发带来了挑战。我们提出了 MM-Vet，一个评估基准，用于检查大型多模态模型（LMMs）在复杂多模态任务上的表现。

最后，鉴于LMMs 的最新进展，我们讨论了由 LMM 驱动的多模态代理的未来趋势。我们快速介绍了自动图像设计和生成领域的一个初步探索，展示了如何强大的理解模型可能为生成模型提供有用的反馈信号，从而得到更好的生成结果。

相关工作

资料：

MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

ReadPaper 论文链接：

https://readpaper.com/paper/4736103030408101889?channel=OpenMMLab

https://readpaper.com/paper/1905762433685758464?channel=OpenMMLab

https://readpaper.com/paper/2002798087143236608?channel=OpenMMLab

code:

https://github.com/microsoft/MM-REACT

https://github.com/yuweihao/MM-Vet

交流群

同时为了方便大家交流沟通，我们建立了语言大模型相关的交流群，大佬也在群里哦，提供与大佬 1v1 的机会，扫码即可入群~

1024活动来啦|尊嘟假嘟，用AI搞创作就这么简单，还有丰富奖品拿！

2023-10-20

最接近《银翼杀手》追踪杀人犯的AI？DiffBIR：统一的盲人脸修复和盲图像超分SOTA框架

2023-10-19

解锁大模型智能体核心技术，10行代码轻松构建专属AI助手！

2023-10-18

继续滑动看下一个

OpenMMLab

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效助力高质量发展？

13岁男孩杀害8岁女童案今日开庭，女童父亲：侮辱遗体、没有悔罪

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

如何解决复杂的多模态理解问题？多模态Agents：用LLMs链接不同多模态专家模型

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效 助力高质量发展？

13岁男孩杀害8岁女童案今日开庭，女童父亲：侮辱遗体、没有悔罪

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

如何解决复杂的多模态理解问题？多模态Agents：用LLMs链接不同多模态专家模型

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？