如何解决复杂的多模态理解问题?多模态Agents:用LLMs链接不同多模态专家模型
【社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
在人工智能领域,多模态代理(Multimodal Agents)已经成为一个备受关注的前沿研究方向。这些代理不仅能够理解和生成文本信息,还能够处理和解析图像、声音等多种形式的数据。它们的目标是模拟人类的认知过程,使机器能够像人一样理解和处理复杂的多模态信息。
因此,该技术值得我们进行深入分析其背后的机理,本次开放麦特别邀请到微软高级研究员杨征元为大家带来多模态 Agents 的深度解读,分享多模态学习范式转变、多模态涌现能力评估、从大语言模型到多模态大模型、初步工作及未来展望。
分享内容
多模态学习范式转变,通用 Agent —— MM-ReAct
多模态涌现能力评估: MM-Vet 评价数据集
从大语言模型到多模态大模型,初步工作及未来展望
分享时间
北京时间
2023 年 10 月 26 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
杨征元
现为微软高级研究员,2021 年获罗切斯特大学计算机博士学位,导师为罗杰波教授。主要研究方向为视觉语言和多模态。曾获得 ACM SIGMM 最佳博士论文奖,ICPR 2018最佳工业论文奖,Twitch Research Fellowship。担任TCSVT AE,AAAI 2023 SPC。
内容详情
我们回顾了关于如何使用 LLMs 链接不同多模态专家来解决复杂的多模态理解问题的迅速发展的文献,这被称为多模态代理 (multimodal agents)。我们首先概述了这种建模范式的演变,然后对多模态代理进行了一般的概述,重点介绍一个典型的多模态代理 MM-REACT。
最近的大型多模态模型(LMMs)已经展现出多种引人入胜的能力,如解决黑板上写的数学问题,推理新闻图片中的事件和名人,以及解释视觉笑话。模型的迅速进步给评估基准的开发带来了挑战。我们提出了 MM-Vet,一个评估基准,用于检查大型多模态模型(LMMs)在复杂多模态任务上的表现。
最后,鉴于LMMs 的最新进展,我们讨论了由 LMM 驱动的多模态代理的未来趋势。我们快速介绍了自动图像设计和生成领域的一个初步探索,展示了如何强大的理解模型可能为生成模型提供有用的反馈信号,从而得到更好的生成结果。
相关工作
资料:
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
ReadPaper 论文链接:
https://readpaper.com/paper/4736103030408101889?channel=OpenMMLab
https://readpaper.com/paper/1905762433685758464?channel=OpenMMLab
https://readpaper.com/paper/2002798087143236608?channel=OpenMMLab
code:
https://github.com/microsoft/MM-REACT
https://github.com/yuweihao/MM-Vet
交流群
同时为了方便大家交流沟通,我们建立了语言大模型相关的交流群,大佬也在群里哦,提供与大佬 1v1 的机会,扫码即可入群~
2023-10-23
2023-10-19