12种模态16种不同的感知任务,一个框架就够了!
【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
多模态学习旨在构建能够处理和关联来自多种模态信息的模型。尽管该领域已经发展多年,但由于各种模态(例如自然语言、2D 图像、3D 点云、音频、视频、时间序列、表格数据)之间固有的差距,设计一个统一的网络来处理这些模式仍然具有挑战性。为了解决这一挑战,港中文 MMLab 联合上海 AI Lab 提出了一个统一多模态学习框架—— Meta Transformer,采用全新的设计思路,通过统一学习无配对数据,可以理解 12 种模态信息。
本期开放麦,我们邀请到该工作的一作,港中文 MMLab 博士生张懿元,分享他们在该方向的探索。
分享内容
计算机视觉、自然语言处理与3D视觉的融合
多模态下的骨干网络泛化
多模态预训练
分享时间
北京时间
2023 年 9 月 7 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
张懿元
香港中文大学 MMLab 博士生,研究方向包括多模态学习和基础模型设计。
内容详情
人脑被认为是神经网络模型的灵感来源,它处理来自各种感官输入的信息,例如同时发出的视觉、听觉和触觉信号。而且很多时候,一种模态的信息可能会有利于另一种模态信息的理解。然而,在现阶段的深度学习中,各种模态的数据格式有着显著的差距,要想设计一个能处理各种模态数据的网络是一个很有难度的任务。
这主要是因为,每种数据模态都呈现独特的学习模式,这使得训练模型难以适应从一种模态到另一种模态。例如,图像数据由于像素密集分布,表现出高度的信息冗余,但自然语言数据却并非如此;点云在 3D 空间中分布稀疏,使得它们更容易受到噪声的影响,并且提取代表性的点十分具有挑战性;然而音频频谱图是时变且非平稳的数据,往往视作跨频域的波组合而成;视频又包含一系列图像帧,这使其具有捕获空间信息和时间信息的独特能力, 图数据将实体表示为节点,将关系表示为图中的边,侧重于建模实体之间复杂的多对多关系。
由于不同模态之间存在着实质性差异,通常的做法是利用不同的网络架构来分别对每种模态进行编码。例如,Point Transformer 利用向量级位置注意从 3D 坐标中提取结构信息,但直观而言,它很难被直接用来处理图像、自然语言段落或音频频谱图切片。因此,设计一个统一的框架能够利用模态共享参数空间来编码多种数据模态仍然是一个问题重大挑战。
为解决上述挑战,作者提出了全新的统一多模态学习框架—— Meta-Transformer,该框架能处理并关联来自多种模态的信息,包括自然语言、2D 图像、3D 点云、音频、视频等。它实现了无配对训练数据的场景下进行多模态感知,是第一个能够在 12 种模态上进行统一学习的框架。Meta-Transformer 能够有助于将多模态大模型推广至更多模态,也为实现统一的多模态智能提供了参考。Meta-Transformer 具有的多模态感知理解能力也会为人工智能技术作为服务全社会的基础设施,对于教育、医疗、娱乐等领域提供更智能、更便捷、更丰富多元的服务。
相关工作
Meta-Transformer: A Unified Framework for Multimodal Learning
Paper:
https://readpaper.com/paper/1880723763752826112?channel=OpenMMLab
(文末点击阅读原文可直达)
https://arxiv.org/pdf/2307.10802.pdf
Code:
https://github.com/invictus717/MetaTransformer
交流群
同时为了方便大家交流沟通,我们还建立了多模态相关的交流群,提供与大佬 1v1 的机会,扫码即可入群~
往期回顾
在视频生成领域,有能力生成高质量视频内容的模型向来短缺,对于下游不同类型的视频例如电影和短视频的创作也更是天方夜谭。为了打破这一困境,微软亚洲研究院(MSRA)联合多所高校在视频生成领域提出了一系列工作,涵盖基础生成模型和实现下游视频生成任务的应用模型。
上期开放麦,我们邀请到微软亚洲研究院多模态计算组高级研究员杨欢,他详细介绍视频生成领域的一系列新工作。通过此次分享,你可以了解到生成模型的发展、基础视频生成模型MM-Diffusion和VideoFactory、视频生成应用MovieFactory和MobileVidFactory,以及视频生成领域的机会与挑战。
超多干货,欢迎通过视频回放温习一下哦~
2023-09-01
2023-08-31