【综述专栏】港科+清华+中科院+微软等——视觉-语言智能最新综述
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
来自香港科技大学,清华大学,中国科学院大学,微软以及IDEA的 视觉-自然语言多模态学习综述。这篇综述是目前而言对VL,以及VLP总结的最详细的一篇综述。
文章链接:https://arxiv.org/abs/2203.01922
文章主要由以下几部分组成
Task Specific Problems
Vision Language Joint Representation
Scale up Models and Data
Future Trends
01
早期VL的方法都是针对特定任务设计的,这一节将这些任务分为四类。对于每个任务,总结了输入、输出、数据集、metric和主流的方法。
02
在本节中,本文介绍了VLP(VL预训练)模型的主要组成部分。如下图,VLP模型中主要有三个组件,即视觉嵌入(VE)、文本嵌入(TE)和模态融合(MF)模块。VE和TE通常分别用图像和文本进行预训练,而MF则将VE和TE提取的特征,与图像-文本的预训练进行融合。
这一节对这三个模块所使用的技术细节分别进行了展开介绍,并对预训练的必要性进行了的讨论。
03
尽管视觉-语言联合表示已经取得了令人鼓舞的进展,但上述大多数研究主要集中在对象级表示上,以追求良好的跨模态对齐。然而,它们有一个很强的假设:图像和文本对都有很好的标签,这就限制了训练数据集只能使用相对较小的有标签数据集。这一节对兴起的,无监督的VLP方法进行了介绍与总结,比如CLIP,DALL-E等。这些方法对标签没有要求,因此可以使用超大的数据集进行训练。
04
最后一节的篇幅用来讨论VL领域的发展趋势以及可能的研究方向,包括
多个模态的数据相互促进进行学习。
一个统一的框架,可以处理任意模态的数据。
VL+knowledge。将常识性的内容融入所学习的模型。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“综述专栏”历史文章
元宇宙技术综述
中国医学影像人工智能20年回顾和展望
基于深度学习的深度图补全
回顾6年深度学习的算法实践和演进
基于图神经网络的推荐系统
高新波教授:人工智能未来发展趋势分析
基于视觉的机器人抓取—从物体定位、物体姿态估计到平行抓取器抓取估计
基于图神经网络模型的特征交互建模
基于深度学习的计算机视觉研究新进展
大规模神经网络最新文献综述:训练高效DNN、节省内存使用、优化器设计
十年回顾——CV的未来:ConvNeXt or Transformer?
简述 Human Pose with Deep-learning
图像异常检测研究现状综述
NER的简单综述
深入理解LightGBM
更多综述专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!