优秀AI基础模型综述(2024年15篇论文集)
2024年8月23日
图像分割是计算机视觉领域中一个长期存在的挑战,几十年来研究不断,如N-Cut、FCN和MaskFormer等经典算法便是例证。随着基础模型(Foundation Models,FMs)的出现,当代的分割方法进入了一个新的纪元,这些方法或是通过适应FMs(如CLIP、Stable Diffusion、DINO)进行图像分割,或是开发专门的分割基础模型(如SAM)。这些方法不仅提供了卓越的分割性能,还带来了深度学习背景下前所未见的新分割能力。然而,当前图像分割研究中缺乏对这些进展所涉及的不同特征、挑战和解决方案的详细分析。本综述旨在填补这一空白,通过对围绕FMs驱动的图像分割前沿研究进行全面回顾,提供深入的分析。我们探讨了两条基本研究路线——通用图像分割(即语义分割、实例分割、全景分割)和可提示图像分割(即交互式分割、参考分割、少样本分割),并详细阐述了各自的任务设置、背景概念和关键挑战。此外,我们提供了对CLIP、Stable Diffusion和DINO等FMs中分割知识出现的洞察。本文还概述了超过300种分割方法,以涵盖当前研究努力的广度。随后,我们讨论了尚未解决的问题和未来研究的潜在方向。我们预计,这篇新颖、全面且系统的综述将促进先进图像分割系统的演进。
在本综述中,我们首次对基础模型时代的图像分割最新进展进行了全面回顾。我们引入了关键概念,并探讨了现有FMs(如CLIP、扩散模型、DINO/DINOv2)中固有的分割知识。此外,我们总结了超过300种用于解决通用和可提示图像分割任务的模型。最后,我们强调了需要填补的研究空白,并阐明了未来研究的有前景的方向。我们希望这篇综述能够成为一个催化剂,激发未来的好奇心,并持续推动对基础模型在图像分割中潜力的探索。
二、迈向视觉-语言地理基础模型:综述
Towards Vision-Language Geo-Foundation Model: A Survey
https://arxiv.org/abs/2406.09385
2024年6月13日
视觉-语言基础模型(Vision-Language Foundation Models,VLFMs)在图像描述、图像-文本检索、视觉问答和视觉定位等多模态任务中取得了显著进展。然而,大多数方法依赖于通用图像数据集进行训练,缺乏地理空间数据导致在地球观测任务中的表现较差。近年来,提出了大量的地理空间图像-文本对数据集和在其上微调的VLFMs。这些新方法旨在利用大规模、多模态的地理空间数据,构建具备多样化地理感知能力的智能模型,我们称之为视觉-语言地理基础模型(Vision-Language Geo-Foundation Models,VLGFMs)。本文对VLGFMs进行了全面综述,总结和分析了该领域的最新发展。特别地,我们介绍了VLGFMs兴起的背景和动机,突出其独特的研究意义。然后,我们系统总结了VLGFMs中使用的核心技术,包括数据构建、模型架构以及各种多模态地理空间任务的应用。最后,我们总结了对未来研究方向的洞察、问题和讨论。据我们所知,这是首次对VLGFMs进行的全面文献综述。我们持续跟踪相关工作,请访问 https://github.com/zytx121/Awesome-VLGFM。
本综述详细检查了VLGFMs的最新进展,似乎是此类研究的首篇综述。我们概述了必要的背景知识,包括VLGFM的基本概念和介绍信息。随后,我们总结了两种数据收集方法、三种模型架构和二十种基础能力。对于每种能力,我们提供了简明的描述和直观的示例。最后,我们总结了若干挑战,并突出了VLGFMs未来研究的一些方向。
2024年5月27日
随着大型语言模型(Large Language Models,LLMs)的近期流行,已有多种尝试将其扩展到视觉领域。从能够引导我们穿越陌生环境的视觉助手,到仅凭高层次文本描述生成图像的生成模型,视觉-语言模型(Vision-Language Models,VLM)的应用将显著影响我们与技术的关系。然而,要提高这些模型的可靠性,还需要解决许多挑战。语言是离散的,而视觉在更高维空间中演变,其中概念并不总是容易离散化。为了更好地理解将视觉映射到语言的机制,我们介绍了VLMs,希望能够帮助那些希望进入该领域的人。首先,我们介绍了什么是VLMs,它们如何工作以及如何训练它们。接着,我们展示并讨论了评估VLMs的方法。尽管本工作主要集中于将图像映射到语言,我们也讨论了将VLMs扩展到视频的可能性。
将视觉映射到语言仍然是一个活跃的研究领域。从对比方法到生成方法,有许多训练VLMs的方法。然而,高计算和数据成本通常是大多数研究人员面临的障碍。这主要促使了利用预训练的LLMs或图像编码器仅学习模态之间的映射。不论训练VLM的技术是什么,仍有一些普遍的考虑因素。大规模高质量的图像和字幕是推动模型性能的重要因素。提高模型的基础和将模型与人类偏好对齐也是提高模型可靠性的必要步骤。为了评估性能,已经引入了几个基准来测量视觉语言和推理能力;然而,许多基准存在严重的局限性,例如只能通过使用语言先验来解决。将图像绑定到文本并不是VLMs的唯一目标;视频也是一个重要的模态,可以用来学习表示。然而,在学习良好的视频表示之前,仍然有许多挑战需要克服。对VLMs的研究仍然非常活跃,因为还有许多组件尚待完善,以使这些模型更可靠。
2024年5月28日
本研究独特地识别并描述了当代多模态领域中四种流行的模型架构模式。通过按架构类型系统地分类模型,便于对多模态领域的发展进行监测。与近期综述论文介绍多模态架构的一般信息不同,本研究对架构细节进行了全面探讨,并识别出了四种具体的架构类型。这些类型通过其在深度神经网络模型中整合多模态输入的方法进行区分。前两种类型(类型A和B)在模型的内部层中深度融合多模态输入,而接下来的两种类型(类型C和D)则在输入阶段进行早期融合。类型A采用标准的交叉注意力机制,而类型B在内部层中使用定制设计的融合层。另一方面,类型C使用特定模态的编码器,而类型D利用标记器在模型输入阶段处理模态。识别出的架构类型有助于监控任何到任何的多模态模型发展。值得注意的是,类型C和类型D目前在构建任何到任何的多模态模型中较为受青睐。类型C以其非标记化的多模态模型架构,正在成为类型D(使用输入标记化技术)的可行替代方案。为了辅助模型选择,本研究基于数据和计算需求、架构复杂性、可扩展性、添加模态的简化、训练目标以及任何到任何的多模态生成能力,突出了每种架构类型的优缺点。
本研究独特地识别并分类了现有的多模态模型架构为四种类型。每种架构类型均进行了详细讨论,包括对一般模型架构的可视化及其各自特征的洞察。通过对现有的多模态模型架构模式进行彻底检查,本研究揭示了当前推动该领域进展的两种主要方法(类型C和类型D)。通过描述这些架构类型的优缺点并进行对比,本研究有助于模型选择。此研究将广泛存在的多模态模型映射到四种识别出的类型中。尽管模型列表已相当全面,但仍不完全。通过建立多模态架构的分类法,我们可以有效地追踪和捕捉多模态领域内不断发展的趋势和进展。
2024年8月9日
在过去的一年里,多模态大型语言模型(Multimodal Large Language Models,MLLMs)在视觉问答、视觉理解和推理等任务中展示了卓越的性能。然而,大规模的模型尺寸以及高昂的训练和推理成本,限制了MLLMs在学术界和工业界的广泛应用。因此,研究高效且轻量化的MLLMs具有巨大的潜力,尤其是在边缘计算场景中。本文综述了当前高效MLLMs的状态,具体总结了代表性高效MLLMs的时间线、高效结构和策略的研究现状,以及应用情况。最后,讨论了当前高效MLLM研究的局限性和有前景的未来方向。有关更多细节,请参阅我们的GitHub仓库:https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。
在本研究中,我们深入探讨了高效MLLM文献的领域,提供了其核心主题的全面视图,包括基础理论及其扩展。我们的目标是识别并突出需要进一步研究的领域,并建议潜在的未来研究方向。我们旨在提供关于当前高效MLLM状态的全面视角,希望能够激发更多的研究。鉴于该领域的动态性质,一些最新发展可能未能完全涵盖。为此,我们建立了一个专门的网站,通过众包方式跟踪最新进展。该平台旨在作为一个持续更新的信息来源,促进该领域的持续发展。由于篇幅限制,我们无法深入覆盖所有技术细节,但提供了该领域关键贡献的简要概述。未来,我们计划持续更新和完善网站上的信息,随着新洞察的出现不断添加内容。
2024年5月6日
视频基础模型(Video Foundation Models, ViFMs)旨在为各种视频理解任务学习通用表示。通过利用大规模数据集和强大的模型,ViFMs通过从视频数据中捕捉稳健且通用的特征来实现这一目标。本文综述分析了200多个视频基础模型,提供了涵盖14个不同视频任务的基准和评估指标的全面概述,并对这6种最常见的视频任务进行了深入的性能分析。我们将ViFMs分为三类:1)基于图像的ViFMs,这类模型将现有的图像模型适配到视频任务中;2)基于视频的ViFMs,这类模型使用视频特定的编码方法;3)通用基础模型(Universal Foundational Models, UFMs),这类模型在单一框架内结合了多种模态(图像、视频、音频、文本等)。通过比较不同ViFMs在不同任务上的性能,本综述提供了对其优缺点的有价值洞察,指导未来的视频理解研究。我们的分析意外地发现,基于图像的基础模型在大多数视频理解任务上表现 consistently 优于基于视频的模型。此外,利用多种模态的UFMs在视频任务上表现出色。我们在此分享了本文研究中涉及的ViFMs的全面列表:https://github.com/NeeluMadan/ViFM_Survey.git。
本综述提供了对视频基础模型(ViFMs)的全面且首次深入探索。我们首先建立了基础,包括对视频理解任务、相关架构、预训练数据集以及ViFM预训练方法的讨论。我们将ViFM创建的核心方法分类为三种主要技术:图像模型扩展、基于视频的模型(专注于视频或视频-文本预训练)以及统一的图像-视频ViFMs(适用于图像和视频任务)。通过比较各种ViFMs在视频任务上的表现并基于方法和结果提供洞察,我们旨在为研究界提供对现有ViFMs的全面概述,同时突出关键的未来探索领域。我们相信,这将推动视频建模的进一步发展,并释放ViFMs的全部潜力。
2024年5月6日
通用世界模型代表了实现人工通用智能(AGI)的重要途径,是从虚拟环境到决策系统等多种应用的基石。最近,Sora 模型因其显著的模拟能力而获得了广泛关注,展现了对物理法则的初步理解。在本综述中,我们对世界模型的最新进展进行了全面的探索。我们的分析涵盖了视频生成领域的前沿生成方法,其中世界模型作为关键构建块,促进了高度逼真的视觉内容的合成。此外,我们还审视了自主驾驶世界模型的新兴领域,详细描述了它们在重塑交通和城市流动性方面的不可或缺的作用。进一步地,我们探讨了部署在自主体中的世界模型的复杂性,阐明了它们在动态环境背景下实现智能交互中的深远意义。最后,我们检查了世界模型的挑战和局限性,并讨论了其潜在的未来发展方向。我们希望本综述能作为研究社区的基础参考,并激发持续的创新。该综述将定期更新,网址为:https://github.com/GigaAI-research/General-World-Models-Survey。
在本综述中,我们对通用世界模型进行了全面回顾,强调了它们在追求AGI和各种领域中的基础应用的重要性,从沉浸式虚拟环境到复杂的决策系统。通过我们的审查,Sora 模型因其无与伦比的模拟能力和对物理原理的初步理解而脱颖而出,标志着世界模型演变中的一个重要里程碑。我们深入探讨了当前的创新,特别关注世界模型在视频生成、自主驾驶和自主体操作中的应用。尽管取得了进展并展现了有前景的前景,我们也批判性地评估了当前世界模型方法面临的挑战和局限性,思考其复杂性、伦理考虑和可扩展性。本综述不仅展示了世界模型的现状和潜力,还照亮了它们未来发展和应用的道路。我们希望本综述能够激发社区探索新颖的解决方案,从而拓宽世界模型及其在塑造AGI未来中的应用的视野。
八、基础模型在推动自动驾驶中的前景作用
Prospective Role of Foundation Models in Advancing Autonomous Vehicles
https://arxiv.org/abs/2405.02288
2024年5月17日
随着人工智能的发展和深度学习的突破,大规模基础模型(如GPT、Sora等)在自然语言处理和计算机视觉等许多领域取得了显著成果。基础模型在自动驾驶中的应用具有相当大的潜力。例如,它们可以提升场景理解和推理能力。通过在丰富的语言和视觉数据上进行预训练,基础模型能够理解和解释驾驶场景中的各种元素,并提供认知推理,以生成语言和行动指令来指导驾驶决策和规划。此外,基础模型可以基于对驾驶场景的理解来增强数据,从而提供那些在常规驾驶和数据收集过程中不太可能遇到的长尾分布中的罕见情景。这种增强可以进一步提高自动驾驶系统的准确性和可靠性。另一个基础模型应用潜力的例证是世界模型,如DREAMER系列,它展示了理解物理法则和动态的能力。在自监督学习范式下,世界模型能够生成未见但合理的驾驶环境,促进道路使用者行为的预测和驾驶策略的离线训练。本文综合了基础模型在自动驾驶中的应用及未来趋势。通过利用基础模型的强大能力,我们致力于解决自动驾驶中长尾分布带来的潜在问题,从而推进该领域的整体安全性。
本文提供了基础模型在自动驾驶中应用的全面概述。在第3节中,详细总结了基础模型(如LLMs和VLMs)在自动驾驶中的应用研究。在第4节中,我们展示了世界模型在自动驾驶领域的探索性应用。在第5节中,详细描述了基础模型的数据增强工作。总体而言,基础模型可以有效地在数据增强和模型优化方面辅助自动驾驶。
为了评估基础模型在自动驾驶中的有效性,我们在表6中将不同的基础模型与传统方法进行比较,考察它们在运动规划方面的有效性。由于LLMs和VLMs的相对成熟,可以观察到基于它们的方法在提升自动驾驶方面已得到整体改进。相比之下,基于世界模型的方法仍在进一步探索中,已发布的工作相对较少。然而,通过前述分析,我们也可以看到世界模型在学习物理世界的演变规律方面表现优异,并在提升自动驾驶方面具有巨大潜力。
挑战与未来方向。尽管如此,从以往研究中可以明显看出,基于基础模型的自动驾驶尚不够成熟。这一现象可以归因于多个因素。基础模型存在幻觉问题[214, 215],以及在学习视频这一高维连续模态方面的限制。此外,推理延迟[216, 217]引发的部署问题以及潜在的伦理影响和社会影响也需要考虑。
幻觉问题。幻觉错误问题主要表现为自动驾驶中的错误识别,如错误的目标检测,这可能导致严重的安全事故。幻觉问题主要是由于数据集中样本有限或模型受到不平衡或噪声数据的影响,因此需要通过扩展数据和对抗训练来增强稳定性和泛化能力。
实际部署。正如之前讨论的,目前关于基础模型在自动驾驶中的研究大多基于开源数据集实验[94, 95]或模拟环境中的闭环实验[105, 119],这在实时性考虑方面还不够充分。此外,一些研究[216, 217]指出,大型模型存在一定的推理延迟,这可能在自动驾驶应用中引发重大安全问题。为了进一步探索基础模型在自动驾驶实时应用中的有效性,我们进行了实验[218]。我们使用LoRA对LLaMA-7B[78]进行微调,微调后的LLM能够生成驾驶语言指令。为了验证其在驾驶场景中的实时性能,我们分别在单个GPU A800和单个GPU 3080上进行了推理,生成6个标记所需的时间分别为0.9秒和1.2秒,有效验证了基础模型在车辆部署中的可能性。为了进一步利用车辆中的计算资源,可以考虑将其他模块,如智能座舱,部署在云端。因此,最终的实际部署形式可以推测为:将智能座舱模块部署在云端,而将智能驾驶模块直接部署在车辆中,这是相对更合理的选择。未来,随着边缘计算和车载计算能力的提高[219],可能逐渐转向车辆、道路和云端的混合部署模式,以进一步提高实时响应能力和隐私保护。
AI对齐。基础模型(FMs)在包括自动驾驶在内的各个行业的深入应用是一个显著的趋势。然而,随着相关研究的推进,对人类社会的风险也在增加。表现出不良行为(如欺骗)的高级AI系统,尤其是在直接关系到个人安全的自动驾驶领域,引发了严重的讨论和反思。对此,提出了AI对齐(AI Alignment),并正在发展。AI对齐的目标是使AI系统的行为与人类的意图和价值观相一致。这种方法关注的是AI系统的目标而非其能力[220]。AI对齐有助于控制风险、提高操作鲁棒性、确保人类伦理性和可解释性,并在各种领域中实施高级AI系统[221]。这是一项涵盖多个AI相关学科的大规模研究工作。由于本文重点讨论自动驾驶领域,未深入探讨风险原因和解决方案,因此在此不再详细说明。在自动驾驶领域,需要注意的是,在推动基础模型应用的同时,研究人员必须在AI对齐的指导下建立合理的技术伦理。这包括关注算法公平性、数据隐私、系统安全性以及人机关系等问题。此外,还需促进技术发展与社会价值的统一,以避免潜在的伦理和社会风险。
视觉涌现能力。基础模型在模型扩展方面展现了惊人的涌现能力,并在自然语言处理领域取得了成功。然而,在自动驾驶的背景下,由于数据有限和上下文长度扩展问题,这一研究方向面临额外的挑战。这些挑战导致对宏观驾驶场景的理解不足,从而使长期规划变得复杂。驾驶视频是一个高维连续模态,数据量极其庞大(比文本数据大几个数量级)。因此,训练大型视觉模型需要更宏观的场景分布,以嵌入足够的视频帧来推理复杂的动态场景,这要求更稳健的网络结构和训练策略来学习这些信息。Bai 等人[222]在最近的研究中提出了一种两阶段的方法,其中将图像转换为离散的标记以获得“视觉句子”,然后进行自回归预测,类似于语言模型的标准方法[13]。另一个有前景的解决方案可能在世界模型(World Models)中。如第4节所述,世界模型可以通过观察少量与任务相关或无关的事件来学习世界的内在演化规律。然而,世界模型在探索性应用中也存在一定的局限性,例如模型预测结果的不确定性以及学习何种数据能够捕捉世界运作的内在规律,这些仍需进一步探索。
总之,尽管在将基础模型应用于自动驾驶中面临许多挑战,但其潜力已经开始显现。未来,我们将继续关注基础模型在自动驾驶领域的进展。
2024年7月12日
大规模模型在多个应用领域代表了重大的进步,使得在各种任务上取得了显著的成就。然而,它们前所未有的规模带来了显著的计算成本。这些模型通常由数十亿个参数组成,执行这些模型需要大量的计算资源。尤其是,庞大的规模和计算需求在针对特定下游任务进行定制时,特别是在受限于计算能力的硬件平台上,面临相当大的挑战。
参数高效微调(PEFT)提供了一种实用的解决方案,通过高效地调整大规模模型以适应各种下游任务。具体而言,PEFT指的是调整预训练大规模模型的参数,以使其适应特定任务或领域,同时尽量减少引入的额外参数数量或所需的计算资源。这种方法在处理具有大量参数的大规模语言模型时尤为重要,因为从头开始微调这些模型可能会消耗大量的计算资源,并对支持系统平台设计提出了相当大的挑战。
在本综述中,我们全面介绍了各种PEFT算法,考察了它们的性能和计算开销。此外,我们还概述了使用不同PEFT算法开发的应用,并讨论了常用的减轻计算成本的技术。除了从算法角度提供广泛的综述外,我们还考察了各种实际系统设计,以研究不同PEFT方法相关的实施成本。本综述为希望了解PEFT算法及其系统实施的研究人员提供了宝贵的资源,详细介绍了最近的进展和实际应用。
在当前由大规模模型和大数据集主导的时代,PEFT作为一种高效地将模型适应于下游任务的方法,显得尤为吸引人。这一技术通过解决传统全模型微调所面临的巨大计算和数据需求的挑战,展现了其魅力。本文综述了PEFT领域的最新进展,包括算法设计、计算效率、应用场景和系统实施。提供了全面的分类和解释,为不同水平和学科的读者提供了快速掌握PEFT核心概念的优秀指导和知识基础。
2024年2月28日
Sora是一种文本到视频的生成型人工智能模型,由OpenAI于2024年2月发布。该模型经过训练,能够根据文本指令生成现实或富有想象力的场景视频,并在模拟物理世界方面展示了潜力。基于公开的技术报告和反向工程,本文对该模型的背景、相关技术、应用、现存挑战以及文本到视频人工智能模型的未来方向进行了全面的综述。我们首先追溯了Sora的发展历程,并研究了构建这一“世界模拟器”的底层技术。接着,我们详细描述了Sora在电影制作、教育和营销等多个行业的应用及其潜在影响。我们讨论了需要解决的主要挑战和局限性,例如确保视频生成的安全性和公平性。最后,我们探讨了Sora和视频生成模型的未来发展,以及该领域的进步如何促成人工智能与人类交互的新方式,从而提升视频生成的生产力和创造力。
我们对Sora进行了全面的综述,以帮助开发者和研究人员研究Sora的能力及相关工作。本综述基于对已发布技术报告的调查以及基于现有文献的反向工程。我们将继续更新本文,当Sora的API可用并且有关Sora的进一步细节被披露时。我们希望这篇综述论文能成为开源研究社区的宝贵资源,并为社区共同开发Sora的开源版本奠定基础,以实现AIGC时代的视频自动生成民主化。为实现这一目标,我们邀请各方面的讨论、建议和合作。
十一、大型多模态智能体:综述
Large Multimodal Agents: A Survey
https://arxiv.org/abs/2402.15116
2024年2月23日
大型语言模型(LLMs)在推动基于文本的人工智能智能体方面取得了卓越的性能,使这些智能体具备了类似于人类的决策和推理能力。同时,延伸这些LLM驱动的人工智能智能体到多模态领域已成为一种新兴的研究趋势。这种扩展使得人工智能智能体能够解释和响应多种多模态的用户查询,从而处理更复杂和微妙的任务。在本文中,我们对LLM驱动的多模态智能体(简称为大型多模态智能体,LMAs)进行了系统性的综述。首先,我们介绍了开发LMAs所涉及的基本组件,并将当前的研究工作分为四类。接着,我们回顾了集成多个LMAs的协作框架,提升了集体效能。该领域的一个关键挑战是现有研究中使用的多样化评估方法,这限制了不同LMAs之间的有效比较。因此,我们汇总了这些评估方法,并建立了一个全面的框架来弥合这些差距。该框架旨在标准化评估,促进更有意义的比较。最后,我们突出了LMAs的广泛应用,并提出了可能的未来研究方向。我们的讨论旨在为这一快速发展的领域的未来研究提供宝贵的洞察和指导。最新的资源列表可在 https://github.com/jun0wanan/awesome-large-multimodal-agents上获取。
在本综述中,我们对LLM驱动的多模态智能体(LMAs)的最新研究进行了全面的概述。我们首先介绍了LMAs的核心组件(即感知、规划、行动和记忆),并将现有研究分类为四个类别。接着,我们汇总了评估LMAs的现有方法,并制定了一个全面的评估框架。最后,我们重点关注了LMAs领域中的一些当前和重要的应用场景。尽管取得了显著进展,但该领域仍面临许多未解决的挑战,且有相当大的改进空间。基于综述的进展,我们最终强调了几个有前景的方向:
洞察关于框架:LMAs的未来框架可能会从两个不同的角度发展。从单一智能体的角度来看,发展可能会朝着创建一个更统一的系统方向前进。这涉及到规划者直接与多模态环境进行互动[71],使用全面的工具集[30],并直接操作记忆[51];从多个智能体的角度来看,提升多个多模态智能体之间的有效协调以执行集体任务成为一个关键的研究方向。这包括协作机制、通信协议和战略任务分配等基本方面。 洞察关于评估:该领域迫切需要系统化和标准化的评估框架。理想的评估框架应涵盖一系列评估任务[58, 16],从简单到复杂,每个任务都应具有重要的相关性和实用性。评估框架应包括明确和公正的评估指标,这些指标应精心设计以全面、非重复地评估LMA的各种能力。此外,评估所使用的数据集应经过精心策划,以更好地反映真实世界场景。 洞察关于应用:LMAs在现实世界中的潜在应用是巨大的,为传统模型曾面临的挑战问题提供了新的解决方案,如网页浏览。此外,LMAs与人机交互领域的交汇[54, 44]代表了未来应用的重要方向。它们从各种模态中处理和理解信息的能力使其能够执行更复杂和微妙的任务,从而提升其在现实世界场景中的实用性,并改善人类与机器之间的互动。
2024年2月20日
通过扩散模型(DMs),我们在生成高质量图像方面取得了显著进展。我们对这些模型的探索深入到其核心操作原理,系统地研究了各种DM架构中的关键方面:i) 噪声调度,ii) 采样器,以及 iii) 引导。我们对这些模型的全面审查揭示了它们隐藏的基本机制,展示了其有效性的隐含基础元素。我们的分析强调了决定模型性能的关键隐藏因素,并提供了有助于推动扩散模型发展的洞察。过去的研究表明,噪声调度、采样器和引导的配置对于生成图像的质量至关重要;然而,模型在不同配置下达到稳定的质量水平时,往往在一个相似的点上,这表明,优化性能的决定性因素主要存在于扩散过程的动态和模型网络的结构设计中,而非配置细节的具体内容。我们的比较分析表明,基于去噪扩散概率模型(DDPM)的扩散动态始终优于基于噪声条件评分网络(NCSN)的模型,无论是在原始形式还是在通过基于随机微分方程(SDE)的实现进行连续评估时。
2024年2月8日
基础模型的最新进展,如大型语言模型(LLMs)和视觉-语言模型(VLMs),通过在广泛数据上训练,促进了它们在不同任务和模态中的灵活应用。这些模型的影响涵盖了多个领域,包括医疗保健、教育和机器人技术。本文概述了基础模型在现实世界机器人中的实际应用,主要强调了在现有机器人系统中替换特定组件的情况。总结了基础模型中输入-输出关系的视角,以及它们在机器人技术中的感知、运动规划和控制的作用。本文最后讨论了实际机器人应用中的未来挑战和影响。
将基础模型应用于机器人技术是一个令人兴奋且变化迅速的领域。在本研究中,我们汇编了有关基础模型在现实世界机器人应用的各种研究。特别是,我们关注了现有机器人系统如何被基础模型替代。首先,为了将基础模型应用于真实机器人,我们基于输入和输出模态及其转换的视角对其进行了分类。接下来,我们根据五个方面对这些基础模型进行分类:低级感知、高级感知、高级规划、低级规划和数据增强。然后,我们对这五个方面的组合模式进行了分类。随后,我们从模型架构、数据集和学习目标的角度总结了机器人基础模型的构建,包括动作等方面。最后,我们总结了研究现实世界机器人应用的基础模型所涉及的机器人、任务和环境方面。
鉴于这一领域的快速发展,涵盖所有研究论文具有挑战性,但也使我们能够观察到发展趋势。目前有几个积极的发展方向。其中一个涉及将现有基础模型应用于机器人运动,重点是增加不同模态的使用。此外,还有趋势是利用更多的数据和更大的模型构建机器人基础模型。这个方向还包括构建在各种体型中具有普遍性的一般基础模型,并探索超越Transformer的模型使用,例如扩散模型。此外,对低级运动控制的研究仍然相对稀缺,能够在真实家庭和户外环境中蓬勃发展的机器人数量也有限。对这些领域未来发展的期望仍然很高。我们希望本研究能够为未来利用基础模型提供指导。
未来挑战
首先,我们讨论现有基础模型在现实世界机器人应用中的情况。尽管已经开发了多种基础模型用于不同模态之间的相互转换,并且它们在机器人中的应用正在推进,但仍有许多模态尚未被充分利用。尤其是深度信息、力反馈、惯性传感器以及人类、物体和机器人的运动信息尚未被完全挖掘,尽管语言、图像和声音信息的例子多种多样。此外,运动规划的技能粒度相关问题仍需解决。机器人技能的层级组织、技能API的结构化及新增技能的添加,预计将成为未来的重要关注点。
接下来,我们详细讨论了机器人基础模型。虽然已经开发了多种机器人基础模型,但它们的控制周期异常缓慢。这些当前模型不适合需要精细力控制或与人类协作的任务。
然后,我们讨论了全方位的实际机器人应用。通过各种研究观察到,户外环境的研究实例较少,许多设置缺乏对真实环境的反映,通常由玩具问题组成。现成机器人使用的限制了多样性。此外,大多数设置主要基于位置控制,少有利用扭矩控制或软体机器人的例子。预计未来由各研究机构开发的机器人将与基础模型整合,并将在更真实的环境中增加操作实例。
接下来,使用基础模型对各种环境和任务的机器人泛化能力是未来的挑战。目前,应用基础模型于开放世界环境的例子,如OVMM、OK-Robot和GOAT,正在增加。我们相信这个方向代表了朝着超越传统机器人的新机器人能力的重大进展。
最后,随着通过语言指令执行任务的普及,性能的定量评估变得具有挑战性。已经出现了如CALVIN和ARNOLD等基准,进行语言指令任务的模拟器评估。然而,在现实世界中实现公平评估并不容易。此外,还需要考虑如何评估与人类的互动。
2024年1月29日
多模态大语言模型(MLLMs)在生成针对多模态内容的合理响应方面展现了令人印象深刻的能力。然而,即便是最强大的OpenAI的GPT-4和Google的Gemini已经部署,最近的MLLM应用的性能与公众的广泛期望之间仍存在较大差距。本文旨在通过对近期专有和开源MLLM在四种模态(即文本、代码、图像和视频)中的泛化能力、可信度和因果推理能力的定性研究,提升对这一差距的理解,最终旨在提高MLLM的透明度。我们认为这些属性是定义MLLM可靠性的几个代表性因素,以支持各种下游应用。具体来说,我们评估了封闭源的GPT-4和Gemini,以及6个开源LLM和MLLM。总体而言,我们评估了232个手动设计的案例,定性结果总结为12个评分(即4种模态×3种属性)。总之,我们揭示了14项经验发现,这些发现对理解专有和开源MLLM的能力与局限性,以及更可靠的下游多模态应用具有重要意义。
本报告对多模态大语言模型(MLLMs)在文本、代码、图像和视频方面的泛化能力、可信度和因果推理进行了深入分析。尽管GPT-4和Gemini等模型体现了技术进步,但MLLM性能与公众期望之间仍存在显著差距。我们对封闭源模型和6个开源MLLM进行了230个案例的定性评估,结果形成了12个评分,揭示了14项经验发现。这些发现突出了当前MLLM的优势和局限,强调了需要进一步研究以弥合现有差距,从而实现更可靠和透明的应用。我们将通过不断添加更多MLLM的评估结果、增加测试案例和评估结果来更新排行榜。更多信息请访问:https://openlamm.github.io/Leaderboards。我们希望我们的工作能为未来MLLM的设计和改进提供一些指导,为该领域的发展做出适度的贡献。
2023年12月15日
基础模型的出现,尤其是那些在大量数据集上进行预训练的模型,标志着计算机视觉领域进入了一个新的时代,这一时代的特征是其稳健性和卓越的零样本泛化能力。与在自然语言处理领域的基础模型(如大语言模型,LLMs)所带来的变革性影响相类似,视觉基础模型(VFMs)已成为计算机视觉领域开创性发展的催化剂。本文综述了VFMs的重要发展轨迹,重点介绍了其在生成任务(如文本到图像合成)的可扩展性和能力,以及在判别任务(如图像分割)中的熟练程度。尽管生成模型和判别模型历史上各自发展独立,本文对VFMs在这两个领域的最新进展进行了全面的考察,阐明了它们的起源、开创性突破和关键方法。此外,我们汇总并讨论了促进VFMs发展的广泛资源,并探讨了未来研究所面临的挑战。未来创新的一个重要方向是生成与判别范式的融合。生成模型在判别任务中的新兴应用标志着这一融合的初期阶段。本文旨在为学者和实践者提供一个当代的综述,描绘VFMs的发展历程,并揭示其多面的景观。
本文综述了视觉基础模型(VFM)的演变及其当前状态,强调了它们对计算机视觉及相关领域的变革性影响。我们分析了生成视觉基础模型(GVFM)的进展,特别是利用这些模型的行业领先产品所取得的成就。此外,我们对判别视觉基础模型(DVFM)的探索提供了详细的分类,并审查了其应用,包括但不限于图像分类、目标检测和分割。生成视觉基础模型与判别视觉基础模型的交集已成为创新的沃土,揭示了生成模型在判别任务中的潜力。我们的分析还扩展到了VFMs与LLMs之间的协同效应,指出了模型互动性和用户参与度的增长领域。这一思想的综合旨在推动该领域进入一个新的前沿,在这个前沿上,VFMs不仅展示了先进的视觉理解能力,还能在多种任务中无缝互动。
随着VFMs领域的不断发展,我们预计生成与判别能力的进一步融合将带来更全面和复杂的模型。创建互动性、多模态和适应性系统的推动将是下一步的跃进,有望解锁前所未有的应用和能力。我们希望这篇综述能够成为持续创新和研究的催化剂,塑造计算机视觉技术的未来发展轨迹。
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)