查看原文
其他

【微软Paper】Agent AI 、整体智能Holistic Intelligence、大基础模型LFM

renee创业狗 Renee 创业随笔
2024-10-10

今天我看了一篇微软实验室今年二月份发布的paper:《Position Paper: Agent AI Towards a Holistic Intelligence》。这篇论文是我老婆🌱之前发给我的。论文中提出了一个关于Agent AI系统的理论。这一系统能够跨多个领域应用,并为交互操作和具象操作提供了一个基础模型。Agent AI通过利用多模态数据,这些数据通过多样化环境之间的交互获得,能够在物理和虚拟世界中运作。Agent AI展示了一种统一基础设施和系统内广泛应用和能力的有前途的方法。此外,它正逐渐被视为通向整体智能(Holistic Intelligence, HI)的有希望的路径。 

不知这是否与我之前分享的“大世界模型”类似Large World Model (LWM) - 伯克利的大世界模型。感觉这是在尝试打造一个包罗万象的模型,采用scaling law进行推进。

Agent AI 范式

论文中提到了一种Agent AI范式,用以支持具象化的多模态通才代理系统。该范式包括五个主要模块:

  1. 环境中的代理及其感知、任务规划和观察
  2. 代理学习
  3. 记忆
  4. 行动
  5. 认知与意识

这些组件的紧密整合有助于整体智能的发展。与以往的交互策略相比,这个的方法的一个关键区别在于,经过训练后,代理的行动将直接影响任务规划,而无需从环境中接收反馈即可规划后续行动。

Agent AI 意识

Agent AI能够超越简单的组件协同作用,甚至可能涉及一种“意识”。在最近基于神经科学洞见寻找人工智能意识的挑战性尝试中,神经科学家们讨论了代理性(Agency)和具象性(Embodiment)作为意识的指标。

我们的Agent AI基于语言(即文本指令)、感官输入和行动历史预测最优行动,通过生成目标导向的行动实现代理性。它还从其行动与环境结果之间的关系中学习,实现了具象性原则。因此,我们可以潜在地量化Agent AI意识的各个方面,这表明它在神经科学、生物学、物理学、生物物理学、认知科学、医疗健康和道德哲学等多个学科中的潜力。

Agent AI 模型

Agent AI 变换器

概述了一个互动代理基础模型框架。该变换器旨在处理传递不同抽象层级的多模态信息。这种方法有助于全面理解上下文,从而增强行动的连贯性。通过在多种任务领域和应用中学习,增强了模型的适应性和效能。

Agent AI 学习策略

  • 强化学习(Reinforcement Learning,RL)
  • 模仿学习(Imitation Learning,IL)
  • 传统的RGB(Red, Green, Blue)

Agent AI应用任务

机器人技术

机器人是需要与环境有效互动的代表性代理。在本节中,我们将介绍对高效机器人操作至关重要的关键元素,回顾应用了最新大型基础模型的研究主题,并分享最近研究的洞见。

游戏

游戏提供了一个独特的沙盒来测试大型基础模型的代理行为,推动它们的协作和决策能力的极限。我们特别描述了三个领域,这些领域突出了代理与人类玩家和其他代理的互动能力,以及它们在环境中采取有意义行动的能力。

互动医疗

在医疗领域,Agent AI可以通过使用大型基础模型帮助患者和医生理解用户意图、检索临床知识,并把握正在进行的人际互动,但不仅限于这些领域。

交互式多模态任务

视觉和语言理解的整合是Agent AI的基础。因此,Agent AI的发展与多模态任务的表现密切相关,包括图像字幕生成、视觉问题回答、视频语言生成和视频理解。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存