重磅!谷歌发布5620亿参数多模态模型PaLM-E,机器人操控无所不能
文|CoCo酱
ChatGPT已经是大模型的天花板了吗?
不!没有做不到,只有想不到。谷歌出手,果然不会让人失望!
谷歌悄悄上线了一个炸弹级模型——足足有5620亿参数!
PaLM-E 将真实世界的传感器信号与文本输入相结合,建立语言和感知的链接。
规模最大的模型“PaLM-E-562B”具有562B个参数,将540B的PaLM和22B的ViT集成在一起,这是目前报道的最大的视觉-语言模型。
模型输入包括视觉、连续状态估计值和文本输入。作者在多个任务(包括顺序机器人操作规划、视觉问答和字幕生成)中进行了端到端的训练,并通过评估表明,其模型能够有效地解决各种推理任务,并且在不同的观察模态和多个实体上表现出了积极的转移。该模型在进行机器人任务训练的同时,还具有先进的视觉-语言任务表现,并随着规模的增大保持了通用的语言能力。
论文链接:
https://palm-e.github.io/assets/palm-e.pdf
PaLM-E 是什么
PaLM-E是一个单一通用的多模态语言模型,可用于感知推理任务、视觉语言任务和语言任务。它将来自视觉语言领域的知识转化为体验推理的知识,从具有复杂动态和物理约束的环境中进行机器人规划,到回答关于可观察世界的问题,都可轻松搞定!
它支持多模态输入,来自任意模态(例如图像、三维表示或状态,绿色和蓝色)的输入插入文本token(橙色)旁边作为LLM的输入,进行端到端的训练。
PaLM-E的主要架构思想:将连续的、可感知的观察数据注入预先训练的语言模型的嵌入空间中,以使其能够理解这些连续数据。这是通过将连续观测数据编码为与语言嵌入空间中的语言标记具有相同维度的向量序列来实现的。这种连续信息以类似于语言标记的方式注入语言模型中。
PaLM-E是一个仅具有解码器的语言模型,可以自动地根据前缀或提示生成文本完成结果。该模型使用预先训练的语言模型PaLM,并将其赋予感知推理的能力。
模型在真实世界里的表现如何呢?
我们展示了几个示例视频,展示了如何使用PaLM-E在两个不同的真实实体上规划和执行长期任务。请注意,所有这些结果都是使用同一模型在所有数据上训练得出的。在第一个视频中,我们执行了一个长期指令“从抽屉里拿来米饼”,其中包括多个规划步骤,以及整合了机器人摄像头的视觉反馈。最后,在同一机器人上展示另一个示例,指令是“给我带一个绿色的星星”。绿色的星星是这个机器人没有直接接触过的物品。
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜推广与求职讨论群
[1]https://palm-e.github.io/