AGI 难在哪里?
有点标题党了,更合适的标题是:多模态大模型难在哪里?
1、多模态大语言模型的能力
看到一篇论文,《LVLM-eHub:大型视觉-语言模型的全面评估基准》,讨论多模态大模型主要能力:
为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny LVLM-eHub。
论文提出了一个多模态能力与数据集,整合了 6 大类多模态能力:
a. 视觉感知(visual perception)
b. 视觉信息提取(visual knowledge acquisition)
c. 视觉推理(visual reasoning)
d. 视觉常识(visual commonsense)
e. 具身智能(Embodied intelligence)
f. 幻觉(Hallucination)
六大多模态能力结构图
这个评测论文比较清晰地列了多模态模型的能力,其中视觉感知、视觉信息提取最基础(虽然目前还是有技术难点),视觉推理、视觉常识是更高级也更难的推理能力——当然,最难的还是最后两项,具身智能和幻觉。
具身智能涉及将大模型接入机器人后的更高层的计划和决策能力。
幻觉则是大语言模型本身就很危险和棘手的问题。
结合最近的学习体会(参考资料见文末),稍微展开讲讲具身智能和幻觉。
2、具身智能难在哪里?
具身智能难在哪儿?一言以蔽之,训练数据难以获取。
相比LLM可以直接用互联网上的所有数据(虽然肯定也有难度),具身智能(或者简单理解为机器人)的训练数据非常难获取,换句话说,所有涉及到力学的数据,类似于「训练机器人拿起一杯水」,压根没有现成的数据可以获取。
作为神经网络的大语言模型,本质上是模仿人脑神经元的输入层、隐藏层、输出层,原理上,可以简单理解为输入层即输入内容(比如你给ChatGPT输入Prompt)、输出层即输出结果(ChatGPT给你的回答)、隐藏层就是大量复杂的算法,有无数层级、千亿参数(比如Transformer架构上的ChatGPT)。
隐藏层这套复杂的算法是怎么来的呢?有人设计了算法架构,然后训练出来的。怎么训练?依靠海量的数据,比如 GPT-3 预训练阶段的数据量为 3000亿token,LLaMa 预训练阶段的数据量为1-1.4万亿token。
(注:此处是我作为神经网络门外汉简单粗暴的理解,如有错误,欢迎评论留言指正)
具体到具身智能的训练量,当然没有语言模型那么大,但肯定也是不小的。
目前的数据获取方式是怎样的呢?有2类:
1、从模拟器获取获取
包括数字模拟器和物理模拟器,比如上图里列的 Minecraft 我的世界,作为全球最大的虚拟游戏之一,虽然方块画面看着很简陋,但它可以很大程度上模拟现实世界的活动,提供逼近真实世界的数据,从而训练具身智能需要的各项能力。OpenAI早年最出圈的捉迷藏游戏,就是在 Minecraft 上完成的。
2、通过机器人获取
购买大量机器人,让它们在物理世界互动,直接采集机器人在物理世界的真实数据。这个其实挺好的,缺点就是费钱……
3、幻觉问题可解吗?
大家都知道,幻觉这是大语言模型最大、也最需要解决的问题。
但其实,这也是不可解的问题:大语言模型 predict the next token 的概率特点,决定了幻觉是大语言模型内生的问题,本质上不可解决。
就是说,你也许可以把幻觉比例从10%降低到5%甚至1%、0.1%——但不可能不会到0,不可能完全没有幻觉。
这种内生性很有意思,其实大家所喜欢的大语言模型的「大」、「通用」,往往就是因为它在不知道怎么回答的时候,仍然可以回答,好像啥都懂,所以神奇——但副作用就是,当它真的不知道怎么回答的时候,它就一本正经的胡说八道了。
好家伙,竟然是无法根治的问题?!
但具体到应用,我们还是希望幻觉越低越好哇!
那怎么办呢?虽然不可解,但还是有降低的方式。具体来说,有2个层次:模型层和应用层。
模型层
OpenAI、Anthropic、Google、Meta这些做大模型的,大致上通过2种办法去处理幻觉问题:
1、在现有Transformer架构上用强化学习的办法降低幻觉:让模型自己能识别到自己出现幻觉(错误),并自我修正;比如RLHF。
2、在特定问题上用更好的自我训练来降低幻觉:比如写代码场景,先用代码编辑器识别问题,让模型通过自我训练修正。
应用层
利用「LLM创意有余而精准不足」的特点,在应用场景、产品定位上扬长避短
1、比如Character.ai、Pi,都选择了聊天、个人助手的场景,这类非工作场景对创意、情绪价值要求更高,而对精准度要求低,对幻觉容忍度高,用户更容易接受。
2、反过来,类似法律(尤其是合同起草、修订)、医疗(尤其是开处方)等对精确度要求极高的场景,基于现有的模型能力现在去开发应用就可能不是一个非常ready的状态。
当然,反过来说,这类场景也需要你在底层模型能力做更多优化——相应的,万一你做出来了,也更有壁垒的事情,比如百川就在做这样的事情。
说回标题党的问题,为什么最后还是用了《AGI难在哪里》的标题呢?
因为——虽然AGI的定义从来没达成过一致——假设把多模态大模型的视觉感知、视觉信息提取、视觉推理、视觉常识、具身智能、幻觉这6项能力都实现了,是否也就实现了AGI的雏形呢?
相关阅读:
参考链接:
LVLM-eHub 论文 https://arxiv.org/abs/2306.09265
Tiny LVLM-eHub 论文 https://github.com/OpenGVLab/Multi-modality-Arena
对话Deepmind、英伟达大语言模型专家:AI Agent智能体与开源LLM的应用、挑战与未来 https://www.xiaoyuzhoufm.com/episode/64dcf11de490c5dee5a3d3eb
大模型只是起点:朝向多智能体和人类紧密协作的未来|对话清华叉院吴翼https://www.xiaoyuzhoufm.com/episode/647462b216726282405c3476