查看原文
其他

AGI 难在哪里?

张海庚 张无常 2023-12-21


有点标题党了,更合适的标题是:多模态大模型难在哪里?





1、多模态大语言模型的能力


看到一篇论文,《LVLM-eHub:大型视觉-语言模型的全面评估基准》,讨论多模态大模型主要能力:


为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny LVLM-eHub。 


论文提出了一个多模态能力与数据集,整合了 6 大类多模态能力: 

a. 视觉感知(visual perception) 

b. 视觉信息提取(visual knowledge acquisition) 

c. 视觉推理(visual reasoning) 

d. 视觉常识(visual commonsense) 

e. 具身智能(Embodied intelligence) 

f. 幻觉(Hallucination)


六大多模态能力结构图


这个评测论文比较清晰地列了多模态模型的能力,其中视觉感知、视觉信息提取最基础(虽然目前还是有技术难点),视觉推理、视觉常识是更高级也更难的推理能力——当然,最难的还是最后两项,具身智能和幻觉


具身智能涉及将大模型接入机器人后的更高层的计划和决策能力。


幻觉则是大语言模型本身就很危险和棘手的问题


结合最近的学习体会(参考资料见文末),稍微展开讲讲具身智能和幻觉。






2、具身智能难在哪里?


具身智能难在哪儿?一言以蔽之,训练数据难以获取。


相比LLM可以直接用互联网上的所有数据(虽然肯定也有难度),具身智能(或者简单理解为机器人)的训练数据非常难获取,换句话说,所有涉及到力学的数据,类似于「训练机器人拿起一杯水」,压根没有现成的数据可以获取。



作为神经网络的大语言模型,本质上是模仿人脑神经元的输入层、隐藏层、输出层,原理上,可以简单理解为输入层即输入内容(比如你给ChatGPT输入Prompt)、输出层即输出结果(ChatGPT给你的回答)、隐藏层就是大量复杂的算法,有无数层级、千亿参数(比如Transformer架构上的ChatGPT)。


隐藏层这套复杂的算法是怎么来的呢?有人设计了算法架构,然后训练出来的。怎么训练?依靠海量的数据,比如 GPT-3 预训练阶段的数据量为 3000亿token,LLaMa 预训练阶段的数据量为1-1.4万亿token。


(注:此处是我作为神经网络门外汉简单粗暴的理解,如有错误,欢迎评论留言指正)


具体到具身智能的训练量,当然没有语言模型那么大,但肯定也是不小的。


目前的数据获取方式是怎样的呢?有2类:


1、从模拟器获取获取

包括数字模拟器和物理模拟器,比如上图里列的 Minecraft 我的世界,作为全球最大的虚拟游戏之一,虽然方块画面看着很简陋,但它可以很大程度上模拟现实世界的活动,提供逼近真实世界的数据,从而训练具身智能需要的各项能力。OpenAI早年最出圈的捉迷藏游戏,就是在 Minecraft 上完成的。


2、通过机器人获取

购买大量机器人,让它们在物理世界互动,直接采集机器人在物理世界的真实数据。这个其实挺好的,缺点就是费钱……







3、幻觉问题可解吗?


大家都知道,幻觉这是大语言模型最大、也最需要解决的问题。

但其实,这也是不可解的问题:大语言模型 predict the next token 的概率特点,决定了幻觉是大语言模型内生的问题,本质上不可解决。


就是说,你也许可以把幻觉比例从10%降低到5%甚至1%、0.1%——但不可能不会到0,不可能完全没有幻觉。


这种内生性很有意思,其实大家所喜欢的大语言模型的「大」、「通用」,往往就是因为它在不知道怎么回答的时候,仍然可以回答,好像啥都懂,所以神奇——但副作用就是,当它真的不知道怎么回答的时候,它就一本正经的胡说八道了。



好家伙,竟然是无法根治的问题?!


但具体到应用,我们还是希望幻觉越低越好哇!


那怎么办呢?虽然不可解,但还是有降低的方式。具体来说,有2个层次:模型层和应用层。



模型层


OpenAI、Anthropic、Google、Meta这些做大模型的,大致上通过2种办法去处理幻觉问题:


1、在现有Transformer架构上用强化学习的办法降低幻觉模型自己能识别到自己出现幻觉(错误),并自我修正;比如RLHF。


2、在特定问题上用更好的自我训练来降低幻觉:比如写代码场景,先用代码编辑器识别问题,让模型通过自我训练修正。




应用层


利用「LLM创意有余而精准不足」的特点,在应用场景、产品定位上扬长避短


1、比如Character.ai、Pi,都选择了聊天、个人助手的场景,这类非工作场景对创意、情绪价值要求更高,而对精准度要求低,对幻觉容忍度高,用户更容易接受。


2、反过来,类似法律(尤其是合同起草、修订)、医疗(尤其是开处方)等对精确度要求极高的场景,基于现有的模型能力现在去开发应用就可能不是一个非常ready的状态。


当然,反过来说,这类场景也需要你在底层模型能力做更多优化——相应的,万一你做出来了,也更有壁垒的事情,比如百川就在做这样的事情。






说回标题党的问题,为什么最后还是用了《AGI难在哪里》的标题呢?


因为——虽然AGI的定义从来没达成过一致——假设把多模态大模型的视觉感知、视觉信息提取、视觉推理、视觉常识、具身智能、幻觉这6项能力都实现了,是否也就实现了AGI的雏形呢?




相关阅读:



参考链接:

  • LVLM-eHub 论文 https://arxiv.org/abs/2306.09265

  • Tiny LVLM-eHub 论文 https://github.com/OpenGVLab/Multi-modality-Arena

  • 对话Deepmind、英伟达大语言模型专家:AI Agent智能体与开源LLM的应用、挑战与未来 https://www.xiaoyuzhoufm.com/episode/64dcf11de490c5dee5a3d3eb

  • 大模型只是起点:朝向多智能体和人类紧密协作的未来|对话清华叉院吴翼https://www.xiaoyuzhoufm.com/episode/647462b216726282405c3476


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存