AGI 难在哪里？

Original 张海庚张无常 2023-12-21

有点标题党了，更合适的标题是：多模态大模型难在哪里？

1、多模态大语言模型的能力

看到一篇论文，《LVLM-eHub：大型视觉-语言模型的全面评估基准》，讨论多模态大模型主要能力：

为了对多模态大模型的能力进行全面、系统的测评，来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny LVLM-eHub。

论文提出了一个多模态能力与数据集，整合了 6 大类多模态能力：

a. 视觉感知（visual perception）

b. 视觉信息提取（visual knowledge acquisition）

c. 视觉推理（visual reasoning）

d. 视觉常识（visual commonsense）

e. 具身智能（Embodied intelligence）

f. 幻觉（Hallucination）

六大多模态能力结构图

这个评测论文比较清晰地列了多模态模型的能力，其中视觉感知、视觉信息提取最基础（虽然目前还是有技术难点），视觉推理、视觉常识是更高级也更难的推理能力——当然，最难的还是最后两项，具身智能和幻觉。

具身智能涉及将大模型接入机器人后的更高层的计划和决策能力。

幻觉则是大语言模型本身就很危险和棘手的问题。

结合最近的学习体会（参考资料见文末），稍微展开讲讲具身智能和幻觉。

2、具身智能难在哪里？

具身智能难在哪儿？一言以蔽之，训练数据难以获取。

相比LLM可以直接用互联网上的所有数据（虽然肯定也有难度），具身智能（或者简单理解为机器人）的训练数据非常难获取，换句话说，所有涉及到力学的数据，类似于「训练机器人拿起一杯水」，压根没有现成的数据可以获取。

作为神经网络的大语言模型，本质上是模仿人脑神经元的输入层、隐藏层、输出层，原理上，可以简单理解为输入层即输入内容（比如你给ChatGPT输入Prompt）、输出层即输出结果（ChatGPT给你的回答）、隐藏层就是大量复杂的算法，有无数层级、千亿参数（比如Transformer架构上的ChatGPT）。

隐藏层这套复杂的算法是怎么来的呢？有人设计了算法架构，然后训练出来的。怎么训练？依靠海量的数据，比如 GPT-3 预训练阶段的数据量为 3000亿token，LLaMa 预训练阶段的数据量为1-1.4万亿token。

（注：此处是我作为神经网络门外汉简单粗暴的理解，如有错误，欢迎评论留言指正）

具体到具身智能的训练量，当然没有语言模型那么大，但肯定也是不小的。

目前的数据获取方式是怎样的呢？有2类：

1、从模拟器获取获取

包括数字模拟器和物理模拟器，比如上图里列的 Minecraft 我的世界，作为全球最大的虚拟游戏之一，虽然方块画面看着很简陋，但它可以很大程度上模拟现实世界的活动，提供逼近真实世界的数据，从而训练具身智能需要的各项能力。OpenAI早年最出圈的捉迷藏游戏，就是在 Minecraft 上完成的。

2、通过机器人获取

购买大量机器人，让它们在物理世界互动，直接采集机器人在物理世界的真实数据。这个其实挺好的，缺点就是费钱……

3、幻觉问题可解吗？

大家都知道，幻觉这是大语言模型最大、也最需要解决的问题。

但其实，这也是不可解的问题：大语言模型 predict the next token 的概率特点，决定了幻觉是大语言模型内生的问题，本质上不可解决。

就是说，你也许可以把幻觉比例从10%降低到5%甚至1%、0.1%——但不可能不会到0，不可能完全没有幻觉。

这种内生性很有意思，其实大家所喜欢的大语言模型的「大」、「通用」，往往就是因为它在不知道怎么回答的时候，仍然可以回答，好像啥都懂，所以神奇——但副作用就是，当它真的不知道怎么回答的时候，它就一本正经的胡说八道了。

好家伙，竟然是无法根治的问题？！

但具体到应用，我们还是希望幻觉越低越好哇！

那怎么办呢？虽然不可解，但还是有降低的方式。具体来说，有2个层次：模型层和应用层。

模型层

OpenAI、Anthropic、Google、Meta这些做大模型的，大致上通过2种办法去处理幻觉问题：

1、在现有Transformer架构上用强化学习的办法降低幻觉：让模型自己能识别到自己出现幻觉（错误），并自我修正；比如RLHF。

2、在特定问题上用更好的自我训练来降低幻觉：比如写代码场景，先用代码编辑器识别问题，让模型通过自我训练修正。

应用层

利用「LLM创意有余而精准不足」的特点，在应用场景、产品定位上扬长避短

1、比如Character.ai、Pi，都选择了聊天、个人助手的场景，这类非工作场景对创意、情绪价值要求更高，而对精准度要求低，对幻觉容忍度高，用户更容易接受。

2、反过来，类似法律（尤其是合同起草、修订）、医疗（尤其是开处方）等对精确度要求极高的场景，基于现有的模型能力现在去开发应用就可能不是一个非常ready的状态。

当然，反过来说，这类场景也需要你在底层模型能力做更多优化——相应的，万一你做出来了，也更有壁垒的事情，比如百川就在做这样的事情。

说回标题党的问题，为什么最后还是用了《AGI难在哪里》的标题呢？

因为——虽然AGI的定义从来没达成过一致——假设把多模态大模型的视觉感知、视觉信息提取、视觉推理、视觉常识、具身智能、幻觉这6项能力都实现了，是否也就实现了AGI的雏形呢？

又忘关摄像头了！村官和妇女主任激情戏再度上演……

西安8家物业服务企业违法违规被处罚！

“民生系”金融圈隐秘大佬屡次陷内斗，究竟是宿命还是另有隐情？

请关注玉溪大营老清真寺所遭遇的不公正对待！

Dior变色唇膏69元到手两支！一抹即变玻璃唇，秒变时尚girl！

AGI 难在哪里？

您可能也对以下帖子感兴趣

又忘关摄像头了！村官和妇女主任激情戏再度上演……

西安8家物业服务企业违法违规被处罚！

“民生系”金融圈隐秘大佬屡次陷内斗，究竟是宿命还是另有隐情？

请关注玉溪大营老清真寺所遭遇的不公正对待！

Dior变色唇膏69元到手两支！一抹即变玻璃唇，秒变时尚girl！

生成图片，分享到微信朋友圈

AGI 难在哪里？

您可能也对以下帖子感兴趣