“西部世界”-雏形已现

Original 柏粒先生柏粒田 2024-04-11

引言

随着ChatGPT等AI技术的火爆出圈，人们不禁开始发问：我们距离硅基生命还有多远？人工智能的发展是否已经越过奇点？

也许，我们距离硅基生命还很遥远，但《西部世界》里那种由机器人构建的虚拟世界，已经有了雏形。

（作为一款科幻美剧，《西部世界》描述的是一个机器人组成的主题公园，他们被预先设定了不同的人格与故事。在公园内，他们每天就像人类那样过日子：有亲人、有工作、有社交。而人类则作为游客，可以在这个主题公园内游玩，并与各种机器人互动。）

为什么说《西部世界》已经有了雏形？今天这篇文章，我将以一篇论文为出发点，带你旁观一下科学家们是怎么探索硅基生命的。文章会尽量通俗易懂，即使你不是科学家、不懂AI技术，也可以通读全文。

虚拟小镇Smallville与25个AI小人

这篇论文来自于斯坦福大学和谷歌实验室，题目是Generative Agents: Interactive Simulacra of Human Behavior（通用AI代理：人类行为的交互模拟，论文链接：https://arxiv.org/abs/2304.03442）。

它介绍了一款游戏实验：多位研究者共同构建了一个叫Smallville的“虚拟小镇”，里面生活着25个AI扮演的角色，他们不但会自我思考、规划生活，还会互相交往。其实，过去已经有很多这样类似的实验，而且这次的模拟看起来也很简单、粗糙，与《西部世界》里那样的真实感和智能化还有极大的差距。但是，在这次的模拟游戏中，所有AI角色的思考和行为都是由ChatGPT来驱动的。而这，让一切都变得不一样了。

图：Smallville小镇

我们先来看看游戏的基本设置。首先，25个角色都被赋予了基本的人物设定（包括姓名、年龄、性格特征等）。比如：John Lin是开药店的，较为热心，他和妻子Mei Lin（大学老师）和孩子Eddy Lin是共同居住。其次，这些AI角色通过自然语言生成来描述自己当下的行为（在做饭、在聊天、在睡觉等）。而且，他们的行为也不局限于自身，25个角色也可以相互交往，一起聊天、参与活动，社区内也有酒吧、学校、药店、公园等公共设施。

整个游戏的目的，就是尽可能模仿真实人类的生活场景，让AI角色们尽量做出近似人类的合理行为。然而，这并不是一件容易的事。

过去，人类已经在该领域进行过多次模拟的尝试，最大的问题就在机器很“笨”，只能在人类预设的条件下输出预期的结果，遇到稍微复杂点的任务时就会错误百出。即使在一个模拟的小社会中，只有25个AI角色参与，他们之间也会产生大量的行为和互动。由于这些行为和互动极其复杂，而且无法提前预测，时间一长AI角色的表现就会“走样”。因此，如何让这样的模拟社会更加真实、更接近人类那种自然的表现，一直是科研人员想要探索的目标。

该类实验的另一个意义在于：科学家们相信，如果能在思维、行为这样的“软件”层面成功模拟人类，那么《西部世界》那样的科幻设想就完成了一半，后面只要将AI的智能以芯片等方式植入到机器人的躯壳内，硅基生命就具备了实现的可能。

两大难题？

具体来看，在过去的实验中，主要有2个核心问题难以解决：

第一，是要让AI具备类似人类的合理行为。关于这方面，ChatGPT的价值就体现出来了。作为一款强大的生成式语言模型，只要输入适当的Prompt（提示词），ChatGPT就能根据要求生成合理的自然语言来描述、规划AI角色的行为。

第二，则是要确保AI行为的可持续性，特别是要做到AI角色在互动之后能够动态更新自己的状态，对不断变化的复杂环境做出合理的反应。这就需要为AI角色增加一些应变的能力，例如：能对当下的自己、他人和环境进行判断和更新；能提前规划自己的生活（类似人类的作息规律），并根据规划来执行并在需要时重新规划；能够在特殊情况发生、或人类干预时做出及时的反应。

如果能拥有以上这3项能力，那么一个AI角色就基本具备了可持续性。这里就涉及到该论文最为精彩的部分：他们利用LangChain、向量库等技术为AI角色赋予了记忆、检索、反思、规划的能力。

图：记忆、检索、反思、规划的工作机制

如果你不懂这些专业术语，这没关系。重点是，记忆的能力让AI角色可以观察并储存自己的生活经历，包括与他人的交往经历。这样一来他们就会在时间的推移下，不断充实自己的记忆库，当他面对新的环境需要做出判断时，检索的能力就可以帮助他去回忆自己的记忆库，将系统赋予的初始设定和过去发生的记忆结合在一起，自动更新自己的状态，这样ChatGPT就会帮助他们更好地生成新的判断。

比如，其中一个AI角色Sam决定要参与市长的选举，并与社区的几名AI分享了自己的计划。后来，AI角色John和Tom在闲聊时就各自发表了对Sam参与选举的观点。

“John: I heard that Sam Moore is running for mayor in the local election. Do you think he has a good chance of winning?（我听说Sam要竞选市长了。你觉得他会赢吗？）

Tom: I do think he has a good chance. He’s been working hard in the community and I think he will get a lot of support. What do you think? （我认为他有机会。他为社区付出了很多，我觉得他会得到很多支持。你觉得呢？）

John: I think it’s great that he’s running. I’m curious to see who else is running and how the election will turn out. （我认为他能竞选太好了。我很好奇还有谁去竞选，以及最后的结果会怎么样？）”

表格：John与Tom关于竞选的对话

这背后的核心逻辑在于，ChatGPT的语言生成是基于Prompt（提示词）来实现的。因此，检索可以将AI角色记忆库中的信息提取出来，以此来更新Prompt，这样记忆库的变化就会引导ChatGPT的生成内容来一起改变。

更有意思的是，在论文中，研究者们用了一种非常科学的方法来帮助AI角色管理自己的记忆。他们提出了一套由3个要素组成的打分指标：Recency（新鲜度）、Importance（重要程度）和Relevance（相关度）。

有位女性角色叫做Isabella，她计划在2月14号举办一场情人节派对。如果我们去检索她在2月13日的记忆库，就会发现与筹办情人节派对、邀请客人等相关的记忆，这三个指标都很高，总分基本在2.0以上。但当天的其他记忆：写日记、清理厨房等，就分数较低。

图：Isabella的记忆与评分

这样一来，随着时间的推移，记忆库中看似庞大的信息储存就不再是一片死水，而是成了不断更新、迭代的活水。可以简单设想一下，即使过了几个月，我们再回头去问Isabella，有哪些事对她来说是重要的、与他人一起度过的、和情人节相关的，关于那场派对的细节会大概率出现在她的回答中，即使它已经过去了很久，但另外2个指标会帮助她将这些记忆成功提取出来。这，像极了我们人类的记忆系统。

然而，还有一项反思的能力（Reflection）也很关键。这可以让AI角色去抽象地思考自己的记忆。这有什么意义呢？毕竟，前面那一套管理方法似乎已经对记忆做了很好的打分。

其实，从人类的思维模式出发，过去发生的事情只是我们脑中存储的信息与事实（论文中将这种记忆称为观察式记忆）。但我们会对这些事实赋予不同的意义和看法，甚至还会产生一些抽象的思考（这种记忆则被称为反思式记忆）。这就是反思的作用：反思可以为AI角色增强推理的能力，让他们能在应对复杂环境时能做出更加拟人化的应对。科学家也把这种能力称为泛化能力，在过去这一直是AI所缺乏的能力之一。（泛化能力指的是：人类可以通过学习少量的例子进行广泛的推理，可以简单理解为举一反三的能力。）

论文中提及到一个AI角色叫Klaus，当被问及：“你想和哪位角色共度1小时的时光？”他的回答是：Wolfgang，仅仅因为Wolfgang是他的宿舍邻居，但实际上二人交往很少。

这就是观察式记忆的局限性，而反思式记忆就会产生不同的结果：Klaus由于经常花时间在做科学研究，包括读文献、写论文、记笔记、在图书馆找资料等。这时，通过反思，他会发现自己对科研很有热情，而且也意识到了另一位AI角色Maria也为科研花费了大量的精力，这说明他们有着共同的兴趣点。通过这样的反思，当再次被问及上述问题时，Klaus的选择是Maria而不是Wolfgang。

图：Klaus从日常的科研工作中反思出对科研的热情

这真是AI版的“道不同不相为谋”。在模拟世界的设计中，反思被设定为一项更为高级、更加抽象的记忆，当某一类的观察式记忆累积到一定的数值时，AI角色就会在反思时将结论保存下来。这样，当AI检索记忆库时，反思式记忆与观察式记忆会同时被检索到，但前者的重要性更高。在实践中，每个角色平均每天会反思2-3次。

再重复一次，这，的确像极了我们人类的记忆系统。难怪AI教父Hinton经常说，很多AI学者同时也是脑科学、神经学等领域的专家。

此外，在研究的初期，还有一个关键问题干扰了AI的合理行为，那就是ChatGPT的生成能力具备一定的随机性，有时也会做出看似“合理”的愚蠢行为。比如，AI角色Klaus会在12点吃午饭，然后到了12:30第一顿午饭吃完了，他却选择再次吃午饭，到了13点吃完了第二顿后又吃一遍。因为在ChatGPT看来，这都是午饭的合理时间，生成这样的行为并没有什么“不妥”。不过，我们当然希望Klaus能更正常地吃饭，而不是沦为一个暴饮暴食的家伙。

针对该问题，研究人员们提出了Plan（规划）的重要性。每个AI角色都会为未来的一段时间做出大范围的区间规划，然后再根据时间的推移逐步规划和执行每个时间段的细节。这样一来，Klaus就将午饭时间安排在12-13点，然后13-15点就被安排成去图书馆。至于在午饭的那个小时内他吃什么、在哪吃、吃多少，就是更加细分的规划了，但他就不会在吃完一顿饭后再重复吃多次。

这样，规划就和观察式记忆、反思式记忆等一起被写入到Prompt中，相当于为ChatGPT的生成限定了一定的条件。

还有一个例子，也是和Klaus相关的。根据他的长期规划，论文提交的时间快要截止了，但记忆库中显示他还没有完成论文。那么他就会在规划、记忆等因素的综合影响下，改变当天的行为，把更多时间花在阅读、整理、撰写论文上面。因此，这种先进行长期的、大区间的时间规划，再进行短期的、细节的规划安排，就能让AI角色的表现更加具备可持续性。

结论

以上就是这篇论文最为创新的几个要点，简单小结一下：

1、为了解决行为合理性的问题，研究人员们利用ChatGPT生成的自然语言来指导AI角色的思维和行动，而AI生成内容的智能和合理性则取决于输入的Prompt（提示词）；

2、为了解决可持续性问题，利用LangChain、向量数据库等技术为AI角色赋予了观察、记忆、检索、反思、规划等能力，这样喂给ChatGPT的Prompt（提示词）就会不断更新，AI生成的内容就能应对越发复杂的交互环境，并具备更好的可持续性。

这就是这篇论文背后的科学家们所设计的解题思路。那么，最后模拟实验的评估和结论是什么样的呢？

为了评估这几个解决方案的有效性，他们设计了5个对照组，主要针对观察、反思、规划这3个变量进行了评估，结论是：具备观察、反思、规划全套能力的那一组表现最好，得分明显超过其他对照组。看来，这次科学家们的实验获得了明显的成果。

图：实验的对照组与评分

即便如此，当下AI的智能依然有限，我们距离真正的硅基生命也许还很遥远。但如果你仔细去回味这次的模拟实验，你就会发现，为了实现硅基生命，人类科学家们可以说是三管齐下：1、是深入研究人类自身的思维模式、社交行为；2、是不断强化、提升AI的学习、预测与生成能力；3、是物理层面的机器人等硬件端的研发。

而这篇论文，就是围绕着1和2在下功夫，这也是为什么业界会给予这篇论文以极高的评价，并称呼它为《西部世界》雏形的原因。

未来的某一天，这3股力量也许会汇聚成一股洪流。那，可能就是硅基生命奇点到来的时刻。

全文完，感谢您的耐心阅读。如果喜欢，欢迎转发或在末尾右下角点击“在看”，谢谢！

“人文、历史、科技、商业、宏观。随性而写，随意而读。”--欢迎点击下方链接关注本号。

备注：图片来自网络

继续滑动看下一个

柏粒田

向上滑动看下一个

贺雪峰：精准扶贫为何陷入形式主义？！

隐形的小地方豪门，好日子真到头了

突发！法〔2024〕163 号：最高人民法院发布审执协调35条详细指引！彻底解决执行难！

全国大基建，要停了！

吓人！甲醛最长能潜伏15年，清华大学学霸发明了这个，专克甲醛，比50盆绿植都好用！

“西部世界”-雏形已现

您可能也对以下帖子感兴趣

贺雪峰：精准扶贫为何陷入形式主义？！

隐形的小地方豪门，好日子真到头了

突发！法〔2024〕163 号：最高人民法院发布审执协调35条详细指引！彻底解决执行难！

全国大基建，要停了！

吓人！甲醛最长能潜伏15年，清华大学学霸发明了这个，专克甲醛，比50盆绿植都好用！

生成图片，分享到微信朋友圈

“西部世界”-雏形已现

您可能也对以下帖子感兴趣