查看原文
其他

“西部世界”-雏形已现

柏粒先生 柏粒田 2024-04-11

引言

随着ChatGPT等AI技术的火爆出圈,人们不禁开始发问:我们距离硅基生命还有多远?人工智能的发展是否已经越过奇点?

也许,我们距离硅基生命还很遥远,但《西部世界》里那种由机器人构建的虚拟世界,已经有了雏形。

(作为一款科幻美剧,《西部世界》描述的是一个机器人组成的主题公园,他们被预先设定了不同的人格与故事。在公园内,他们每天就像人类那样过日子:有亲人、有工作、有社交。而人类则作为游客,可以在这个主题公园内游玩,并与各种机器人互动。)

为什么说《西部世界》已经有了雏形?今天这篇文章,我将以一篇论文为出发点,带你旁观一下科学家们是怎么探索硅基生命的。文章会尽量通俗易懂,即使你不是科学家、不懂AI技术,也可以通读全文。

虚拟小镇Smallville与25个AI小人

这篇论文来自于斯坦福大学和谷歌实验室,题目是Generative Agents: Interactive Simulacra of Human Behavior(通用AI代理:人类行为的交互模拟,论文链接:https://arxiv.org/abs/2304.03442)。

它介绍了一款游戏实验:多位研究者共同构建了一个叫Smallville的“虚拟小镇”,里面生活着25个AI扮演的角色,他们不但会自我思考、规划生活,还会互相交往。其实,过去已经有很多这样类似的实验,而且这次的模拟看起来也很简单、粗糙,与《西部世界》里那样的真实感和智能化还有极大的差距。但是,在这次的模拟游戏中,所有AI角色的思考和行为都是由ChatGPT来驱动的。而这,让一切都变得不一样了。

图:Smallville小镇

我们先来看看游戏的基本设置。首先,25个角色都被赋予了基本的人物设定(包括姓名、年龄、性格特征等)。比如:John Lin是开药店的,较为热心,他和妻子Mei Lin(大学老师)和孩子Eddy Lin是共同居住。其次,这些AI角色通过自然语言生成来描述自己当下的行为(在做饭、在聊天、在睡觉等)。而且,他们的行为也不局限于自身,25个角色也可以相互交往,一起聊天、参与活动,社区内也有酒吧、学校、药店、公园等公共设施。

整个游戏的目的,就是尽可能模仿真实人类的生活场景,让AI角色们尽量做出近似人类的合理行为。然而,这并不是一件容易的事。

过去,人类已经在该领域进行过多次模拟的尝试,最大的问题就在机器很“笨”,只能在人类预设的条件下输出预期的结果,遇到稍微复杂点的任务时就会错误百出。即使在一个模拟的小社会中,只有25个AI角色参与,他们之间也会产生大量的行为和互动。由于这些行为和互动极其复杂,而且无法提前预测,时间一长AI角色的表现就会“走样”。因此,如何让这样的模拟社会更加真实、更接近人类那种自然的表现,一直是科研人员想要探索的目标。

该类实验的另一个意义在于:科学家们相信,如果能在思维、行为这样的“软件”层面成功模拟人类,那么《西部世界》那样的科幻设想就完成了一半,后面只要将AI的智能以芯片等方式植入到机器人的躯壳内,硅基生命就具备了实现的可能。

两大难题?

具体来看,在过去的实验中,主要有2个核心问题难以解决:

第一,是要让AI具备类似人类的合理行为。关于这方面,ChatGPT的价值就体现出来了。作为一款强大的生成式语言模型,只要输入适当的Prompt(提示词),ChatGPT就能根据要求生成合理的自然语言来描述、规划AI角色的行为。

第二,则是要确保AI行为的可持续性,特别是要做到AI角色在互动之后能够动态更新自己的状态,对不断变化的复杂环境做出合理的反应。这就需要为AI角色增加一些应变的能力,例如:能对当下的自己、他人和环境进行判断和更新;能提前规划自己的生活(类似人类的作息规律),并根据规划来执行并在需要时重新规划;能够在特殊情况发生、或人类干预时做出及时的反应。

如果能拥有以上这3项能力,那么一个AI角色就基本具备了可持续性。这里就涉及到该论文最为精彩的部分:他们利用LangChain、向量库等技术为AI角色赋予了记忆、检索、反思、规划的能力。

图:记忆、检索、反思、规划的工作机制

如果你不懂这些专业术语,这没关系。重点是,记忆的能力让AI角色可以观察并储存自己的生活经历,包括与他人的交往经历。这样一来他们就会在时间的推移下,不断充实自己的记忆库,当他面对新的环境需要做出判断时,检索的能力就可以帮助他去回忆自己的记忆库,将系统赋予的初始设定和过去发生的记忆结合在一起,自动更新自己的状态,这样ChatGPT就会帮助他们更好地生成新的判断。

比如,其中一个AI角色Sam决定要参与市长的选举,并与社区的几名AI分享了自己的计划。后来,AI角色John和Tom在闲聊时就各自发表了对Sam参与选举的观点。

“John: I heard that Sam Moore is running for mayor in the local election. Do you think he has a good chance of winning?(我听说Sam要竞选市长了。你觉得他会赢吗?)

Tom: I do think he has a good chance. He’s been working hard in the community and I think he will get a lot of support. What do you think?  (我认为他有机会。他为社区付出了很多,我觉得他会得到很多支持。你觉得呢?)

John: I think it’s great that he’s running. I’m curious to see who else is running and how the election will turn out. (我认为他能竞选太好了。我很好奇还有谁去竞选,以及最后的结果会怎么样?)”

表格:John与Tom关于竞选的对话

这背后的核心逻辑在于,ChatGPT的语言生成是基于Prompt(提示词)来实现的。因此,检索可以将AI角色记忆库中的信息提取出来,以此来更新Prompt,这样记忆库的变化就会引导ChatGPT的生成内容来一起改变。

更有意思的是,在论文中,研究者们用了一种非常科学的方法来帮助AI角色管理自己的记忆。他们提出了一套由3个要素组成的打分指标:Recency(新鲜度)、Importance(重要程度)和Relevance(相关度)。

有位女性角色叫做Isabella,她计划在2月14号举办一场情人节派对。如果我们去检索她在2月13日的记忆库,就会发现与筹办情人节派对、邀请客人等相关的记忆,这三个指标都很高,总分基本在2.0以上。但当天的其他记忆:写日记、清理厨房等,就分数较低。

图:Isabella的记忆与评分

这样一来,随着时间的推移,记忆库中看似庞大的信息储存就不再是一片死水,而是成了不断更新、迭代的活水。可以简单设想一下,即使过了几个月,我们再回头去问Isabella,有哪些事对她来说是重要的、与他人一起度过的、和情人节相关的,关于那场派对的细节会大概率出现在她的回答中,即使它已经过去了很久,但另外2个指标会帮助她将这些记忆成功提取出来。这,像极了我们人类的记忆系统。

然而,还有一项反思的能力(Reflection)也很关键。这可以让AI角色去抽象地思考自己的记忆。这有什么意义呢?毕竟,前面那一套管理方法似乎已经对记忆做了很好的打分。

其实,从人类的思维模式出发,过去发生的事情只是我们脑中存储的信息与事实(论文中将这种记忆称为观察式记忆)。但我们会对这些事实赋予不同的意义和看法,甚至还会产生一些抽象的思考(这种记忆则被称为反思式记忆)。这就是反思的作用:反思可以为AI角色增强推理的能力,让他们能在应对复杂环境时能做出更加拟人化的应对。科学家也把这种能力称为泛化能力,在过去这一直是AI所缺乏的能力之一。(泛化能力指的是:人类可以通过学习少量的例子进行广泛的推理,可以简单理解为举一反三的能力。

论文中提及到一个AI角色叫Klaus,当被问及:“你想和哪位角色共度1小时的时光?”他的回答是:Wolfgang,仅仅因为Wolfgang是他的宿舍邻居,但实际上二人交往很少。

这就是观察式记忆的局限性,而反思式记忆就会产生不同的结果:Klaus由于经常花时间在做科学研究,包括读文献、写论文、记笔记、在图书馆找资料等。这时,通过反思,他会发现自己对科研很有热情,而且也意识到了另一位AI角色Maria也为科研花费了大量的精力,这说明他们有着共同的兴趣点。通过这样的反思,当再次被问及上述问题时,Klaus的选择是Maria而不是Wolfgang。

图:Klaus从日常的科研工作中反思出对科研的热情

这真是AI版的“道不同不相为谋”。在模拟世界的设计中,反思被设定为一项更为高级、更加抽象的记忆,当某一类的观察式记忆累积到一定的数值时,AI角色就会在反思时将结论保存下来。这样,当AI检索记忆库时,反思式记忆与观察式记忆会同时被检索到,但前者的重要性更高。在实践中,每个角色平均每天会反思2-3次。

再重复一次,这,的确像极了我们人类的记忆系统。难怪AI教父Hinton经常说,很多AI学者同时也是脑科学、神经学等领域的专家。

此外,在研究的初期,还有一个关键问题干扰了AI的合理行为,那就是ChatGPT的生成能力具备一定的随机性,有时也会做出看似“合理”的愚蠢行为。比如,AI角色Klaus会在12点吃午饭,然后到了12:30第一顿午饭吃完了,他却选择再次吃午饭,到了13点吃完了第二顿后又吃一遍。因为在ChatGPT看来,这都是午饭的合理时间,生成这样的行为并没有什么“不妥”。不过,我们当然希望Klaus能更正常地吃饭,而不是沦为一个暴饮暴食的家伙。

针对该问题,研究人员们提出了Plan(规划)的重要性。每个AI角色都会为未来的一段时间做出大范围的区间规划,然后再根据时间的推移逐步规划和执行每个时间段的细节。这样一来,Klaus就将午饭时间安排在12-13点,然后13-15点就被安排成去图书馆。至于在午饭的那个小时内他吃什么、在哪吃、吃多少,就是更加细分的规划了,但他就不会在吃完一顿饭后再重复吃多次。

这样,规划就和观察式记忆、反思式记忆等一起被写入到Prompt中,相当于为ChatGPT的生成限定了一定的条件。

还有一个例子,也是和Klaus相关的。根据他的长期规划,论文提交的时间快要截止了,但记忆库中显示他还没有完成论文。那么他就会在规划、记忆等因素的综合影响下,改变当天的行为,把更多时间花在阅读、整理、撰写论文上面。因此,这种先进行长期的、大区间的时间规划,再进行短期的、细节的规划安排,就能让AI角色的表现更加具备可持续性。

结论

以上就是这篇论文最为创新的几个要点,简单小结一下:

1、为了解决行为合理性的问题,研究人员们利用ChatGPT生成的自然语言来指导AI角色的思维和行动,而AI生成内容的智能和合理性则取决于输入的Prompt(提示词);

2、为了解决可持续性问题,利用LangChain、向量数据库等技术为AI角色赋予了观察、记忆、检索、反思、规划等能力,这样喂给ChatGPT的Prompt(提示词)就会不断更新,AI生成的内容就能应对越发复杂的交互环境,并具备更好的可持续性。

这就是这篇论文背后的科学家们所设计的解题思路。那么,最后模拟实验的评估和结论是什么样的呢?

为了评估这几个解决方案的有效性,他们设计了5个对照组,主要针对观察、反思、规划这3个变量进行了评估,结论是:具备观察、反思、规划全套能力的那一组表现最好,得分明显超过其他对照组。看来,这次科学家们的实验获得了明显的成果。

图:实验的对照组与评分

即便如此,当下AI的智能依然有限,我们距离真正的硅基生命也许还很遥远。但如果你仔细去回味这次的模拟实验,你就会发现,为了实现硅基生命,人类科学家们可以说是三管齐下:1、是深入研究人类自身的思维模式、社交行为;2、是不断强化、提升AI的学习、预测与生成能力;3、是物理层面的机器人等硬件端的研发。

而这篇论文,就是围绕着1和2在下功夫,这也是为什么业界会给予这篇论文以极高的评价,并称呼它为《西部世界》雏形的原因。

未来的某一天,这3股力量也许会汇聚成一股洪流。那,可能就是硅基生命奇点到来的时刻。

全文完,感谢您的耐心阅读。如果喜欢,欢迎转发或在末尾右下角点击“在看”,谢谢!
相关文章:
伊隆马斯克-”钢铁侠“是如何炼成的
斯坦福大学如何看待AI时代的教育与创新?
人类与AI,谁才是未来的农场主?
不同的时代,不同的财富逻辑

“人文、历史、科技、商业、宏观。随性而写,随意而读。--欢迎点击下方链接关注本号。

备注:图片来自网络

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存