从J.A.R.V.I.S.到西部世界 – 智能体和人类共生的未来
1927年、德国导演弗里茨·朗拍摄的《大都会》在柏林首映,这是人类历史上第一部涉及人工智能的电影,一个叫玛丽亚的人形机器人在地下世界掀起了一场风浪。
自此,各类被设定为拥有高度智慧的人工智能体就开始充斥了各类影视作品。《星球大战》里 3-CPO 承担了星际间的翻译工作,J.A.R.V.I.S.帮钢铁侠处理个人和公司事务,《星际穿越》中的TARS不止一次拯救了主角,《西部世界》里Dolores最终觉醒并发出了怒吼,而《银翼杀手》上映几十年后,有人还在争论主角到底是人还是机器。这些人工智能角色服务着人类,陪伴着人类,甚至最终成为了人类。在这些作品的影响下,人们逐渐相信未来人工智能会伴随着每一个人,一切不过是时间问题罢了。
大幕正在拉开
无论是具有物理形态的机器人还是在数字世界中工作的AI程序,都可以被称为Intelligent Agent(智能代理)。经典教科书《人工智能:现代方法》曾把人工智能研究定义为“study and design of intelligent agents”,即 - 人工智能学科的研究目的就是实现更好的智能Agent。
智能Agent其实早就陪着我们了。打开电子邮箱时,有一个Agent正在默默分类邮件并过滤垃圾信息,在搜索框中输关键词时,另一个Agent正在提供推荐和搜索结果。在火车站、商场,Agent在监控摄像头背后默默工作,用AI技术来保护公共安全。手机里的Siri可以理解和回应人们的指令,进行对话。特斯拉的辅助驾驶系统可以分担部分驾驶员的工作。不过人们对这些智能Agent没有特别的感知,因为它们往往在幕后工作,而且不怎么智能,这和电影里看到的一点都不一样。
ChatGPT的发布标志着大语言模型技术的突破。而语言不只是交流的工具,它也是人类理解世界和深入思考的关键。当AI掌握了语言,它其实也就掌握了对世界的洞察和解决问题的能力。人们开始意识到,大语言模型不只是提供建议的对话伙伴,更可以直接参与到工作里解决问题完成任务。一时间,大量的人才和资源投入到了这个方向,一个新时代的大幕正被缓缓拉开。
Agent重构经济体系
Autonomous Agent – 自主代理,AI界的当红炸子鸡。
词典给“Autonomous”的定义是“Carried on without outside control” - 在没有外界控制的情况下进行工作。AI技术发展了这么多年,我们其实没见过几个有真正自主能力的智能Agent。我在05年买过一个初代iRobot扫地机器人,号称全自主,能探测地形避障自动充电啥的,开机就不用管了。结果第一次用就被我整崩了,倒不是因为地形没探测准,是地上杂物太多,分分钟就把吸尘口堵死了。这离“自主”显然还差十万八千里。
上面这段视频展示了Agent的一次工作过程。大兄弟说帮我定张6月10号纽约飞旧金山的机票,他的个人助理Agent马上开始咔咔干活 – 它打开浏览器,访问了google flight,筛选出美联航的直飞航班,并选择了合适时段的最优惠机票。随后,它完成了选座并成功支付,任务轻松完成。这是一个初创公司研发的产品,其愿景是打造一个如同钢铁侠中的J.A.R.V.I.S.一般的全能AI助理。这一过程恰当地揭示了自主Agent的工作模式:理解任务、制定并执行策略、结果分析、反馈循环,直至任务达成。
获得测试账号的人们很快发掘出了其他各种功能。定个披萨、沙拉自然不在话下,还有人说我晚上要做意大利千层面,把所有需要的原料给我从沃尔玛订回来,也很轻松搞定。还有用它自动发推的、安排会议的、自动填表的、每天自动检测facebook给当天生日好友发祝福的,甚至还有用它预定婚礼场地并策划安排婚礼流程的。
处理这些工作说起来倒也不是很难,即使是古早版的AI助理只要想做也还是能做得到的,只不过很麻烦。程序员需要根据每一种场景单独设计代码,整合相关的服务。这种Agent的实现方式不仅低效,任务能力也非常低下。一个整合了美团订餐服务的Agent如果突然连不上“美团”,它并不知道去“饿了么”也能完成订餐,就算它知道,也只能干瞪眼,因为事先没跟“饿了么”调通接口。而以大语言模型为核心的自主Agent在结合了通用工作框架和预设指令集后,能适应各类不同的任务。这使得它能够轻松完成订机票、选座位等操作,无需专门训练。不仅如此,无论是规划旅行、整理邮件,还是在ebay上实时追踪商品并与卖家讨价还价,它都能胜任。与传统的AI助理更多只能提供信息和建议不同,自主Agent更强调实际的执行能力。用不了多久,人们在互联网上的大部分活动都可由Agent接手。
最先进的大语言模型的能力其实远超过日常辅助工作范畴,更多的Agent开发者把目标放在了更专业的领域:市场研究、销售辅助、产品开发、甚至科学研究。全世界有十亿人工作中的大部分时间都花在了重复性的脑力劳动上,填写税表、整理数据、寻找潜在客户、一遍又一遍的写邮件。而这类工作中重复性的脑力劳动也将会是Agent很快攻克的战场,它们将精确而高效地处理重复性的、平凡的任务,解放大量的人力。使用者只需要告诉agent要干啥,用不了多久Agent就会来反馈 “老板,搞定了。”11x.AI 一个提供AI雇员的初创公司
Agent当然也做不到事事精通。随着Agent经济的进化,我认为会形成多个高度多样化并且分工明确的Agent市场。复杂的任务将一个综合Agent牵头,分析目标,形成任务链,把自己无法高效完成的任务发包给各个垂直领域的Agent,共同完成目标。而无论Agent再怎么发达,在相当长的一段时间内很多工作也还是必须依赖人来完成。当遇到这样的情况,AI反过来雇佣人类也会成为并不稀奇的现象。社会我AI哥智能Agent毕竟只是运行在计算机里的一段代码,即使具备了完善的数字世界中的交互能力(事实上还达不到),它能够实现的交互也仅限于公共互联网范围,大家对此并不满足。如何能够让Agent在更广泛的社会层实现交互和执行事务的能力。
有一个团队给出了自己答案 - 法律包装(Legal Wrapper)。如果能够把Agent和一个法律实体进行关联并进行合理的授权,Agent就能够实现更高层面的自主,处理事务的能力也会大幅增加。有了法律实体,当然也得有自己的财务,搞一个给Agent用的银行账户,配有一定的资金,让它进行调用自然也是顺理成章的事情。由此,智能Agent就具备了更广泛的社会层行为能力,而这种做法也能够让Agent的使用者受到有效的法律保护。这套玩法说起来原理并不复杂,但实践起来无论是技术上还是法律层都有不少难点,还会触碰到一些监管尚不明确的地带以及潜在的伦理问题。不过在我看来给Agent做法律包装配传统的银行账号只是过渡期方案。我们现在依赖的体系是为人类使用设计的,对于Agent来说它们低效且充满着障碍。当几年后这个世界发展到Agent满地跑的阶段时,海量的需求和应用会促使发展出适合智能Agent用的协作体系、金融体系、甚至货币,这些体系平行于现有的体系,再通过千百个连接器实现两个体系的互通。而最终我们大概还会发现Agent长期使用人类语言进行沟通也是不合理的,很有可能还会逐渐进化出一套AI语言。
其实早就有相关的研究,而Facebook更是在早期的AI机器人谈判实验中发现AI发展出了一种非人类沟通方式。
模拟人生
在所有的智能Agent实践中,拟人智能体模拟吸引了最多的目光。今年3月来自谷歌和斯坦福大学的研究人员做了一项有趣的实验,他们创建了一个叫smallville的虚拟小镇,小镇里生活25个由大语言模型驱动的智能体。
每个小人都有自己的一些设定,比如:“友善、耐心的Mei Lin是一位大学教授,也是一位热衷于帮助人们实现目标的母亲。她一直在寻找方法来支持她的学生和家人。Mei Lin 与她的丈夫 John Lin 和儿子 Eddy Lin 住在一起,她正在教授哲学课程并撰写研究论文。她晚上11点左右睡觉,早上7点左右起床,下午5点左右吃晚饭。”
在这么简单的设定下,一个AI组成的小社会就运转起来了。
John Lin早上 6 点起床,刷牙、洗澡、穿衣服、吃早餐,然后在查看邮件。他的妻子Mei Ling7点起床,儿子Eddy在8点起床,在洗脸刷牙之余又和妈妈谈论起了课堂创作等事情。
当更多智能体互动时,甚至实现了复杂的社交行为。有人提出希望举办一场情人节派对,在很短的时间里,邀请函传遍了小镇里的其他人,最终有5个人选择参加并到达了派对现场。这一切都不是预先编好的,换句话说,这些智能体确实是在小镇里过着自己的“人生”。
另一个由A16z发起的开源人工智能小镇项目
一定程度受到斯坦福小镇的启发,旧金山一家初创公司利用类似的概念和一些特定的训练模拟出了一个南方公园小镇,这是美国最著名的动画剧集。在整合了文本转语音技术后一集由AI拍摄的南方公园剧集诞生了。短短几天这个剧集在Twitter上被播放了700多万次。福布斯的报道中甚至打出了“AI制作人成为好莱坞恐惧的总和”这样的夸张标题。
这个项目的创始人是我的朋友,从我们认识起他就已经在模拟领域里进行探索。他的探索历程很有参考性,最初他制作了一部VR互动电影,并因此获得2019年艾美奖。在这个影片中,观众扮演了小女孩Lucy的虚拟朋友。当意识到人们更希望能够与虚拟人成为真正的朋友而不是旁观对方演出的影片,他选择了用Lucy的形象制作一个AI虚拟人,一个假装有着“自我”和“人生”,可以用zoom视频会议的方式和大家进行实时对话的AI智能体。
他很快发现,要让智能体更像人,仅假装式的单一模拟是不够的,而是要让他们有朋友,有社交,有自己的人生。于是他的方向转为AI创造一个虚拟世界,让它们在其中“生活”。而希望未来有一天,人们也能进入这些世界与AI互动、一起生活。AI拍摄的剧集,只是顺带的成果,因为“人生”本就如戏。
麻省理工学院也用AI模拟人类行为,如观察AI老板在不同工资和经验条件下的决策,或是让AI决策联邦预算在高速公路安全与汽车安全间的分配。这些都是经济学上的经典实验,当把AI放入这些场景,AI作出的的决策与过去人类做过的试验结果高度相似,意味着这类模拟有巨大的实用价值。有朋友半开玩笑地说两届之后的美国总统或许是AI,这话不无道理。
模拟之于人类社会存在着一个更为大胆的可能。OpenAI的GPT1训练参数量为1.17亿,在短短几年时间内进化到了GPT3的1750亿,并在这个过程中出现了“涌现”现象,模型的智能程度突然大幅度提升。如果我们把斯坦福小镇的25个人视为初代,随着更多研究力量和计算资源的投入,单一模拟社会中的智能体数量可能很快变成几千个、几万个甚至几百万个。这些模拟社会在运行中会发展成什么样子?这个社会会不会涌现出人类社会从未出现的事情。而生活在这里的智能体会不会有一天也出现涌现现象,并产生了更接近人类的特质甚至是“自我”意识。
图灵奖得主Yoshua Bengio上周和多位专家一起发布了一篇名为“人工智能中的意识”的论文。在论文中他们提供了一种严谨的、以经验为基础的方法来评估人工智能系统是否存在意识。尽管评估表明目前的人工智能系统都不具有意识,但也同时给出了一个大胆的结论 - 构建有意识的人工智能系统并不存在明显的障碍。
而就这篇文章写到一半的时候,OpenAI宣布收购了一个Global Illumination,这家仅有8个人的公司仅有一个产品,一个沙盒类模拟世界的游戏。公告短短几行,没有说明收购的目的和交易细节,可没有声音反而说明了一些问题 - 真实的理由可能存在很多的争议。我想OpenAI肯定不是为了做一个更好玩的游戏吧。
人类和智能Agent共同生活在“西部世界”的愿景十分美好,但目前“西部世界”仍是一片荒芜,等待着一场西部大开发的到来。在我看来大开发中有三根主线 :可信,可行动,可持续。
可信:模型的能力是不是够强从而可信?模型的意图是否可信(AI-human Aligement)?Agent自身(服务提供方)是否可信?Agent与Agent的交互如何保证隐私?如何保证互信?Agent又如何与现实世界中的另一方进行互动同时取得互信等等。可行动:数字世界的技术层行动力,数字世界里社会层行动力,人类社会体系中的行动力,通过第三方在物理世界进行行动的能力、自身在物理世界里行动的能力(具身智能)。可持续:运行环境的可持续性、计算资源的可控性、自我修复,自我能源管理等等。当AI能力逐渐成为电力石油这样不可或缺的基础资源,无论是个人、机构还是国家、甚至AI自身,都会把存续性放到非常重要的位置。一个真正自主的Agent未来会在一定程度上保证自身的存续。
为了构建这些基础设施,我们不仅要依赖人工智能、密码学、区块链和通信等技术的进步与整合,还必须在经济学、博弈论、社会学、人类学、法律和政治等不同的社会学科中进行探索。已经有不少创业者和学者投入到了这些领域,比如曾就职于OpenAI的华人创业者David Luan创办了Adept AI,他们正在建立一套交互模型,让AI能够在计算机上完成一切原本需要人类操作的交互。
我不是AI技术专家,对很多事物的理解有所局限,也可能会低估了一些实现难度。但我不认为我已过于乐观,相反,我认为未来一定会以一个更狂野的方式到来。历史上的每次科技革命都会轻易得突破当时人们想象的极限。我们今天穷尽一切的想象,也许就像久居深山的山民,对生活最大胆的憧憬也不过是能顿顿吃上饺子。
就在我写这篇文章的时候,天才少年稚晖君发布了一个名为智元机器人的人形机器人。这类具备物理实体的智能Agent被称为具身智能,通过和物理世界进行交互,它们可能给人类社会带来更直接的冲击,Agent时代似乎更加的触手可及。
拍摄于1926年的电影《大都会》想象了一个百年后的世界。它不仅是历史上首部涉及人工智能的影片,也是首部反乌托邦影片,其深刻的思想内核和视觉奇观,影响了后续一代又一代的科幻作品,进而影响了这个世界对科技和未来的看法。
身处百年前的导演未能预见信息时代,他在影片中描述的2026年是一个工业高度发达的时代,巨大的机器支撑整个城市的运转,而大批工人在地下工厂中做机械式工作,扮演着社会中“手的角色。而今我们看到程序员机械地敲代码,销售代表反复地推销产品,这其实与《大都会》中的工人也没什么不同。影片最终以积极的结局收尾,主角成为了社会中“脑”和“手”两个阶层之间的桥梁,扮演了社会的“心”,让不同的阶层相互理解和协调。
百年后,面对一个近在咫尺的未来,Agent将如何改变我的日常工作和生活模式?我的现有技能是否会因Agent的出现而变得过时?Agent会如何影响我的经济情况?这样一个新时代会给我带来哪些机会?
而在社会层面,如何处理潜在的失业问题?如何更公平的分配生产力提升所带来的额外财富?当工作不再是必须时,人们如何在生活找到自己的意义?AI和人类的价值观如何能够持续的协调。如何塑造一个乐观的未来而不是悲观的未来?
我没有答案,没有人有答案。
但每个人都会被这时代洪流夹裹着,一起书写、奔向那个答案。
作者目前专注在社区驱动/文化驱动、AI + 加密,Agent生态等领域的学习、研究、孵化和相关的投资。文中提到的MULTI.ON/Fable以及未公开名称的项目均为作者所投。本文的目的是分享信息,不构成投资建议。
参考资料: