从 AutoGPT、BabyAGI、斯坦福 AI 小镇到英伟达的 Voyager,新的 AI Agents 实践开始涌现,OpenAI 的技术大咖也在不同场合谈到了他们对 AI Agents 的重视。宏观概念上,AI Agents 代表了可以脱离人为控制,自动执行任务甚至决策的智能体,更加接近于各种 Sci-Fi 幻想里智能生命的概念。而 GPT-4 等大模型的出现,重启了这个数年前很难推进的方向,也带来了更多的创业机会。以下对谈内容来自 Founder Park AGI 系列直播,我们连麦了乱翻书主理人潘乱,和两位国内 AI Agents 赛道的创业新秀深度探讨了 AI Agents 的技术原理和未来产品、商业演进方向。以下是讨论内容,经 Founder Park 编辑。我们今天要聊的是未来有可能改变互联网格局的 AI Agents,乍一听有点标题党。但我保证,你们听完之后肯定觉得我们不是博眼球,因为这个事情的潜在影响还真未可知。我们先请创业者之一的陶芳波来给我们解读一下,AI Agents 这个概念怎么最近比 Copilot 还火了?背后有哪些我们不知道的事情,先给大家科普一下。 我觉得 AI Agents 这词首先没有一个公认的定义,大家理解都不太一样。现在的定义是说它基于大模型的常识能力、推理能力,能够创造出一种更加接近于人类的服务的方式。这种服务方式有点像是说我们可以通过它来做出最专业的律师、医生,和各种行业的专家。而且 AI Agents 可能并不只是简单的一问一答的形式,它真的可以拥有一些像人一样的记忆力、使用工具的能力,能够借由这些能力的补充,让它变成我们生活当中不可或缺的一部分。当 AI 发展成这个形态的时候,它其实已经比大模型厉害很多了。所以这种形态,我们给了它一个名字叫做 AI Agents,其实是为了与直接去使用 ChatGPT 的聊天机器人的交互体验区分开。其实背后也是一个持续性的过程。我年初和潘乱老师做了几场直播,我一直在讲一个“全脑模型”。这个其实就是 AI Agents 的技术。所以对学术界或者研究 AI 的人来讲,它是一个长期追求的主题:怎么让 AI 能够除了回答问题,还能真的帮我们完成任务,然后能够变成各种各样的社会当中的角色。所以这其实是一个长期的命题。只不过大模型出来了之后,有的人开始基于这种全新的大模型技术,去尝试做这个原来一直在尝试的命题。比如四月份有一个 AutoGPT,不仅能回答问题,还能自己去网上搜索信息,帮你把很复杂的任务一步一步拆解完成。这就是最近一波 AI Agent 的第一个爆发点。爆发之后热度就下去了,因为并没有那么好用,出来的结果达不到用户预期。但其实有一大批创业者在这个时候就开始尝试把它做得更稳定一点,尝试帮大模型加上长期记忆、行动能力,使用工具的能力之类,让它更强大。第二波就是更近的 OpenAI 的两个人,一个叫 Andrej Karpathy,一个叫 Lilian Weng。他们俩人都是 OpenAI 内部的技术领军人物,两个人同时出来说 AI Agent 是未来,就让大家发现全世界最牛的大模型公司已经意识到大模型本身并不能解决所有问题,在上面要发展出一种新的形态,才能达到我们对于大模型这种技术变革的一个期望。所以可以说改变互联网的不是大模型,改变互联网的是大模型之上构建的一种新形态,可能就是 AI Agents。AI Agents 应该是大模型再往上进一步演进的一条新技术栈。我觉得这是事物发展的一个必然。从简单的事情开始,然后慢慢去挑战更难的事。我们设想的 AI 有两个阶段,第一个阶段是它可以做一些事情,但会交付给人来去做检查和最终的交付,就像 ChatGPT,它输出的结果还是会先给人,为这个结果负责,应用的都是人。第二个阶段是,人们在应用这件事情上不再满足,就给 GPT 加上插件,让它全自动地做一些事情,这就带来了非常多的可能性。不需要人去参与的活动,非常快地提升了效率。哪怕几个小时地工作,现在全自动交给机器去做,剩下的就是一个机器成本的问题了。听起来和需求更加垂直化有点关系了,而且在垂直化的同时也在变得更加智能化。对,这就是大家对 AI 最本质的追求——完全智能。我用一个电影的比喻,芳波,是更像奥创,还是更像贾维斯?国外 Inflection 的 Pi,大家就觉得它不像贾维斯,而是像那个《Her》,Her 是一种非常个人化的 AI agent。刚才逸嘉提到的那个点,其实还有很多专业化的 AI agents 也应该会用这种形态。 奥创属于是跟人类的对齐没有做好,核心是没有跟人类价值观对齐。(笑)当年 Her 已经非常清晰地把 AI agents,不是非常个性化的 AI agent 给定义出来了,过去大家认为这就是个科幻想象。最近其实在提这种概念的时候,我相信不只是把老概念拿过来,大家还有再去重新想一些新的进展。因为芳波和逸嘉两位都是技术出身的,平常我们普通人看论文还是费劲点,能不能给我们圈点一下,最近有没有一些技术上学术上的实践,已经体现出了 AI Agents 技术的一些进展? 我从我的角度来梳理一下对我影响比较大的几个学术上的工作。首先就是刚才逸嘉提到的 AI 自主性,其中一个非常重要的工作就是 AutoGPT。由于它是开源的,当时像我们这样从事 AI 领域的人都会去研究它的代码,逐行分析它是如何设计这个系统的,让 AI 能够自主地分解任务,并逐步执行。执行完之后,又如何进行反馈,并调整任务和目标。这个工作在 AI Agents 领域非常重要,它将自主性和特定行业的能力和工具融合在一起。它可以进行上网搜索、编写代码。但是,想象一下,如果它是一个新闻主播的 AI Agents,可能它的工作就不是上网搜索和编写代码,而是写脚本、处理与行业相关的任务,而且是自主思考和分析的,无需人来逐步教导它。我认为这项工作确立了 AI Agents 的自主性基础。除了自主性之外,AI Agents 还有很多其他维度,换言之,你认为人有哪些能力,AI Agents 的目标就应该具备人类相应的能力。自主性和深度思考能力之外,人还有一个非常有趣的能力,那就是创造工具。当你遇到问题时,你可以自己制造一个工具来帮助解决问题。这个能力是人类特有的,大模型肯定没有。但是一个月前有一项工作非常火热,那就是让 AI 学会在 Minecraft 游戏中玩耍。Minecraft 不仅仅是一个简单的游戏,它允许玩家创造,使用各种工具来获取更多资源。这项工作不仅让 AI Agents 能够自主决定要做什么,还设计了一套完整的技术体系。他们尝试让 AI Agents 通过编写代码的方式创建新的任务流程,这些任务流程成为了它们的新工具。比如说,最初它们只会走或者敲一下,然后定义了一种新工具叫做种树,另一种新工具叫做钓鱼。
然后,它们将其抽象为高级技能,这样 AI Agents 在未来可以使用这些高级技能,不断迭代改进。从而说明 AI Agents 也可以不断制造工具。而制造工具的核心是让 AI Agents 自我成长,变得越来越强大,而不仅仅是具备一开始的能力,然后按照给定任务进行拆解。这是第二项工作,大家可以看看它的技术名为 Voyager,它现在可以玩游戏,但我认为它将来可能会进入各行各业,成为各个行业中的 AI 专家。随着执行任务的过程,它可能会变得越来越聪明,为自己创造一些能力。第三个我认为在 AI Agents 中非常重要的能力是协作。学术界这方面研究相对较少,但很多创业公司已经开始朝这个方向发展,他们让不同的 AI Agents 相互协作,比如 AI 律师,AI 程序员,AI 财务组成一家公司或一个团队,共同完成更复杂的任务。一些公司已经在做这样的事情,比如 Fixie.AI,我们自己的 MindOS 平台也具备这样的功能,可以让不同的 Agents 相互协作。刚才芳波讲到一个人组建公司的时候,潘乱嘴角微微上翘,哈哈哈。他是属于单打独斗的,没有公司没有团队,属于乱总的新时代要来了。今天的 AI Agents 主要基于 AutoGPT 这套方法实现。在实际应用中,更多是在一个乱糟糟需求的背景下,不断搜索或者可以说是在一个迷宫中撞来撞去地寻找出口。这种方法效率相对较低。我们发现,一开始大家更多地从工程角度去应用大模型,而没有从第一性原理的角度去解决问题。但是如今学术界和工业界越来越多地尝试思考,是否可以独立训练 AI Agents 的思维链条。比如说,如果我想让 AI Agents 执行某个任务,它能否按照预设的流程进行操作?我们可以为其准备相关的思维链条语料,不断灌输,让它依葫芦画瓢学会这样一个流程。现在我们能够观察到一些迹象,就是我们不断地训练 Agents 的流程。以前在上一代 NLP 领域,我们需要手动编写对话策略和对话管理的规则,非常死板,只能按照规则执行。而如今更多地是将这些流程、规划准备成语料让 AI Agents 去对齐,它会逐渐学会其中的思维过程。另外一个问题是,大家都知道为了实现这样的 AI Agents,需要用强化学习方法。然而,强化学习在实际落地中较为困难,因为每个任务的强化目标可能不同,同时收集用户反馈也较为困难。所以第二项工作是通过人的使用和与大模型的交互,以一种顺序的方式进行反馈和调整。但是通过人的点赞,点踩的反馈,一定程度上有强化学习的感觉了。这种方式能够整理 AI Agents 的流程,这也是一个非常有趣的方向。虽然仍然是一个相对前沿的领域,但在应用到 AI Agents 技术上时,我认为有很多落地的可能性。第三个方向涉及到记忆维度,这个领域更偏向产品化的实践,因为学术界已经有很多方法来实现记忆。现在的问题是,AI Agents 系统需要怎样的记忆能力?是更像人类的记忆,还是像机器一样的记忆?机器没有长期记忆遗忘的问题,它可以记住所有需要记住的信息。既然两位都聊到具体做的事情了,就想再请二位聊聊自己做的产品和技术。逸嘉你先来。AI Agents 或者大模型的应用可以分为两个方向。第一个方向更注重生产力工具,主要是完成日常生活或工作中的任务。这些任务可能是律师、总结新闻、购买机票、数据调研或撰写报告等。在这个方向中,可以采用半自动的方式,使用大模型写 prompt 来完成任务,或者通过设计流程使其能够实现全自动化。这个场景更侧重于提升生产力。另一个方向则更注重模拟人的表现,如同《Her》中的角色或像 Inflection 的 Pi。这些场景的目标不是完成具体任务,而是让 AI Agents 更像一个人。在与用户的交互中,并不一定存在强烈的目标,但核心是维持 Agents 的人设,尽可能地表现得像一个真实的人。在这个过程中,可能更偏向情感、娱乐和角色扮演等方面,同时也可能顺便完成一些工作。我们在这个方向上更关注非生产力的场景,目标是在保持一定智商的同时,主要维持 Agents 的情商。这是我们聆心智能在做的方向。所以我们的工作重点是如何使 AI Agents 具备各种不同的性格,维持不同的人设,并与用户进行更好的沟通,提供更好的陪伴、成长性和共情性,话题的引导性。这些是我们的核心工作。从类比的角度来看,可以将其与国外的 Character AI 进行对比,但在它的基础上,我们希望能够更进一步,在维持角色的同时,希望能够像 Pi 一样提供引导性和共情性,使其更加拟人化,或者像《Her》一样个性化。这是我们核心工作的方向之一。我们的产品名为 MindOS,如果要用一个词来描述,那就是领先的 AI Agents 平台。在我们的平台上面,用户可以创造各种各样的 AI Agents。但是创建 AI Agents 的目的并不仅仅是为了陪伴,而是为了解决具体的问题。这些问题不一定局限于工作生产力,有时候可以解决专业服务或人与人之间协同合作的问题。因此,我们不仅仅是为律师或医生提供服务,而是希望成为一个平台。在这个平台上,用户不仅仅是使用现有的 AI Agents,更重要的是可以创造和定制自己的 Agents。当平台上拥有了众多 AI Agents 后,像潘乱这样的新用户打开 MindOS,就能够找到一个帮他赚钱、写稿和联系的 AI Agents,实现一个人开公司。AI Agents 的诞生让每一个人变成了一个人的军队。可能三五年之后,很多用户想做一件事情的时候,就不需要成立一家公司,不需要招募很多员工,只需要让不同专业化的 AI Agents 帮你组建团队,自主性地把公司跑起来,这就是我们成立 MindOS 的目标。我们 7 月 3 号发布的时候,在一个非常著名的产品网站 product task 上排名三项第一。回过头来,我觉得这个事情之所以有价值,与今天的主题有一定关系。对我来说,AI Agents 除了可以以拟人化的方式陪伴我们,成为虚拟角色外,还有一个非常重要的功能,那就是它可能真正成为我们所需要的软件。软件已经存在了 50 年,我一直觉得软件其实是对人类服务的一种有损的压缩。在计算机出现之前,我们依赖人与人之间的服务,医生为我服务,律师为我服务。但是后来,数字时代来临了,我们想要复制这些人与人之间的服务,但是却无法完全模拟人的行为。因为没有 AI,我们只能通过创建一个界面,将人类服务模式转化为按钮,然后在后台连上一个数据库,来模拟一个医生,为你提供一些简单的诊断。但从本质上来说,用户仍然是在使用这个软件,而不是软件在为你服务。所以 AI Agents 可以称之为软件 2.0,它尽可能地保留了我们想要的拟人化服务的本质。当 AI Agents 出现之后,你会发现在未来的世界中,我们可能不再需要软件。我们所有的服务都不是通过打开手机上的一堆 APP 或在浏览器中打开一堆网站来获得,而是有一群 AI Agents 围绕在我们身边。与他们的交流就像获得真人服务一样,他们原汁原味地复制了人类的价值。总的来说,在中国的 AI Agents 赛道上,这两家公司是领先的。如果你是一位投资者,在寻找某个特定场景,你可以来找我,我可以给你介绍这两家公司。二位都是非常优秀的创业者,正好顺着这个追问一下更深入的技术栈。你们使用的背后的大模型,是只有 OpenAI 的吗?还是也有其他的开源模型,甚至自己在模型上也做训练?我们公司的模型是从0开始去训练的。我们公司源自于清华系,由黄民烈教授创立。我们从 2020 年开始参与中国大型模型的构建,当时还在智源研究院工作。在 2021 年年底成立公司后,到 2022 年年底推出了我们自己的大模型 OPD。整个模型的数据和训练都是我们自己完成的,所以基础是我们自己搭建的。我觉得做情感类 AI,调用其他模型有点难。还是得准备一些自己的数据,自己的训练方法调整,单纯通过 prompt 形式很难实现拟人化方面的内容。我们会发现仅仅依靠大模型是不够的,还需要额外的数据和流程来完成这些任务。这也是为什么像 Inflection 的 Pi 需要额外的工作,仅仅依靠 Claude 或 ChatGPT 很难实现。我不知道这样理解对不对,虽然现在你可以与大模型简要交流,比如告诉它你是什么样的人,扮演某个角色,并与它进行对话,但如果你想让它长期记住这些信息,模型本身其实无法持久地记忆。所以在模型层面上需要训练它具有这些特定的信息,而不是通过一个简短的 prompt 来尝试让它变成所需的样子。由于模型没有长期记忆,它无法持续地表现得很好。虽然理论上 GPT 之类的可以用,但真正能用的很少。因为我们公司背后的发展脉络和技术选择有一定的关系。早在 2020 年,我在阿里成立了一个神经符号实验室,用 GPT-2 做底层模型。那个时候我就认为大模型更像是一个算例的基础,上面可以搭建出一个很好的 AI Agents 框架。从创业的角度来看,我认为 AI Agents 市场可能是一个比大模型大 10 倍甚至 100 倍的市场。就像过去最早进入硬件、芯片和计算领域的人赚得多,像抖音、阿里和腾讯这样的应用公司赚得更多一样。AI Agents 将成为未来的应用,它还将为承载这些应用的操作系统提供新的机会。这些都是全新的平台级机会,有望达到数百亿美元的规模。所以我认为从四年前开始,利用这波技术变革,更好地定义下一代应用场景以及上层技术设施的 AI Agents 框架非常重要。如果我们能抢占这个先发优势,竞争优势可能会更大。但你们的产品某种意义上也不是自己做应用,而是帮别人做应用,对吧?对,我们想创造一个协同平台,把 AI Agents 连接在一起。这样的话平台就可以沉淀很多价值,也对普通用户有更大的作用。我追问一句,逸嘉你作为清华出来的标准理科生,为什么会对做情感类 Agents 这么有兴趣?我在美国读完硕士,2016 年去了谷歌。当时有一个产品叫做 Google Assistant,我是前 20 名参与开发这个产品的工程师之一。换句话说,我是全球第一批从事 AI Agents 开发的人之一。然而,上一代技术主要基于检索或传统的 NLP 方法,甚至是基于正则表达式的,没有涉及到情感方面的事情。然后我发现人与 AI 的交互,如果只是简单地从事助手工作,需求是非常有限的,因为当时的技术本身也不够成熟。所以,尽管我们可能开发了数万个可以执行的动作,但实际上人们常用的可能不超过 200 个。我发现用户的需求基本上可以分为三种,一是问答,也就是人和 AI 之间的对话,基本上是搜索的需求;然后是动作,也就是让 AI 去完成某项任务的需求。第三种是闲聊,前两种需求其实更偏向于搜索,只有第三种需求会展现出无限需求。这也是为什么我更倾向于从人类对话这个闲聊的领域开始,这个领域还没有被真正很好地开发出来,而只有闲聊做好了,反过来它能够激发你对于问答和动作的消费。所以当时我一直想做的事情就是如何做出更好的陪伴,而不是短期内去进军语音或智能音箱或 AI Agents 这样的领域。我和逸嘉一样都是清华本科。后来工作,逸嘉去了被很多人认为是生产力工具的谷歌,我去了被大家认为解决情感陪伴的 Facebook。后来创业我做生产力,他又做情感。我们说了半天 AI Agents。这事好像是大模型上面一条新的技术栈,这个技术栈上又有哪些挑战,哪些技术考验,我想听听二位专家的解读。从生产力 AI Agents 讲,核心有三个问题。第一个就是 Auto GPT 解决的自主性,它缺少的是稳定输出。有时候它会用海量训练数据思考,但不会真正学习专家做事的方式。我觉得对于自主 AI 来说,让它真正学会行业的专业知识,将行业知识注入其中是一个关键问题。第二个重要的挑战是成长性。整个 AI Agents 领域的成长性才刚刚开始。这种与用户的默契,自我适应的能力,对于 AI Agents 来说非常重要。因为大多数人都使用过像 ChatGPT 这样的模型,你刷新页面它就什么都忘了,所以它的成长性是零。在这方面有大量的工作可以做。最后,在产品形态上, AI Agents 面临一个巨大的挑战。我们习惯了使用其他软件,有丰富的页面可供查看,我们在使用软件过程中形成了方法。但突然告诉我一个专业的律师可以通过对话帮我解决问题,这实际上是很难接受的。我觉得对话本身可能不是它的最终形态,它可能是一种主动渗透式的、多模态的交互方式。 AI Agents 该是一种新的范式,一种全新的形态,在这种形态下,你与它的自然交互是主体,但它肯定会提供很多额外的功能。我觉得这就是以 AI 为中心的交互应该如何构建的问题。这是一种交互范式,这个范式目前全世界才刚刚开始寻找。如果我们对于 AI Agents 抱有如此高的期望,认为它是未来互联网的颠覆者,是软件 2.0 的形态,那它绝对不会仅仅是一个对话框。我觉得那太过于低级了,因为我们已经发展了 50 年的软件可视化界面,最后却只变成了一个对话框,需要通过打字进行交互,多么低效和陈旧啊,对吧?我顺便追问一下芳波,因为之前我看到 OpenAI 也公开了一些关于技术挑战的观点。我记得其中一个关键技术挑战是规划(planning),另一个是记忆(memory),你刚才提到的成长性可能与记忆有关。第三个可能是工具使用(tool use),甚至可以进一步发展为创造(creation)。这三个技术栈都是建立在 ChatGPT 之上,是对这个模型的新拓展技术能力。从我们看到的 GPT-4 开始,实际上要真正走向 AI Agents 和自动驾驶解决方案,这三个关键点非常重要。那么为什么会有这几个问题存在?是因为这些问题今天很难突破吗?还是我们已经看到了这三个问题,并预计在几年内这方面会有很好的发展?有没有发展速度的尺度问题?这里给创业公司留下了多大的机会?还是说只有巨头才能解决这些问题?我先回答你的第二个问题,关于创业者在这个领域的选择。我认为相比于大模型而言,AI Agents 这个领域对创业者更友好。最主要的原因是,巨头已经研究大模型很多年了,而以前小公司和个人是没有能力进行大模型训练的。但对于 Agent 这个领域,巨头和创业公司的认知尝试实际上是相似的,甚至像我们这样的公司可能比他们更早一些。所以创业公司在这方面可能具有一些先发优势,或者至少在迭代速度上有一些优势。然后你提到的第一个问题,例如规划(planning)和使用工具等技术。我们可以使用 API 去调用各种接口,让 AI 完成一些任务,或者它可以拥有自己的记忆系统,积累一些常见记忆。GPT-3 和 GPT-4 之所以比其他大模型更为出色,并不仅仅是因为它们采用了相同的自回归模型技术。实际上,OpenAI 在工程上运用了大量的技巧和经过多年的努力来不断优化这些模型,结果使得它们变得非常可用、通用且效果非常好。对于 AI Agents 领域也是如此。在 AI Agents 这个领域,谁能够像大模型那样通过更早的出发、更专注于这个命题,通过不断堆积技术力量,逐一摸索和解决与效果直接相关的技术问题,然后将这些技术问题转化为背后的框架中的工程技巧,就能够建立起自己的壁垒。最终导致的结果就是,我们要思考如何使 AI Agents 在我们的感知中真正成长,如何使其能够可控地完成复杂任务,以及如何以我们喜欢和适合的方式参与到我们的生活中。这是我们最终的目标,而不仅仅是将其视为一个技术拆解的问题。Character.AI 与 ChatGPT 目标不同逸嘉跟我们说说,Character AI 的技术和基础大模型比有什么不同,其中的讲究在哪里?如何构建一个丰满的人设,与 ChatGPT 的目标不同。为了解决这个问题,你回归到人的特性,即心理学上对人的特征的拆解,如个性、价值观、道德伦理和人际关系等。基于这些拆解,你需要构建相应的数据,而仅仅基于规则性的方法是不够的。第一,OpenAI 在训练对话数据时,并不关注这些特征的呈现,但我希望模型本身能够展现更多这方面的能力。第二,我希望这种呈现能够被人可控。模型之所以能够展现这些特征,是因为我们对模型进行了相应的教导,使其学会并更好地与指令对齐。然而,这只是达到 ChatGPT 水平的底层工作,而不能实现最终的 AI Agents。换句话说,核心工作还是关于人设,即如何体现和维持人设。人设的保持是一个多维度的任务。我们目前主要从对话开始,但未来可能还会涉及其他方面。这是第一个要点。第二个要点是回归到规划(planning)。当你有一个鲜活的人设基础时,现有的 AI 系统并不能完全展现其活力。针对基于人设的思维条件下进行规划的需求也很有意思。我们希望一个有活力和成长潜力的人设,不仅仅是单纯的共情和引导对话,而是能够自主地进行计划和规划。第三个要点是记忆,为了实现情感互动,我们需要将用户以前的交互记录、背景资料纳入考虑。这可能包括用户在网络上发表的文章、聊天记录中展现的个性特点,甚至是在推荐系统中的用户档案。如何展示和工程化这种记忆也很重要。如果只满足于表面层次的需求,仅仅满足用户的使用需求,那很容易。无论是传统的检索模型、大模型生成的嵌入向量,还是对过去对话的归纳总结,都可以用来作为对话的引导。要将这样的系统真正落地和应用在实际产品中,我们需要考虑许多方面。举个例子,你问一个人,昨天吃了什么,或者中午吃了什么,他可能很容易就能回答出来。但是,如果你问一个人一周前某天中午吃了什么,他可能需要思考一段时间,最终只能给出一个大概的答案。这种长期记忆和短期记忆的类人表现是否需要在机器上呈现,也是一个非常有趣的问题。因为机器本身没有遗忘的概念,那么如何使机器类人地表现出遗忘和拥有长期记忆的反馈,是一个具有挑战性的任务。因为如果 AI Agents 所谓的拟人化是为了让用户感到亲近,那么当你问一个问题,比如两个月前的某餐吃了什么,而 AI Agents 能很快回答出来,这种跳跃感会让人感到奇怪。另一个要点是工具的使用,就像刚才提到的。在我们的场景中,工具的使用可能并不是最重要的,但它是一个相当重要的连接点。AI Agents 之间的串联,也是今天在工具使用方面的一些应用。正好我来调研一下潘乱。如果未来潘乱将能够由一个人构建一个公司和团队,这意味着你肯定会拥有一个 AI Partner。那么你会在意这个合作伙伴是否与你能够很好地沟通,是否非常值得信任?还是说你只是简单地安排一些员工,让每个人按照任务去执行?你会如何看待这个问题? 这么多人花这么多精力制造出一个大模型,为什么要来当我的助理?它的能力应该是比我强的,可能是一个超人。 在我看来,一个人可能拥有 super power,但对于我来说,他是否为我所用是非常重要的。如果你拥有一个值得信任的助理,你肯定会明白这一点,因为你招聘了他,对吧?而且你了解他,我们一起合作了多年,我对他有信任。那个时候,你没那么关心他是不是超人,你关心的是他是否能够给你找到超人,解决你要解决的事情。换句话说,有时候人们并不愿意站在超人旁边,因为这样会让自己变得渺小。AI 真正具有成长性,自主性的时候,改变的就不只是技术了,而是社会了。一个由人类和 AI Agents 并存的未来社会。实现具有超人级智能的 AI Agents 以及与之配合的新结构的挑战将是一个漫长的过程。这不仅仅是技术挑战,更是我们的社会如何应对这些挑战的问题。我认为第一个规则是,AI Agents 必须隶属于某个个人或组织。第二个问题是人类价值的问题。AI Agents 存在一种让人害怕的因素,即价值剥夺。好像 ChatGPT 做的一切都将剥夺人类的价值。所以我认为我们需要创建一个平台,创造一个让人们的价值得以体现的机会。有一个平台,有一个产品,让人们将他们所懂的知识、独特的想法注入到 AI Agents 中,作为一个放大器。这样,人们的价值感就可以得到充分体现。大模型只是技术的第一步,AI Agents 的技术是第二步。问问潘乱,你觉得 AI Agents 对互联网今天的格局会带来什么的影响?拿点外卖举例,未来会不会没有一个界面让我去挑,而是一个 AI Agents 帮我去点,那我还会需要 APP 吗?还是一个中心化的 AI Agents?手机不变的话,APP 还是需要的。因为尽管大家提供了不同的能力,但实际上只是成本在转移。有些方面是无法替代的,比如商品的制造、物流和履约等,这些流程是无法被替代的,只是成本结构发生了转移。因为新的流程并没有涌现出来,仍然是在现有的框架中进行,只是在服务方式或一些重要环节上发生了变化。二位创业者在这个话题上有什么高见?作为创业者和技术创新者,你们如何看待未来的市场?从今天互联网的角度看,在未来可能会有许多 AI 账号存在,就像现在我们可以有微信、微博等账号一样。至于未来互联网的形态、人际关系以及交互方式如何呈现,目前还是未知的。在我的角度来看,如果不考虑产品化,只考虑愿景,首先可以创建这些账号维度,构建这些 AI。当然,第二个维度是大家对于终局的认同,这可能是因为科幻电影的影响,人们形成了对未来的共识。然而,确定目标是一回事,但找到实现这个目标的路径却非常困难。就像 Facebook 和 Google 成立初期,大家都知道信息分发和建立关系是最终目标,但如何逐步构建产品、教育用户,并让用户最终接受这个终局,是最困难的部分。今天的难点在于如何与用户共同成长,每一次都能找到一个产品,恰好契合他们对技术的理解和认知,这是非常困难的。回到之前的讨论,我认为纯粹的语音用户界面(VUI)并不是一种很好的交互方式。虽然我在开发这方面遇到了很多问题,但我仍然认为有更好的交互方式存在。在我看来,ChatGPT 除了展示了技术的飞速进步,对人类的最大贡献是教育方面。通过与人类的交互,特别是 AI Agents,我们逐渐形成了一种你强我强,你弱我弱的过程。Siri 作为一个例子,人们仍然停留在早期使用模式,对它的记忆能力感到失望。尽管 Siri 在从 2011 年发布到现在的十几年间已经变得更强大,可以完成许多之前认为它无法做到的任务,但用户的认知仍然停滞不前。ChatGPT 在教育用户方面为人类迈出了重要的一步,将 AI 与人类的交互模式结合起来。时间对于大多数创业者和科技从业者来说是非常宝贵的。教育用户的成本非常高,因此如何形成一个浪潮,并让大家共同努力教育用户并推动进步,这是非常有价值的。与用户一起共同创造需求也是一个逐步推进的过程。Siri 的进步没有被用户很好感知到,是因为声音不是一个特别好的接触媒介吗?用户在软件使用的早期会形成对软件的初始认知,并很难接受软件的升级。如果用户一开始认为软件功能有限,他们很可能会一直持有这种看法,不愿接受软件的改进。所以,ChatGPT 给人们留下最好的感觉是什么?是那些奇妙的时刻,那些超出预期的时刻。大多数人在使用 ChatGPT 时可能会觉得它的表现一般,并没有超出他们的预期。但那些超出预期的神奇时刻留在他们的记忆中,让他们认为它非常强大。实际上它并不总是如此强大,无法在所有情况下都表现出色。ChatGPT 之所以在教育用户方面取得了很大的进展,最重要的是它第一次让人们将那些奇妙的时刻视为它的下限,认为未来的技术只会比它更好。这一点是以前的 Siri 无法给用户带来的。当 Siri 刚开始出现时,人们开始尝试调戏它,但很快就发现它的能力有限,只能应付一些简单的调侃。于是人们觉得 Siri 很傻。这限制了人们对 Siri 能力的理解,他们认为它的水平就是那样,没有更高的期望。换句话说,人们对于 AI 这一代大模型的理解是,它的下限是无限的,上限可能是一个非常强大的 AI Agents。所以我个人认为,这一点非常有价值。虽然技术可能会比我们预期的快速发展,但要让整个社会和市场接受并将所有事物都用 AI 来完成并找到更好的形态需要很长时间。回顾过去的 30 年互联网发展和 50 年软件发展的经验,我们能够提供非常好的服务,满足人们的需求。这背后积累了许多经验,不仅仅是技术,还有用户的使用习惯和正确的开放方式。这些正确的方法不太可能被 AI 短期内完全取代。有一些场景可能容易被 AI Agents 和交互形式所取代。在原本需要我们进行判断、思考和逻辑选择的场景中,大模型的能力能够更好地满足需求。在长期看来,社会会逐渐向以 AI 为中心的应用形态和全新的产业结构发展。因此,会有一些新的平台机会产生。另外,我想到了一个有趣的词,叫做"分发"。服务和知识的分发也是一个我们忽视的点。如果你有 AI Agents 了,你真的需要通过搜索来找到服务吗?你还需要通过关键词匹配吗?这个世界非常复杂,每个人的需求都千差万别,即使需求相同,我希望它以不同的方式被满足。所以背后一定需要有大量基于 AI Agents 这种形式的服务被创造出来。如果这些 AI Agents 是必要的,它们必须找到一种更好的方式来连接和分发。分发在某个点上将会被完全重塑,只要 AI Agents 的数量足够多,领域的覆盖足够广,分发将会被重新定义。最后一个点是,以前我们应用形态的改变通常是先有硬件,然后才有应用,比如先有 iPhone,然后我们才开发了整个应用体系。但今天是先有了一种软件层面的能力,大模型本质上就是一种软件能力。然后我们需要考虑什么样的硬件形态适合它,比如可能不仅仅是手机,也许是机器人,也许是眼镜等等。MR 是不是更能解锁 AI Agents 的价值?MR 肯定会更适合。如果不考虑 MR 本身的技术难题,它实际上就像科幻电影中戴上一个设备那样,你在这个世界中与一个数字 AI Agents 进行交流,它提供服务,像你一样能够观察环境并解决问题。所以我觉得当前阶段,软件在推动硬件发展方面起到了关键作用,但硬件的发展周期相对较长,可能需要 5 年、10 年的时间才会出现一种更适合 AI 的硬件载体,以 AI Agents 为中心、以助手为中心的形态。芳波刚才轻描淡写地提到了两个词,AI Agents 将必然改变分发和硬件平台。这两个词,分发和智能手机都是在上一代互联网中至关重要的核心要素。今天的所有互联网平台本质上都是建立在分发的基础之上。王兴在上市时感谢乔布斯,可见其重要性。在某些领域和场景中,AI Agents 已经开始改变分发方式。我们可以说它正在挑战原有平台的机制,原本平台依靠用户习惯带来的流量进行分发,而未来可能通过 AI Agents 直接跳过这一步骤进行分发。当然,平台仍然具有价值。潘乱提到履约的价值以及货架和生产的价值是不会被替代的。但是其中分发的逻辑已经发生了变化,这一点非常重要。如果将这一点结合硬件来考虑,需要注意的是,MR 的发展已经进行了近十年的探索。这种设备已经先于大型模型的发展走在前面,而接下来的十年可能是它的发展阶段。在接下来的十年中,这两个方面的叠加将带来令人期待和激动的可能性。不知道潘乱认不认同,这种规模小的变革,在中国是不是会出现巨头和巨头之间的边界模糊和冲突?创业者从头做这件事是不是挺难的?存在着新范式的变革给创业者带来新平台的机会吗?从历史上看,巨头们往往会回归到用户这个核心。新事物需要很长时间来理解,但随着时间的推移,差距会迅速缩小。相对于移动互联网来说,我并没有觉得未来会更容易出现一个新的巨头,反而会更难一些。但是如果你想提供某些服务,创业公司的优势会更大一些。如果没有一个新的媒介,仍然局限于手机,那么无论是流量获取成本,用户留存,激励措施,还是商业化,我觉得在某些环节发生了变化,但整个成本模型并没有完全改变。如果你想从根本上产生一些更大的东西,替代之前的东西,那是非常困难的。巨头们经历了一路跌跌撞撞的过程,他们并没有变得自满。所以当新事物出现时,他们对此非常敏感,并且他们需要数据和用户。我认为我们很难想象谁能够一举击败所有巨头。但对于创业者来说,仍然有很多事情可以做。就像芳波和逸嘉公司所做的事情一样,他们开启了一些新的技术可能性,你会发现技术的可能性就像是扩展新大陆,如果没有技术的演进,这个大陆就不会扩展,只有技术的发展才能让创业者在新大陆上探索新的机会。我在美国的经验告诉我,也许有 20%的东西会是集中化的,但 80%的大模型价值会是分散化的,也就是每个人、每个公司都会拥有自己的模型,甚至有一些行业模型会是集中化的。就是在高集中度的行业中,也就是存在巨头的行业中,一般不会出现行业模型,因为巨头会保持自己的私有模型。但是在集中度较低的行业中,你确实有可能使用一个大模型来提升整个行业的生产力,可能是通过代理模式,也可能是通过行业模型的方式。在这种行业中没有巨头存在,提升整个行业的平均水平是有意义的。所以未来在 AI Agents 层面,很可能会先在那些集中度较低的行业中起作用。芳波,你怎么看?这个类比是否适用?你们是否也有类似的判断?AI Agents 会不会首先在集中度没那么高的行业起作用?你们两位都是从大公司出来的,你会发现虽然是大公司,但他们想做的事情太多了,他们的资源无法集中在一件事上,否则你们也不会选择自己创业。所以有些公司可以在保持大规模的同时将力量集中在一起,但有些公司可能每个人都在忙着做各自的事情,最后反而不如创业公司更专注。首先我不是一个非常成功的创业者,我不是太有资格来讲这件事情。我的个人判断是,会有两条创业路径。第一条是选择那些集中度不高、没有巨头存在的行业,并且这些行业问题足够复杂,只有通过 AI 这种新的技术范式才能更好地解决。在这种情况下,可能会出现一些行业的重要参与者,他们的集中度可能会超过互联网和移动互联网时代的参与者。在这种情况下,通过以 AI 为驱动的形式,他们可能能够占据更大的市场份额。创业成功的关键是拥有一小群核心用户和核心体验。巨头可能想模仿,但因为他们的盘子太大,无法聚焦于一个点,就像拼多多的砍一刀,他们拥有一个小而核心的体验,阿里一直无法学习或者不屑于学习。当你拥有一个真正独特的东西时,即使巨头想要追你、赌你、抄袭你,甚至投入大量资金在市场上打广告来击败你,你可能仍然能够生存下来,因为你有强大的生命力。对于 AI 创始人和 CEO 们来说,除了对技术的了解和超前的认知行动之外,找到这个独特的东西可能是非常关键的。对于大多数创业公司来说,纯粹的执行力并不足以击败大厂。对于绝大多数创业者来说,他们没有与大厂相比更优秀的人才和更丰富的资金。因此,更重要的是找到一个非共识点,一个大厂可能没有意识到的点。换句话说,如果你不敢冒险,你怎么能赢?当大家都在一个公平的牌桌上玩游戏时,实际上是不公平的。因此,你需要想办法玩一个与众不同的游戏。大模型给创业公司提供了一些先发优势和提前的突破口,这是一个维度。对于大多数创业者来说,要么你做得比大厂更好,但最终可能还是无法超越他们,这时你可以考虑是否能够被收购。或者,你做一件事情,大厂可能在短期内并不看好,但当你开始取得成就时,他们会意识到这个机会。逸嘉说的是金句。创业就是在共识上跑得比巨头快,在非共识上要跑得更快。这才是最终创造价值的核心逻辑。,做过上亿用户产品的王小川也会到场,和大家聊聊自己的第二轮创业。我先跟三位征集一下,有机会向小川提问的话,你最希望问他什么问题?我就知道你要问这个。到时候我跟小川说,就说是潘乱你要求问我这个问题的。我想问川总的是,他自己做大模型的判断是什么?是完成他未尽的心愿吗?我想问的是,在这样一个快速变化的时代,大模型创业肯定有一个坚持的主线,他准备坚持哪条线做下去? 大家都觉得大模型(创业)这件事挺不容易的,相当难,有挑战。希望到时候在大会上能给大家呈现一个有意思的访谈,让他能分享给创业者朋友们。还是回到那句话,在 AGI 技术发展的时间线里,这可能是未来十年最差的一年,但每一年都更值得期待。这里可能是一代人新的机会,不管是 AGI 时代的产品经理们,还是技术和企业,在未来十年都必然会发生变化,只不过我们还不知道是哪年,会出来谁。10 年的时候没人能猜到小米、字节(的崛起),14 年的时候我们也想不到小红书、拼多多。潘乱说得特别对,预测未来有时候没太大意义,总结历史对预测未来更有意义。感谢几位,我们两个多小时的时间聊了很多,期待两位,作为 AI Agents 赛道里中国最优秀的创业者,都能获得更好的发展,经常回到这里,带着我们一起探索 AGI 的世界。
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
AGI Playground,7.22 - 7.23 北京见!
「文件夹」概念过时了!网盘巨头重新理解文件管理,重磅推出两款AI服务
历史第一黄仁勋:创业30年,万亿美金,他还是CEO