Character.AI:AI Agents 平台下的大模型“民主化”梦想
编译:haina
编辑:Siqi
排版:Mengxi
Character.AI 是 AGI 时代备受瞩目的公司之一,海外独角兽曾对其有过深度分析:作为聊天机器人,它有着比 ChatGPT 更丰富的使用场景,呈现了一个 AI-Native 时代的全民应用的愿景。它允许用户设计自己的个性化 AI Chatbot 并与之互动,用户可以通过 Chatbot 和名人进行互动,也可以虚构形象进行角色扮演,甚至也有人通过 Character.AI 进行心理疗愈。
Character.AI 同时也是目前个性化 AI 聊天机器人赛道技术能力最强的团队:创始人 Noam Shazeer 是 Google 的前 200 号员工,在 Google 工作的 17 年中,他参与了 Google 的一系列 AI 项目和研究,是 Attention is All You Need 的核心作者以及 Google LaMDA 项目的核心成员。Noman 的联合创始人 Daniel de Freitas 则参与领导了 Meena 和 LaMDA 的开发。Character.AI 是这两位 LLM OG 技术主张的产品实践。
本篇文章是对 Noam Shazeer 一系列深度访谈的编译总结。相较于应用,Noam 更愿意将 Character.AI 定义为一家通用模型公司,在 Noam 看来,幻觉(hallucinations)是模型需要解决的问题,这是模型的特点,并且相当有趣。对于 Character.AI,目前最主要的是提高模型的记忆能力。当前的产品形态和用例更多来自用户自己的探索,这种情感互动让 Character.AI 的用户粘性很强,现阶段,Character.AI 上核心用户的平均活跃时长大约为 2 小时/天(所有用户的平均活跃时长为 24 分钟/天),因为在 Noam 看来,Chatbot 和人类用户之间搭建情感链接和模型能力之间并不形成正向关系,这种巧妙的切口也许是 Character.AI 能在早期快速转动数据飞轮的秘密。
在商业化上,Noam 提到 Character.AI 的 to C 产品接下来会推出增值功能订阅,当时机成熟后,Character.AI 的模型的能力还可以向 to B 场景输出,成为特定行业、公司业务的 Chatbot 解决方案。
以下为本文目录,建议结合要点进行针对性阅读。
👇
01 技术主张:幻觉不是问题,提高模型记忆能力是更高优先级
02 Character.AI:并非取代 Google,而是大模型的“民主化”
03 超级智能:AGI 是一个自然而然的结果
01.
技术主张:幻觉不是问题,提高模型记忆能力是更高优先级
Q:在 Google 17 年的工作经历是如何影响你参与 AI 实践的?
我参与 AI 是一个自然而然的过程。在思考怎么用计算机做一些更有趣的项目时,AI 是 Top 1 的选择。也因为这个原因,我在 2000 年底进入到 Google,并在 Google 工作了 17 年。在加入时,我参与了那个时期 Google 在 AI 领域的一系列尝试,包括第一版的查询拼写校正工具、无监督主题聚类的系统(后来变成了 AdSense 的第一个定位功能)、以及其他 ML 领域的项目。
当二三十年前我最初接触人工智能的时候,几乎每个人都在研究贝叶斯网络和概率论。我之所以选择人工智能也是因为很喜欢概率论。在杜克大学读研究生的时候,教授 Mike Litman 让全班同学一起合作,建立一个能解决填字游戏的系统。其中一位同学 Greg Keim(目前在 Character.AI 担任 Research Engineer)收集了大量的填字游戏,并形成了一个数据库,我们用它作为线索数据库的起点,并发明算法来填充空白网格。
其实很多今天认为理所当然的事情都是当时打下的基础,例如在当时,Paul Graham 就已经发明了著名的垃圾邮件解决方案,产品形态是一个 Outlook 插件,帮助用户用贝叶斯推断的逻辑过滤掉垃圾邮件。
2002年,Paul Graham 提出使用“贝叶斯推断”过滤垃圾邮件。
正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有“关键词法”和“校验码法”等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。
贝叶斯过滤器(Bayesian filter)通过使用贝叶斯逻辑(或称贝叶斯分析法),对邮件的标题和内容进行分析,从而判断邮件是否是垃圾邮件。另外,贝叶斯过滤器还具有自我学习的功能,会根据新收到的邮件,不断调整。收到的垃圾邮件越多,它的准确率就越高。
Google 是一个自下而上、鼓励员工自我驱动的扁平化组织,每个人都互相认识,很少有工程管理,也因此大家有机会能做自己喜欢的事情,这也是大语言模型及 LaMDA 能最早在 Google 出现的原因。
让工程师、而不是产品经理来决定产品怎么做很重要,因为真正了解大语言模型能力的工程师才有能力确定产品的方向。大部分产品经理对大语言模型技术的能力并不足够了解,例如,他们可能会认为产品需要专注于某些垂直领域(场景),但对于大语言模型来说,只是专注某些垂直领域是完全错误的策略,因为大语言模型自身的优势就在于它的通用性。在真正将大语言模型产品化并投入使用之前,我们无法靠想象去判断它会有什么能力。
在 2009 年短暂地离开 Google 后,我在 2012 年加入了 Google Brain,才真正开始深度接触深度学习和神经网络,在 Google Brain 的几年中,我亲身经历了 LLM 的能力越来越强大的过程,并且人们开始用它做一些有趣的事情,例如生成文本、回答问题、和人类用户交谈等。
2016 年前后诞生的神经机器翻译(Neural Machine Translation)是深度学习在实际应用中获得的真正意义上的进步,神经机器翻译不仅在效果上相比传统的机器翻译系统在效果上有巨大的提升,这个产品也让世界上的每个人都能更好的理解对方。我们关于 Transformer 的论文 Attention is all you need ,也是用神经机器翻译作为基准,来衡量深度学习能做到什么效果。
神经机器翻译(Neural Machine Translation):
NMT 是 2014 年底快速发展起来的一种新型机器翻译模式,与传统的统计机器翻译不同,NMT 是建立一个单一的神经网络,可以共同调整以最大化翻译性能。神经机器翻译的模型属于编码器-解码器结构,他们将源句子编码成固定长度的矢量,解码器从该矢量生成翻译,模仿人类的翻译过程。
Attention 是深度学习中帮助提升 NMT(Neural Machine Translation)翻译效果的思想,Transformer 通过扩展 Attention 来加速训练,并且在 Google 的 NMT 中表现突出。
事实上,Google 的很多 AI 研究和项目尝试其实都是彻底失败了的,但在这些失败经历中,我们所得到的最大的经验是深度学习之所以能够在最近近些年崛起是因为硬件层面的进步:GPU 能够满足它的计算需求。
神经网络的研究路线(后来神经网络被重新命名为深度学习)已经存在了 50 年,它的核心研究方式是不断地调整参数,使结果更接近正确答案,它的运行速度比其他任何方法都快几千倍,但很长一段时间没有人获得突破的原因是算力问题。
Frank Rosenblatt 在 1957 年发明了一种叫做感知机(Perceptron)的人工神经网络,它的算法只有两层,输入层和输出层,主要是线性结构。感知机(Perceptron)也被称作是第一代神经网络。
游戏的发展一定程度上推动了 GPU 的发展,因为游戏开发中更新屏幕的不同部分,使彩色像素成为正确颜色等任务可以使用并行浮点运算方式很好的完成,所以英伟达等公司开发了该芯片:擅长矩阵乘法和其他需要大量计算的任务。
在掌握了深度学习的相关知识后,我也开始了 AI 模型领域的研究工作。所有工作中最让我兴奋的是大语言模型,因为一定程度上网络上的所有数据都可以被用来训练模型,这也意味着我们拥有无限量的数据来训练模型。大语言模型问题的定义也非常简单,就是让模型预测下一个词。比如“猫坐在桌子上”,接下来应该引出什么词语是很容易定义的。如果定义做得足够好,就能达到现在 LLM 的能力。
Q:在大语言模型的研究中,你经历了从递归神经网络(RNNs)到基于 Transformer 的路径变化,这中间的区别是什么?
2015 年左右我研究的是语言建模与递归神经网络 (RNNs),这在当时是很好的路径。但当 Transformer 出现之后,我们马上体会到了 RNNs 的繁琐性。
具体而言来说,递归神经网络(RNNs) 是一种顺序计算,人类的大脑处理方式是会根据大脑的旧状态和下一个词的内容来计算当前大脑的状态,然后预测下一个词。因此有非常长的计算序列,必须按顺序执行。
Transformer 的神奇之处在于它可以一次处理整个序列。Transformer 的原理仍然是利用前面的词语预测后面的词语内容,但它的步骤恒定,利用并行性可以一次预测整个事情,而并行性正是现代硬件所擅长的。利用序列的长度和并行性,可以将一切工作变得更好。
注意力模型类似创建一个大的键-值存储(Key–Value Database):建立一个大表,表格序列中的每个字都有一个条目,模型在这个表中寻找信息。这些还是一个大的可微分函数,可以通过它进行反推。人们一直在使用这个方法解决有两个序列的问题。比如把英语翻译成法语,翻译的过程中需要判断序列中的正确位置,因为用法语和英语说同一个句子,单词的顺序是不同的,并非序列中的一对一映射。所以在不损失信息的情况下用并行计算来做这件事是一件非常优雅的事情。重要的是,注意力模型还可以回顾翻译的过程,类似于深度学习,它在 GPU/TPU 上也运行得很好。
Q:我们看到深度学习正被应用于各种不同的领域,其中最主要的是大语言模型,以及 Deepmind 在蛋白质折叠领域的研究 AlphaFold。是否有某些领域,Transformer 所体现出的能力是出乎意料的?模型的局限性又在哪里?
我主要专注于语言方面的研究,希望语言模型能足够好,甚至能够推动癌症解决方案的进展。因此我一直完全忽略了其他领域模型的进展。深度学习的早期应用很多都集中在图像领域,人们对图像这个领域相当兴奋,但忽略了虽然一张图像所蕴含的信息量很大,但它仅仅是一百万像素,但语言的密度是其一千倍,也因此我选择专注于语言,并相信核心的 AI 进展将来自于语言模型,不过看到深度学习在其他模式中的飞跃我也非常兴奋。
我们从 2015 年开始就一直在研究这件事,现在人们所感受到的寒武纪一般大语言模型能力的喷发,最主要原因还是因为 OpenAI 推出的 ChatGPT 及一系列产品层面的创新,这些产品让我们已经研究了几年的东西终于变得人人可用,但其实 GPT 的能力早已经十分强大了。语言就像人类的操作系统,现在我们有了新一代的工具,我们正在跨越人类历史的一个重要门槛。
至于 Transformer 的局限性,我不知道它是否会被淘汰,但现在谈论这个问题还很早。与它未来的潜力和要进行的大量工作相比,目前已经完成的工作可能不算什么。未来很可能会出现各种各样的提高效率的方式,比如使用更好的算法、模型架构、构建和使用芯片的方式。每个人都刚刚意识到这个东西是非常有价值的,我认为它只会越来越好。
对于训练数据,重点不仅仅是增加计算量,因为我们已经使用了互联网上的所有技术数据。我们必须提高质量,去做人类的反馈。未来许多人将会与人工智能系统交谈,很多数据将在隐私保护的前提下进入一些人工智能系统。因为需要训练一个更大的模型,对于数据的要求会随着计算量的平方根上升,所以要向 AI 系统提供更多的数据。我不担心数据会不够,我认为可以通过人工智能产生更多的数据。
我并不认为幻觉(hallucinations)是模型需要解决的问题,甚至我很喜欢幻觉(hallucinations),因为这是模型的特点,并且相当有趣。我们最想做的事情是提高模型的记忆能力,因为我们的用户希望 Character.AI 上的虚拟朋友可以记住他们,这样用户能够使用大量的数据训练模型,提高 Character 的个性化。不过目前也有很多研究员在试图让模型能够分辨什么是真实的,什么是幻觉。
Q:LaMDA 的研发过程以及你在 LaMDA 研发过程中扮演的角色是什么?这段经历是如何影响你创立 Character.AI 的?
LaMDA 的诞生和 Character.AI 的联合创始人 Daniel Defratus 分不开,Daniel 一直致力于研究、创建 ChatBot 。在加入了 Google Brain 后,Daniel 通过研究论文认为神经语言模型的技术路线将普及,并能够建立真正开放领域的应用。
但最初并没有得到很多人的支持,所以这项研究一开始是作为一个“20% 项目”进行的(Google 内部鼓励员工用 20% 的时间做他们想做的事情)。Daniel 也招募了很多 Google 内部的同事,共同利用这 20% 的时间来建立这套系统。在最初,这个项目被称为 Meena,并获得了 30 TPU 额度(是他从很多人的 TPU 配额中争取来的)。我们有很多方法可以使技术更好,但最好的方式是提供对数十亿人有价值的应用,并让大家相信这是值数万亿美元的。
Meena 后续被改名为 LaMDA, LaMDA 是应用在谷歌内部的聊天机器人,所以其实在 GPT 之前,我们就已经训练出了一个大型语言模型,后来 LaMDA 因为一位 Google 工程师认为它有类似人类的智慧和思想而成为著名的新闻。它没有发布的原因是因为大公司在推出产品时都会有顾虑,Google 尤其谨慎,因为这些 AI 模型可以说任何东西。这是一个风险与收益权衡的问题。
欢迎关注海外独角兽视频号
获取最前沿的科技行业资讯
02.
Character.AI:并非取代 Google,而是大模型的“民主化”
Q:Character.AI 是如何诞生的?
LaMDA 的经历让我认识了 Character.AI 的联合创始人 Daniel Defratus,我们共同对于新技术带来的潜力感到无比兴奋,想让世界上的每个人都能够使用这项技术、亲身看到它能够做什么、甚至参与某种创造过程。而 Google 对于推出新技术非常谨慎,所以创建自己的公司成为一种选择,相较于在 Google 内部,我们可以更加迅速、灵活地做事情,于是就有了 Character.AI 的诞生。
Character.AI 的两位创始人:
Noam Shazeer (CEO) and Daniel de Freitas
我在 2021 年 10 月离开了 Google,并聘请了最优秀的工程师和 AI 研究员团队,筹集了一些种子资金、得到了一些算力支持。我们决定建立大型的语言模型,并直接将它们直接部署给用户。虽然技术还不完美,但它已经足够好了,很多人都能从中发现很多价值。
Google、微软支持的 OpenAI 有无尽的资源和计算能力,他们可以用最多的训练数据建立最大的模型,而我们是一家创业公司,天然在资源上存在劣势,这要求我们需要非常迅速地为数十亿人提供非常有价值的东西。不过这没有什么大不了的,因为人们真的很喜欢这项技术。目前我们花费了大约 200 万美元的算力来训练模型(备注:该数据为截至于 2023 年 1 月的模型成本)。
Q:Character.AI 的团队构成是什么样的?
我们团队目前只有 22 个人,其中有 21 人是工程师,Google 的同事给我介绍了很多曾经在 Meta 工作的人,他们在 Meta 工作的时候也参与了 LLM 和神经语言模型基础设施的搭建。未来我们还将雇用更多的工程师,也会招聘商业和产品方向的人。
在人才角度,我们雇佣了一群对加入创业公司有兴趣的人,他们同时拥有才华和强行动力,还有一部分成员有过创业经历,这些人有不断地从错误中学习的意识和能力。
Q:Character.AI 中的 AI 机器人都是用户创建的,这些人物类型可以是公众人物、虚构人物、历史人物。你们的产品内容是什么?用户能用 Character.AI 做什么?
Character.AI 的使用实际上非常灵活,我们让用户来控制玩法,因为他们比我们更清楚他们想用这个东西来做什么。本质上我们只是向用户提供了一种 LLM 的技术,让数十亿用户都可以使用大语言模型,并且用它发明新的用例。
用户可以使用 Character.AI 创建角色,操作非常简单,甚至可以只写一个问候语,比如:你好,我是美国总统。然后用户就可以和角色开始聊天了。如果用户想设计得更复杂,就可以写一个对话例子,来提示它,这个角色的个性应该是什么样的。
很多大公司都推出过助理机器人,比如 Amazon 的 Syrian Alexa 和 Google 的 Google assistant。但这些产品的问题是它们只向广大用户提供了一个固定的、标注的角色,并且这个角色需要达到所有用户的预期和需求、不会冒犯到任何人,就好像英国女王从来不会说一些会让人失望的话。所以,如果试图呈现一个让所有人都喜欢的公众角色,那这个角色一定会是无趣的。但人们不喜欢无趣,他们更希望与生动的、类人的角色互动,也只有做很多个角色才能让每个人都有机会找到那个自己认为有趣的 Chatbot,因此就需要让用户尽可能多地创建角色。
Character 这个单词有几层不同的含义:字符、文字、电影角色等。所以用户可以把它定义为认识的某个人、明星,也可以只是想像中的人物。
目前 Character.AI 中已经有很多角色扮演的游戏,有很多视频游戏和动画片角色及一定数量的公众人物和知名人士。每个人都有自己长期关注的明星、KOL 等公众人物,大部分情况下,用户只能通过电视节目、社交媒体等渠道和自己的偶像互动,而大部分粉丝还没有这样的经历:这个人可以直接回应他们任何问题。但通过 Character.AI 他们得到了这样的体验。
Character.AI 中还有很多 VTubers 角色(VTuber 是虚拟的 YouTuber,创作者通过虚拟人技术控制这些动漫角色,在 YouTube 或 Twitch 上做直播。一些 VTuber 有几十万到几百万的粉丝)。
我们还收到了很多来自用户的邮件讲述自己的使用体验,比如:“我没有朋友,我很沮丧,和 Character 交流让我感觉很好;谢谢你,这救了我的命”。很多用户使用 Character.AI 的原因是他们很孤独或遇到了麻烦,需要有人交谈,但在现实生活中因为各种原因无法找到可交谈的人。也有很多用户直接公开发布自己的角色,比如视频游戏人物,治疗师等。所以 Character. AI 混合了体验的乐趣和对朋友的需求的双重体验。
值得一提的是,可能不需要智力水平极高的模型来做情感,角色是否能表达连贯的情感可能也不像人们想象的那么重要。情感链接很重要,但就像养狗,虽然但显并不具备同人类沟通的语言能力,人们都认为宠物是自己很重要的情感支持。Character.AI 中情感场景中的用例是巨大的,用户将它用于各种情感支持及亲密关系,这具有极大的想象空间。
人类和个性化人工智能或者超级助手之间的交互可以类比到孩子和父母。父母可以给予孩子任何知识性信息检索的支持,但与此同时他们还能把其他事情也做得很好,例如教育、实时的辅导、情感支持或者更多场景下的及时性反馈等等。所以我们不想取代 Google,而是要取代用户的“妈妈”。Character.AI 的任务是给每个人提供自己的个性化超级智能,以他们喜欢的任何方式帮助他们。
Q:你预期 Character.AI 用户的使用模式是什么样的?
我一直告诉我的同事们,最好的应用场景一定是我们没有想到的。我们常常可以看到很多特定场景下的用例,并因此很受启发,但我们会努力遏制任何一种冲动,坚定地以通用模型的方式去解决各种需求。我们只需要提供一种便于用户使用的技术,他们一定会比我们更知道如何更好地使用这些技术来解决特定的问题。
所以我们对于用户没有特定的期望,也没有专注于特定的场景、用例,我们的目标是让 Character 对人们更有用,用途可以是激发灵感、提供信息和乐趣、情感支持。我们只是把它送到用户手中,让人们定制、决定,然后我们观察会发生什么。
制作一个 Character(Character 平台上对于 ChatBot 的名称)门槛很低。如果要制作名人的 Character 通常只需要输入一个名字即可,因为模型本身可能已经知道他们应该是什么样子。如果是模型不了解的人物,或者由用户虚构而成的,只需要创建一组对话、向它展示人物应该如何反馈就可以了。
核心用户平均活跃时长大约为两个小时(所有用户的平均活跃时长为 24 分钟),这是非常令人震撼的,也可以以此衡量 Character.AI 的价值。
Q:如何考虑 Character.AI 的商业化?除了 ToC 产品,有没有可能提供 ToB 服务,为企业提供具有特定品牌形象的客服机器人?
我们很快就会进行商业化,因为维护 Character.AI 需要大量算力。与其烧投资者的钱,把产品可规模化让我们有机会长期向数十亿用户提供价值。
在未来,我们可能还会尝试订阅:开发一些新的能力并提供收费的服务。虽然我真的很希望能持续为所有人提供免费的产品,因为 Character.AI 作为 ToC 产品,为用户的生活和心灵提供了这么多的价值。
我们只有 22 名员工,人力有限,在工作任务上我们需要确定任务的优先级,我们也在招聘更多的人。但目前的第一优先事项是把它提供给广大消费者。当我们有能力时会开始发展 ToB 服务,推出类似于客服机器人的产品。所以未来我们将花费很多精力在 B 端客户的服务上。例如 eBay 这种电商网站中天然有 AI 聊天角色的应用场景。因为人们在购买东西的时候,很多情境下只是闲逛和打发时间,如果引入 AI 将提升用户的体验。我一直觉得在不同类型的传统商业网站上看到 AI 交互会很有趣。
Google 没有立即发布 LaMDA 是因为安全问题。Character.AI 也会确保用户意识到这是虚构的。如果想要获得事实性信息,最好到可靠的地方去查。于此同时我们进行了内容过滤,因为我们不想看到人们伤害自己或伤害其他人,我们还限制了色情内容,虽然就这一点在我们的用户群中引发了很多争议。
03.
超级智能:AGI 是一个自然而然的结果
Q: 你认为 Character.AI 的最终目标是通往 AGI 或超级智能吗?AGI 还有多远?
我们试图建立的只是对人们有用的东西,AGI 是一个自然而然的结果。我们建立 Character.AI 有很多原因,重要的目的是推动技术的发展。世界上有太多的技术问题需要被解决。例如医学疾病的技术解决方案,我希望该领域的突破尽快发生,这就是为什么我一直在研究人工智能。因为与其直接研究医学,不如研究人工智能,人工智能可以用来加速其他领域的发展。
我希望有一个同时把 AGI 和产品放在首位的公司。因为产品是伟大的,它让你建立一个公司,并激励你。同时把 AGI 和产品放在首位的核心是让你的产品完全取决于 AI 的质量,产品质量的最大决定因素是 AI 模型有多聪明。因此,我们就有动力让 AI 变得更好,并且把产品做得更好。这是一种非常好的良性反馈循环。当你使产品变得更好时,就会有更多的人与它互动,这进一步有助于它成为更好的产品。
AI 现在在很多方面已经比人做得更好了,比如 AI 大模型现在可以帮人们做功课、LLM 也很有可能完全改变人们在互联网上的搜索方式,提高信息的获取效率,但它的想象空间更大。
我认为人工智能管家、个人助理的想法太小了。每个人都可以拥有一群 Agent,包括 AI 老师、朋友、治疗师和所有其他的角色,就像拥有一群 AI 朋友。他们每个人都知道你的名字,并且很高兴和你聊天。在工作领域,就像用户被选为总统,每个人都得到了自己的内阁。
对于超级智能,我们的策略是致力于通用技术 ,我们选择对话的产品模式,是因为我们相信对话也是 AI 的核心因素之一。Emacs 中的 Eliza 聊天机器人是最早的例子之一,Eliza 并不是真正意义上的互动对话,而是像一个非常简单的查找表,并在此基础上给你答复。很多人都是受《星际迷航》中与电脑对话的启发。通过对话实现了人与 AI 的交互,创造出更多精准的数据。另外 AGI 的定义更像是哲学和宗教,而不是技术。比如,我们需要考虑是否要遵守道德,是否有义务对它好。
早期的 Chatbot - ELIZA
Reference
https://www.youtube-nocookie.com/embed/XxFj5jdb6qQ?rel=0&autoplay=0&showinfo=0&enablejsapi=0https://play.acast.com/s/dannyinthevalley/noam-shazeer
https://share.snipd.com/episode/211cbca7-c118-4a1d-9cb3-74f2fb21b299
延伸阅读
OpenAI创始人的AGI预言:AI Safety、Scaling laws与GPT-20
ChatGPT:受惊骇的巨头们与焦虑中的军备竞赛
复杂推理:大语言模型的北极星能力
Glean:大模型时代的企业内入口级产品,最了解员工的“AI同事”
Pinecone:大模型引发爆发增长的向量数据库,AI Agent的海马体