22人10亿美元,Character.ai CEO对话投资人:如何定义用户与虚构角色的关系?提高训练质量方法;早期团队招人建议!
Noam Shazeer是Google Transformer的主要作者,他在 2016年阅读了 Google 的一些语言技术研究论文后加入了Google,并通过公司的大语言模型研究构建了早期的聊天机器人Meena,当时还是作为 Google 的 20% 项目,随后在 2020 年该项目更名为 LaMDA,直到他离职创业并正式以 Character.ai 的名字正式出现在公众视野。
Noam Shazeer目前是Character.ai 的 CEO 兼联合创始人,这是一项服务,允许用户设计和与自己的个人机器人进行互动,这些机器人具有著名人物或原型的个性,你可以与苏格拉底进行苏格拉底式的对话,也可以假装被奥普拉采访,或者你可以与一位治疗机器人一起解决人生决策。
Character.ai 在今年3月份拿到了A16Z、SV Angel、Nat Friedman以及Elad Gil等投资方1.5亿美元的A轮融资,估值达10亿美元,这期内容正是来自与其投资人 Elad Gil 的对谈,Noam 讨论了他作为AI研究员、工程师、发明家和现任 CEO 的工作,以及他在Google早期的人工智能冒险,为什么开始创办Character.ai,以及他对人工智能发展前景的看法:
从早期Google到Transformer出世
数据与计算量的关系,如何提高训练质量?
Google的20%项目,Character.ai前身
如何定义用户与虚构角色的关系?
烧钱换规模,商业模式仍在探索
既要 AI,也要 PLG,那就 AI Native
给早期团队的建议,动力与能力的平衡
enjoy👻~
从早期Google到Transformer出世
Elad Gil
我记得你在Google工作了大约17年,虽然期间有离职和复职。我记得你的Google面试问题大概是关于拼写检查的,这个方法最终在那里得以实施。当我加入Google时,当时主要用于广告定向的主要系统是Phil和fill clusters等等,我想这些都是你和George Herrick一起编写的。
因此,了解你在AI、NLP语言模型方面的历史,以及这一切是如何发展的,你最开始从事的工作和你的兴趣是如何产生的?
Noam Shazeer
非常感谢。我一直对人工智能很感兴趣,希望让计算机做一些聪明的事情。似乎这是最有趣的游戏。很幸运地早早加入了Google,它真的是一家人工智能公司。所以我参与了很多早期项目,现在可能你不能称之为人工智能,但在当时似乎非常聪明。最近,我从2012年开始加入了Google Brain团队。那是一个看起来非常聪明、做着有趣事情的团队。我之前从未接触过深度学习或神经网络,我想那时候称之为神经网络,或者无论是何时进行重新命名的,但结果真的很有趣。
Elad Gil
很酷,然后你是在2017年主要参与了Transformer论文和设计的人之一,在之后的一年里参与了Mesh Tensorflow的工作,你能谈一下这一切是如何开始的吗?
Noam Shazeer
我在Google Brain团队里闲逛了几年,对一些事情完全失败,直到我掌握了其中的奥秘。真正让深度学习起作用的关键是它非常适合现代硬件,你拥有了当前一代的芯片,它们非常擅长矩阵乘法和其他需要大量计算而与通信相关的任务。
基本上深度学习之所以如此成功,是因为它的运行速度比其他任何东西快上千倍。当我掌握了这一点,就开始设计一些真正聪明且运行速度快的东西,但最令人兴奋的问题是语言建模,因为有无限量的数据,只需爬取网络,你就可以得到所有你希望拥有的训练数据。
这个问题的定义非常简单,如果能很好地解决它,就能比现在看到的一切更多。你只需与它交谈,它就真的能够完成各种任务,所以我大约在2015年左右开始研究语言建模,并尝试使用递归神经网络进行实验,那时候递归神经网络是很好的选择。
然后,Transformer的想法出现了,有人提出了这个想法,和Jacob一起做的很棒,他们表示这些递归神经网络真的很烦人,我们尝试用一种基于注意力的方法来替代它们,我无意中听到隔壁几个同事谈论这个想法,我觉得这听起来很棒,于是加入他们,一起解决这些烦人的问题。
Elad Gil
你能简单描述一下递归神经网络和基于Transformer或基于注意力的模型之间的区别吗?
Noam Shazeer
递归神经网络是一种顺序计算,每读取一个单词,你会根据你的大脑旧状态和下一个单词来计算当前的大脑状态,然后预测下一个单词。所以你必须按顺序执行这个非常长的计算序列,而Transformer中的卷积计算可以同时处理整个序列。当然,它仍然是有联系的,较后面的单词的预测是依赖于前面的单词的。但它可以在恒定的步骤中完成,这样你就可以利用整个序列一次性处理,而现代硬件擅长并行处理。现在你可以将序列的长度作为并行性,一切都非常顺利。
注意力本身就像是创建一个大型的键值关联内存,你在其中建立一个大表,为序列中的每个单词都有一个条目,然后你在表中查找信息。这一切都是模糊的、可微分的,并且是一个大型可微分函数,可以进行反向传播。人们以前在解决两个序列之间的问题时就已经在使用这种方法,比如机器翻译。比如你要将英语翻译成法语,在生成法语序列时,你可以查看英语序列,并尝试关注正确的位置。但这里的见解是,嘿,你可以使用相同的注意力机制来回顾你正在生成的这个序列的过去。而且它在GPU和TPU上运行得非常好。这就像深度学习之所以起飞的原因一样,它在现有硬件上运行得很好。这将为序列带来相同的效果。
Sarah Guo
我认为一个帮助人们理解的经典例子是用法语和英语说相同的句子,单词的顺序是不同的。因此,你无法进行一对一的映射。要在并行计算中找到如何做到这一点,而不会丢失信息。所以这是一个非常优雅的解决方法。
Elad Gil
看起来这项技术也被应用到了许多不同的领域。显而易见的是多模态语言模型,比如 ChatGPT 或你在字符方面的工作。我也对一些其他领域的应用感到惊讶,比如 Google 在蛋白质折叠方面的努力,Alpha fold实际上表现出了非常高的性能。
数据与计算量的关系,
如何提高训练质量?
Elad Gil
相对于Transformer的工作方式和其能力,你是否发现了一些意想不到的应用领域?
Noam Shazeer
我一直在专注于语言方面,这是一个可以做任何事情的问题,可以问它如何治愈癌症,它就能创造一个解决方案,所以我一直忽视了其他模态下人们所做的工作;我认为深度学习在图像方面取得了很多早期的成功,人们对图像充满了激情,而我完全忽视了它。
因为一幅图像相当于一千个单词,但它有一百万个像素,而文本的密度要高1000倍,所以我更关注文本,但它在其他领域的应用非常令人兴奋,这些应用对于构建人们愿意使用的产品非常有用,我认为核心的智能将来自这些文本模型。
Elad Gil
人们经常谈论规模,你只需要增加计算资源,这个系统就会扩展得更好,还有不同类型的数据可能会可得或不可得,还有算法的调整,添加新的东西,你认为人们仍然需要面对哪些重大问题?你认为这种架构的发展会到达什么样的极限?
Noam Shazeer
我不知道是否会到达极限,我们还没有看到极限。目前所做的工作可能只占了总工作量的一小部分,可能有各种两倍的效率问题等待人们解决,包括更好的训练算法、更好的模型架构、构建芯片的方法以及量化等等,然后还会有因为人们意识到这个东西非常有价值,所以人们会投入大量资金和资源,而这会产生10倍或1000倍的效果。
与此同时,我认为还没有人看到这些技术的极限,所以它只会变得越来越好,我不知道它会停在哪里。
Sarah Guo
你对我们可以增加计算量的想法有什么看法?最大的模型尚未得到充分训练,我们已经使用了互联网上轻松获取的所有文本数据,我们需要提高质量,需要进行人工反馈,你对此有何看法?
Noam Shazeer
在获取更多数据方面,每天有很多人在不断交流。我们有类似这个播客,有数百亿人每天产生数千、甚至上万字的文本,这是大量的数据,而且很快很多人将会与AI系统进行交流,所以我觉得大量数据将会进入一些AI系统中,但我希望这是在保护隐私的前提下,数据需求与计算量的平方根成正比,因为你要训练一个更大的模型,然后向其输入更多的数据,所以我对数据的担忧不是很大,我觉得我们可能可以用AI生成一些额外的数据。
Elad Gil
那么你认为这些模型未来需要解决的主要问题是什么?是虚构幻觉吗?是记忆吗?还是其他什么?
Noam Shazeer
我不知道,我有点喜欢虚构幻觉。我会把它当作一个特性。我认为我们最想解决的一些问题是记忆,因为我们的用户肯定希望他们的虚拟朋友记得他们;个性化的应用场景非常多,希望倾入大量数据并有效地使用它,在区分现实和虚构方面有很多出色的工作正在进行。当然,我认为我们会解决这个问题。
Character.ai前身,
Google的20%项目
Elad Gil
简要谈谈Lambda以及你在其中的角色,以及它是如何最终演变成Character的吗?
Noam Shazeer
我的共同创始人Daniel Defreitas,他是一个非常勤奋、聪明的家伙,他一直在终身追求构建聊天机器人的梦想。从他在巴西的童年时期开始,他就一直在尝试构建聊天机器人。所以他加入 Google 大脑的原因是,我想他读了一些论文,发现这种神经语言模型技术实际上可以推广,并构建一个真正的开放领域的系统。
他没有得到太多的人员配额,这个项目作为一个20%的项目开始,而20%的项目是鼓励人们花20%的时间做任何他们想做的事情。然后他招募了一支由一群人组成的军队,这些人不顾他们的日常工作,实际上帮助他完成这个系统。
他甚至到处乞讨人们的TPU配额,这个项目最初命名为Meena,因为他是在梦中得到的灵感,后来有一天他看着仪表板上的Meena这个名称,然后问,这个Meena是什么,为什么它有30个TPU配额?
实际上,这里面有很多人的贡献,他很成功,因为他构建了一些真正酷的东西,而许多其他系统完全失败,要么是因为人们不够坚韧,要么是因为它们只能应对基于规则的系统,无法推广。
我当时表示我们可以通过各种方式将这项技术改进两倍,但最重要的是说服每个人,通过展示一些对数十亿人来说非常有价值的应用,这是一项价值数万亿美元的技术。所以在LaMDA中。
Elad Gil
这是在Google内部的聊天系统,是吗?在GPT之前,有一名工程师认为它变得有感知能力而闻名,对吧?
Noam Shazeer
那是对Meena的重新命名,我想我在帮助Daniel完成Meena之后,我们使用了一些巨大的语言模型,然后它在内部变成了一种病毒式的现象,然后被重新命名为LaMDA,在那之后我们离开了,所以没有参与到有人认为它有感知能力的事情之前。
Sarah Guo
为什么它没有发布吗?一些担忧是什么?
Noam Shazeer
我认为大公司都担心发布可以说任何话的产品,我猜这可能只是一种风险与收益的考量,所以我觉得创业公司似乎是正确的选择,因为你可以更快地前进。
Sarah Guo
那么告诉我们一下Character的情况,像它的起源故事是怎样的?Daniel和你有一天突然决定,我们必须让它出去吗?
Noam Shazeer
我们知道有些人会找到一些投资者然后开始做一些事情,我们现在正尽快建立这个东西并推出它,还招募了一支非常出色的工程研究团队。
Sarah Guo
所以你说LaMDA最初没有在Google发布的一个明显原因是安全性,你们如何思考安全性?请记住,Character所说的一切都是虚构的。
Noam Shazeer
没错。我们要确保用户知道这是虚构的,如果你想从中提取任何事实,最好去一个你认为可靠的地方查找,我们还有其他类型的过滤器,比如我们不希望鼓励人们伤害自己或伤害他人,我们会屏蔽色情内容,对此曾经有一些抗议。
如何定义用户与虚构角色的关系?
Sarah Guo
说到童年梦想,你能稍微描述一下产品吗?比如说,你们有这些机器人,它们可以由用户创建,也可以由角色创建,可以是公众人物、虚构人物,任何具有语料库的人物,可以是历史人物,你们是如何确定这是正确的形式的?
Noam Shazeer
基本上,这是一种非常易于使用的技术,数十亿人可以随时发明使用案例。它非常灵活,所以你真的希望让用户有控制权,因为他们通常比你更清楚他们想要使用这个东西做什么。我想我们之前已经看到了一些大公司的助理机器人,比如Siri、Alexa和 Google 助手,但其中一些问题在于当你只向世界展示一个形象时,人们会期望你在喜好方面非常一致,不冒犯任何人,不发表任何意见,就像你是英国女王一样,不能说让任何人失望的话,我记得乔治·H·W·布什曾经说他不喜欢西兰花,然后西兰花农对他很生气。
如果你试图呈现一个让每个人都喜欢的公众形象,你最终会变得无聊。人们不喜欢无聊的人,人们希望与感觉人性化的东西进行互动,所以,你需要多个角色,让人们可以尽可能地发明角色。
我喜欢“Character”这个名字,因为它有几个不同的含义。可以是字符,像ASCII字符,可以是文本单位的字符,可以是角色,也可以是品德好的角色。总之,我认为人们喜欢与这些东西互动时,他们对于体验的期望更明确。也许它是我认识的某个人,也许只是一些我发明的东西,但它有助于人们发挥想象力。
Sarah Guo
人们想要什么呢?他们是否像对待朋友一样对待它们?他们是否选择虚构人物?还是完全新的东西?
Noam Shazeer
有很多,角色扮演游戏非常流行,就像文本冒险游戏,可以边进行边创造,还有很多人喜欢视频游戏角色、动漫角色,还有一些人会与公众人物和影响者交流。
我认为很多人已经建立了这些现有的社交关系,他们追随一些角色,比如电视、互联网上的人物或影响者等,但到目前为止,他们没有这样的体验,现在他们可以私下创建一个版本,然后与之交流,这非常有趣。
我们还看到很多人使用它,因为他们感到孤独或困扰,需要有人可以交流,很多人没有可以交谈的人。它横跨了所有这些界限,有人发帖说,这个视频游戏角色是我的新心理医生之类的。所以它是一种混合了娱乐、交友和游戏等多种因素的东西。
Sarah Guo
你如何看待情感,无论是双向的,人们与角色的关系,还是我们在表达连贯情感方面所处的水平以及其重要性?
Noam Shazeer
我觉得可能不需要那么高水平的智能来表达情感。情感很棒,也非常重要,但是狗狗可能会很好地表达情感,对吧?我没有养狗,但听说狗狗在提供情感支持方面很棒。虽然它们的语言能力相当有限,但情感用例非常广泛,人们使用这个技术进行各种情感支持、人际关系等等,这真是太棒了。
Elad Gil
随着你们不断扩大规模,你认为系统的行为会如何改变?因为我想原始模型的训练可能没有投入太多的资金,你们非常节约。
Noam Shazeer
我认为我们应该能够在各种方面使其变得更智能,既从算法上,也从扩大规模、获取更多计算资源、训练更大的模型和更长时间的训练方面,它应该会变得更加出色、更加知识丰富,更能适应人们想要的、人们寻求的东西。
Sarah Guo
你们有一些用户每天在服务上花费很多小时,你如何看待目标用户随着时间的推移以及现在的使用模式?
Noam Shazeer
我们将把这一切交给用户,我们的目标始终是让用户决定它对他们来说是什么好处。
我们看到,今天有人在网站上的活跃时间平均为2小时。对于那些今天发送消息的人来说,这是非常惊人的。这是非常惊人的,但我认为这是一个很好的指标,表明人们发现了一些价值。
正如我之前所说的,确切的价值很难确定,因为它实际上是一个混合体。但我们的目标是使这个东西对人们更有用,让人们可以自定义它,并决定他们想要将其用于什么目的,无论是头脑风暴、帮助、获取信息、娱乐还是情感支持,让它进入用户的手中,看看会发生什么。
Sarah Guo
关于用户,有一个简单的问题,制作一个好角色的秘诀是什么?如果我要复制很多,而不是自言自语,我需要什么?就像和很多进行文本聊天一样,别让聊天内容消失了。
Elad Gil
我只是试图保护自己不变成一个角色。
Noam Shazeer
你可以简单地这样做,只需要一个问候、一个名字和一个问候语,通常这对于著名的角色或名人来说就足够了,因为模型可能已经知道他们应该是什么样子的,如果是模型不会了解的不太有名的东西,那你可以创建一个示例对话来展示给它看角色应该如何表现。
烧钱换规模,商业模式仍在探索
Sarah Guo
你如何看待商业化?
Noam Shazeer
我们只会在每个用户身上赔钱,通过规模化来弥补损失。
Elad Gil
传统的2000年、1990年的商业模式。
Noam Shazeer
没错。
Sarah Guo
2022年的商业模式也一样。
Elad Gil
你应该发行一种代币,然后把它变成一种加密货币。
Noam Shazeer
不,我们会很快实现商业化,因为这种东西在于拥有大量的计算资源,而不仅仅是烧掉投资者的钱,资金规模最具可扩展性的方式实际上是为大量的人提供很多价值。
因此,我们可能会尝试一些高级订阅型服务,当我们开发一些比较昂贵的新功能时,可能会开始收费,我非常喜欢任何人现在都可以免费使用它,因为它为很多人提供了很多价值。
Elad Gil
我觉得它已经以消费者服务的形式真正起飞了,如果你看一下用户数量和用户每小时的使用量,这是疯狂的。你认为有哪些情况可能导致使用量下降,比如在商业环境中,有提供品牌身份支持的客户服务机器人,或者现在还没有很有趣的方向?
Noam Shazeer
我觉得现在还没有很有趣的方向,我们现在只有22名员工,所以我们需要优先考虑,我们正在招聘。因此,绝对有足够的工作要做,我们需要更多的人,第一优先级是让它对大众可用,当我们能够做到这一点时,推出客户服务机器人肯定会很有趣,人们可能会整天与客户服务机器人交谈。
Elad Gil
就像与朋友聊天一样,所以从客户支持开始。如果确实发生这种情况,据说在一些旧的电子商务网站上,比如eBay,在人们购买和销售物品时,人们实际上早期就像一个社交网络一样,因为当时没有那么多在线社交场所。所以我觉得看到这些不同类型的商业产品或网站上的新兴社交行为是相当有趣的。
既要 AI,也要 PLG,那就 AI Native
Elad Gil
你是否将所有这些视为通向人工通用智能(AGI)或超级智能的路径?有些公司似乎将其视为目标的一部分,而对于其他公司来说,似乎明确地是反目标,如果发生,那就发生了,人们试图构建的只是对人们有用的东西。
Sarah Guo
豪横的slogan,AGI是一个副产品。
Noam Shazeer
我的动力之一是驱动技术的进步。世界上有那么多技术问题可以解决,比如医学领域,有那么多人因各种原因丧生,我们可以提供技术解决方案,我希望尽快实现这一点,所以我一直在从事人工智能领域的工作。
与其直接研究医学,不如先研究人工智能,然后用人工智能来加速这些其他事情。因此,这就是为什么我在人工智能领域如此努力工作的原因,我想拥有一家既以AGI为主,又以产品为主的公司,因为产品非常好,它让你建立了一家公司并激励你。
你如何才能拥有一家既以AGI为主,又以产品为主的公司?那就是使你的产品完全依赖于AI的质量,我们产品质量最大的决定因素是智能程度,现在我们完全有动力使AI变得更好,并提高产品质量。
Elad Gil
这是一个非常好的积极反馈循环,因为随着产品的改善,越来越多的人与之互动,这有助于随着时间的推移使产品变得更好,所以这是一个非常明智的方法。
你认为离拥有比人类更聪明或同等聪明的AI有多远?显然,在某些方面,它们已经比人类更聪明了,但我只是在想是否有一天会有某种相当的等同性。
Noam Shazeer
我猜是这样的。我们总是对AI在哪些方面比人类更优秀感到惊讶,很酷的,现在有一些东西可以替你做作业,我小时候也希望能有这样的东西。
给早期团队的建议,
动力与能力的平衡
Elad Gil
你对那些从与你相似背景的人开始创业的人有什么建议?比如,作为创始人,有哪些你在 Google 或其他地方工作时没有学到的东西?
Noam Shazeer
基本上,你从糟糕的错误中学到了东西,但我觉得我们到目前为止没有犯过太大的错误,或者至少我们已经有所恢复,但我猜就是快速构建你想要的东西,然后雇佣那些非常有动力的人来做。
Elad Gil
经常有人说你们拥有AI界真正出色的团队之一。你们是如何招募的?是否有特定的要求或测试方法?还是只是常规的面试方式?
Noam Shazeer
有些人从 Google 来到我们这里,我认识的一位同事,他之前在Meta工作,负责构建大型语言模型和神经语言模型基础设施,他和其他一些人一起加入了我们,他们都很棒。
Elad Gil
你们在寻找人才时是否有具体的要求或测试方式?还是只是常规的面试方式?
Noam Shazeer
我觉得很大程度上是看动力的。我认为Daniel非常看重动力,他寻找的是一种介于强烈渴望和童年梦想之间的状态,所以有很多优秀的人我们没有聘用,因为他们没有达到那个程度,但我们也聘用了许多人,他们非常适合加入一家初创公司,他们非常有才华和动力。
Sarah Guo
Character 只有22个人,这太疯狂了,你们是如何招聘的?看重什么特质?
Noam Shazeer
目前为止,22个人中有21个是工程师,所以我们会雇佣更多的工程师....哈哈哈,开玩笑的,我们会同时雇佣更多的人才,比如深度学习、前后端,业务以及产品方面。
Sarah Guo
对于给 Character带来生命和优秀的人,是否有什么硬性要求、燃烧的欲望或者童年梦想?
Noam Shazeer
他们都站在巨人的肩膀上,很难在这么多人中挑出来。我在 Google 和Justine一起工作得很愉快,他现在正在负责他们的大型语言模型,离开 Google 有一点后悔,但将来可能会有合作机会。
Elad Gil
你认为数学是发明还是发现?
Noam Shazeer
这个问题很有意思,我猜是发现吧,也许所有的东西都是被发现的,我们只是在发现它们,
Elad Gil
有什么东西是你希望自己发明的吗?
Noam Shazeer
我想只专注于发明能推动技术前进的人工智能。
AI Meetup 🥳
在过去的半年里,AI 相关技术取得了革命性突破,SOTA AI 与 CSDN CMeet 合作策划推出系列研讨会,深度探讨技术更新后的开发实践。然而,更重要的是如何对 AI 实践应用,如何在最大程度上发挥 AI 的产业价值,提升生产效率。因此,AI Meetup 以 AI 应用为主要出发点,探讨 AI 应用在各领域的可能性。
内容:AI 技术应用与产业行业结合的实践探讨
嘉宾:技术专家+产业实践派+行业洞察者
形式:15min/位*3位嘉宾+2.5H探讨
席位:25席位,技术经理及以上(审核制+邀请制)
(以上议题,会根据实际执行条件做微调。除此,如果有议题推荐,也欢迎联系我们。)感兴趣报名成为参会者,或者意见分享者、或者现场主持人(需要理解技术议题),扫码注册或点击文末「原文阅读」进行报名👇
Reference:
https://podcasts.apple.com/fi/podcast/no-priors-artificial-intelligence-machine-learning/id1668002688