其他
a16z万字长文:我们正在进入计算的第三个时代
微软 + OpenAI
Google + DeepMind
Meta + MetaAI
Amazon + Anthropic
Tesla + xAI
a16z 合伙人 Martin Casado
OpenAI CTO Mira Murati
Roblox Cofounder & CEO David Baszucki
Figma Cofounder & CEO Dylan Field
Anthropic Cofounder & CEO Dario Amodei
Microsoft CTO & EVP of AI Kevin Scott
insitro Founder & CEO Daphne Koller
Databricks Cofounder & CEO Ali Ghodsi
Character.AI Cofounder & CEO Noam Shazeer
1
我真的认为我们可能正在进入第三个计算时代。微芯片将计算的边际成本降到了零,互联网将分发的边际成本降到了零,现在大型模型实际上将创作的边际成本降到零。当以前的时代发生时,你不知道会有什么新公司被创建出来。没有人预测到亚马逊,没有人预测到雅虎。我们应该准备迎接一波新的标志性公司。
我们确实正处于“莱特兄弟第一架飞机”的时刻。我们已经有了一些可行的东西,并且现在对于大量应用场景很有用。它的扩展性看起来非常好,并将会变得更好。但还会有更多的突破,因为现在世界上所有的人工智能科学家都在努力让这些东西变得更好。
特别是在过去的几年里,也许特别是在过去的 12 个月里,随着 ChatGPT 和 GPT-4 的推出,你可以真正看到该平台与个人电脑或智能手机一样的潜力。一系列技术将使大量新事物成为可能,许多人将在这些新事物之上构建事物。
2
市场转型并不是通过十倍的经济改善来实现的。当它们比原来好一万倍时,它们就会被创造出来。假设我想要创造一个将我自己变成皮克斯角色的形象。如果我使用这些图像模型之一,推理成本是十分之一美分,并且假设需要 1 秒钟的时间。如果与雇佣一位平面艺术家相比,我们假设每小时费用为 100 美元。在成本和时间上,你会发现有 4 到 5 个数量级的巨大差异。对于经济学家来说,这就是他们寻找的类型转折点,当实际上存在着一个巨大的市场错位时。
如果你想要一个例子来说明这会变得多么疯狂,我认为你没有理由不能生成一个完整的游戏——3D 模型、角色、声音、音乐、故事等等。现在的创业公司正在做所有这些事情的,如果将数亿美元和数年的成本与几美元的成本进行比较,我们现在在经济学上存在互联网和微芯片级别的不对称。
3
娱乐是一个每年达到 2 万亿美元的产业。而这个不为人知的秘密是,娱乐就像是你并不存在的虚拟朋友。这对于通用人工智能来说是一个很酷的首要应用案例。比如,如果你想推出一款医生,那会慢得多,因为你需要非常、非常、非常小心地避免提供错误信息。但对于朋友来说,你可以做得很快速,它只是娱乐而已,编造事物也成了一种特色。
在 Roblox 上的 6500 万用户中,大多数人并没有以他们希望的水平进行创作。很长一段时间里,我们想象过一个《Project Runway》的模拟游戏,在游戏中你可以使用缝纫机和面料,并且都是 3D 模拟的,但即使对于我们大多数人来说,这也有点复杂。我认为现在当《Project Runway》出现在 Roblox 上时,它将会是一个文本提示、图像提示或语音提示。如果我正在帮助你制作那件衬衫,我会说:我想要一件蓝色牛仔衬衫,需要一些纽扣,并让它更修身合体一些。实际上,我认为我们将会看到创作加速的趋势。
现在,我们正处于一个人工智能可能完成初稿的阶段,但要从初稿到最终产品还是有些困难,并且通常需要一个团队来完成。但如果你能让人工智能向人们提供界面元素建议,并以一种真正合理的方式进行操作,我认为这将开启一个全新的设计时代,创造出根据用户意图响应性的上下文设计。我相信这将是所有设计师与这些人工智能系统合作共事的一个迷人时代。
4
如果你必须保持正确,并且有很多复杂的使用情况,要么你自己完成所有技术工作,要么雇佣人员。通常我们会雇佣人员。这是一个可变成本。其次,由于解决方案的尾部往往非常长——比如自动驾驶中可能发生的许多异常情况——为了保持领先地位所需的投资增加了,价值却降低了。这就产生了一种反向规模经济效应。
过去在公司的循环人员现在是用户(That human in the loop that used to be in a central company is now the user),因此它不再是企业的可变成本,也不再是这项工作的经济成本。循环中的人已经移出,因此,你可以做正确性很重要的事情,比方说开发代码,因为它是迭代的,所以累积的错误量会减少,因为你不断地得到来自用户的反馈和修正。
编程变得越来越不抽象。我们实际上可以用自然语言与高带宽的计算机交谈。我们正在使用该技术,该技术正在帮助我们了解如何与其协作,而不是对其进行“编程”。
GitHub 是我们正在尝试构建的这种副驾驶模式的第一个例证,即:如何利用某人正在做的知识工作并使用人工智能来帮助他们在完成特定类型的认知工作时显着提高生产力?根据我们对开发人员的观察,最重要的是,人工智能可以帮助他们比其他方式更长时间地保持心流状态。
当你编写一大段代码并思考时,不要遇到阻碍,“我不知道如何完成下一件事情。我得去查阅文档。我得去问问另一位可能正忙着某事的工程师。”在你脱离心流状态之前,能够让自己摆脱束缚是非常有价值的。对于那些正在考虑为软件开发以外的其他用途而构建的生成式人工智能工具的实用性的人来说,这种心流状态的概念是一个值得考虑的有用的东西。
最好的设计师开始更多地考虑代码,而最好的开发人员也开始更多地考虑设计。除了设计师和开发人员之外,例如,如果你考虑产品人员,他们以前可能一直在制定规范,但现在他们更多地研究模型,以更有效地传达他们的想法。基本上,这将允许组织中的任何人更快地从想法到设计,甚至可能到生产。但你仍然需要磨练每一个步骤。你需要有人认真思考,“好吧,我们要探索什么想法?我们要如何探索它们呢?”你会想要调整设计,你会想要正确地处理它们,从初稿到最终产品。
5
在我们历史上的某些时期,某些特定的科学学科在相对较短的时间内取得了令人难以置信的巨大进步。在 20 世纪 50 年代,这个学科就是计算,我们使用这些机器来执行计算,直到那时,只有人类能够执行这些计算。然后在 20 世纪 90 年代,出现了这个有趣的分歧。一方面,数据科学和统计学最终为我们带来了现代机器学习和人工智能。另一方面是我所认为的定量生物学,这是我们第一次开始以超过在耗时 5 年的实验中跟踪 3 个基因的规模来测量生物学。
现在,2020 年是最后两个学科真正融合的时代,为我们带来了数字生物学时代,即以前所未有的保真度和规模测量生物学的能力;使用机器学习和数据科学工具解释令人难以置信的海量数据、不同的生物尺度和不同的系统;然后使用 CRISPR 基因组编辑等工具将这种理解带回到工程生物学中,这样我们就可以让生物学做它本来不想做的事情。
现在,我们终于可以在细胞水平(有时是亚细胞水平)和生物体水平上大规模测量生物学。这使我们第一次能够在以下领域部署机器学习:真正有意义的方式。我们建立了生物学语言模型。它就像 GPT,但针对的是细胞。我们有细胞的语言和细胞的样子。你测量不同状态下的数亿个细胞,然后就像自然语言的大型语言模型一样,用少量的数据,你可以开始问:“好吧,疾病如何将致病基因从一个地方移动?到另一个?治疗如何让你有希望地从疾病状态回到健康状态?”这是超级强大的。与其他语言模型一样,您提供的数据越多,它就会变得越好。
6
我们必须记住:模型不是产品。作为一个创业者,你的理解是:你的用户是谁?他们的问题是什么?你能做些什么来帮助他们?然后确定人工智能是否确实是解决用户问题的有用基础设施——这是不变的。人工智能就像一个新的、有趣的基础设施,可以让你以更好的方式解决新类别的问题或解决旧类别的问题。
我们并不确切地知道未来会是什么样子,因此我们正在努力向许多其他人提供这些工具和技术,以便他们可以进行实验,我们可以看看会发生什么。这是我们从一开始就一直在使用的策略。在我们推出 ChatGPT 的前一周,我们担心它不够好。我们都看到了发生的事情:我们把它放在那里,然后人们告诉我们它足以发现新的用例,你会看到所有这些新兴的用例。
7
目前,我们提供的模型使用数千个令牌的上下文窗口,这意味着你的终生朋友会记住过去半小时发生的事情。如果你可以转储大量信息,事情将会变得更好。它应该能够了解关于你的十亿件事。HBM 带宽就在那里。
我认为仍然被低估的一件事是更长的背景和随之而来的事情。我认为人们脑海中会想到这样的画面,“有这个聊天机器人。我问它一个问题,它回答了这个问题。但是你可以上传一份法律合同并说,“这个法律合同中最不寻常的 5 个条款是什么?或者上传一份财务报表并说:“总结这家公司的位置。与这位分析师两周前所说的话相比,有什么令人惊讶的?所有这些知识操纵和处理大量数据,人们需要数小时才能阅读。我认为这比人们正在做的事情更有可能。我们才刚刚开始。
8
我认为今天的基础模型在文本中对世界有很好的表现。我们正在添加其他模式,如图像和视频,因此这些模型可以更全面地了解世界,类似于我们理解和观察世界的方式。
也许你想听到一个声音,看到一个面孔,或者只是能够与多个人互动。就像你被选为总统一样,你得到了耳机,还有整个朋友或顾问团队。或者就像你走进“欢乐酒吧”,每个人都知道你的名字,他们很高兴你来了。
人工智能可能产生的下一个影响前沿是人工智能开始接触物理世界的时候。我们都看到了这有多难。我们都见过,与制造聊天机器人相比,制造自动驾驶汽车是多么困难,对吧?我们在构建聊天机器人方面取得了很大进展,自动驾驶汽车仍在旧金山阻挡消防车。了解这种复杂性,但也要了解影响的规模,这一点很重要
9
现在有点像2000年,互联网即将主宰一切,最重要的是谁能建造出最好的路由器。Cisco在2000年曾经市值达到5万亿美元的峰值,当时超过了微软。所以,谁拥有最大的LLM(语言模型)呢?显然,能够构建最大并对其进行充分训练的人将拥有所有AI和未来人类的掌控权。但就像互联网一样,后来会有其他人想到像Uber和出租车驾驶这样的创意。还会有其他人想着,“嘿,我想看看我的Facebook上朋友们都在干什么。” 这些都可能成为巨大的商业机会,并不只是OpenAI、Databricks或Anthropic等公司构建一个模型就能主导所有应用场景。需要投入很多努力才能打造一个你信任的医生。
最大的因素就是投入更多资金。现在制造的最昂贵模型的成本约为1亿美元左右,加减一个数量级。明年我们可能会看到来自多个参与者的价值约10亿美元左右的模型,而到2025年,我们将看到数十亿甚至100亿美元规模的模型。这个100倍的差距再加上H100s计算速度本身变得更快——由于降低精度而带来了特别大的飞跃。把所有这些因素放在一起,如果扩展定律继续适用,能力将会有巨大提升。
这取决于你想做什么。显然,AI系统将会越来越多地承担我们所做的工作。就 OpenAI 平台而言,你可以看到即使在今天,我们通过 API 提供了许多模型,从非常小的模型到前沿模型都有。人们并不总是需要使用最强大或最能胜任的模型。有时候他们只需要适合其特定用例的模型,并且更加经济实惠。我们希望人们在我们的模型基础上进行构建,并为他们提供简化此过程的工具。我们希望给予他们越来越多的访问和控制权限,以便您可以携带自己的数据并自定义这些模型。您真正需要关注超出模型范畴、定义产品层面上的事情。
在像 Roblox 这样的任何公司中,可能有 20 或 30 个最终最终用户垂直应用程序是非常定制的 - 自然语言过滤与生成 3D 非常不同 - 在最终用户那里,我们希望所有这些应用程序都运行。当我们沿着[堆栈]向下走时,在像我们这样的公司中,可能会自然地聚集 2 或 3 个更大,更胖类型的模型。我们对我们想要的学科进行了非常精细的调整,能够为这些学科训练和运行大量推理。
10
在 CEO 和董事会的大脑中发生的一件事是,他们意识到:也许我可以击败我的竞争对手。也许这是杀死敌人的氪金石。我有生成式人工智能的数据,所以他们在思考,“我必须自己建立它。”我必须拥有知识产权。你想要从零开始建立自己的 LLM 吗?这并不是一件轻松的事情,仍然需要大量的 GPU,需要花费很多钱,并且取决于你的数据集和使用案例。
我们有很多客户希望拥有更便宜、更小、精度和性能非常高的专用模型。他们说,“嘿,这就是我想做的。我想从这些图片中很好地对制造过程中的这种特殊缺陷进行分类。在那里,准确性很重要。你能给我的每一盎司准确性都很重要。在那里,如果你有一个好的数据集来训练,并且可以训练一个更小的模型,你会更好。延迟会更快,更便宜,是的,你绝对可以拥有击败真正大型模型的准确性。但是你建立的模型也不能在周末娱乐你,帮助你的孩子做作业。
11
没有任何证据表明,当我们继续在数据和计算的访问中扩展它们时,我们不会获得更好、更强大的模型。这是否将 你一直带到 AGI - 这是一个不同的问题。在此过程中可能需要其他一些突破和进步,但我认为在 Scaling 定律方面还有很长的路要走,并且要真正从这些更大的模型中获得很多好处。
即使这里没有算法改进,并且我们只是扩大了迄今为止的规模,Scaling 法则也将继续下去。
我们的目标是成为一家 AGI 公司和产品优先的公司,而实现这一目标的方法是选择正确的产品,迫使我们从事通用化的事情,使模型更智能,使其成为人们想要的东西,并大规模廉价地提供服务。Scaling 法则将带我们走很长的路。从本质上讲,计算并不那么昂贵。如今,运营成本约为10-18美元。如果你能有效地做这些事情,那么成本应该远远低于你的时间价值。那里有能力将这些东西扩大几个数量级。
12
关注这些新兴功能很重要,即使它们非常不可靠。特别是对于今天正在创建公司的人来说,你真的想要思考,“好吧,今天有什么可能吗?今天你看到了什么?”因为很快这些模型就会变得可靠。
当我们发布GPT-2时,当时被认为最令人印象深刻的是,“你将这5个英文到法文翻译的例子直接输入到语言模型中,然后再输入第六句英文句子,它实际上会翻译成法文。就像哦,天啊,它竟然理解了这种模式。”对我们来说那真是太疯狂了,尽管翻译得很差劲。但我们的观点是,“看吧,这只是一段惊人之旅的开始,因为没有限制,并且可以继续扩大规模。”以前我们见过的那些模式为什么不能继续存在呢?预测下一个单词的目标如此丰富,并且有很多你可以挑战它们的东西,所以它肯定能行。然后有些人看着它说:“你做了一个非常糟糕的机器人翻译工具。
13
我们现在提供的模型去年花费了大约 200 万美元的计算周期来训练,我们现在可能会重复五十万美元。因此,我们将在今年年底之前推出几十个智商点更智能的东西。我看到这些东西正在大规模扩大规模。只是没那么贵。我想我昨天看到一篇文章,说英伟达明年将再制造1.5M H100,也就是是 2M H100。
这大约是每人每秒四分之一万亿次操作。这意味着对于地球上每个人,在一个拥有 1000 亿参数的模型上,它可能会每秒处理 1 个单词。但实际上并不是每个人都能使用它,因此它并不那么昂贵。如果你做得对,这个东西的可扩展性非常大,我们正在努力实现这一点。
我的基本观点是,推理不会变得那么昂贵。Scaling 定律的基本逻辑是,如果将计算增加 n 个因子,则需要将数据增加 n 的平方根因子,将模型的大小增加 n 的平方根因子。这个平方根基本上意味着模型本身不会变大,而且在你这样做的时候硬件会变得更快。我认为这些东西将在未来 3 或 4 年内继续发挥作用。如果没有架构创新,它们会变得更贵一点。如果有架构创新,我希望有,他们会变得更便宜。
随着人工智能变得更加强大,它在大多数认知任务上表现得更好。其中一个相关的认知任务是判断人工智能系统的安全性,并最终进行安全研究。这其中有一种自我参照的组成部分。我们可以通过解读神经网络内部来看到这一点,比如可解释性领域。强大的人工智能系统可以帮助我们解读较弱的人工智能系统中的神经元活动。而这些可解释性洞察力通常会告诉我们模型是如何运作的。当它们告诉我们模型是如何运作时,往往会提出改进或提高效率的方法。
如果你制作了一千个在一千种不同事物上都擅长的LLM版本,并且你必须将每一个加载到GPU并提供服务,那将变得非常昂贵。现在大家都在寻找的最大目标是:是否有技术可以只进行小幅修改就能获得非常好的结果?有很多技术,比如前缀调优、LoRA、CUBE LoRA等等。但还没有一个真正完美无缺的解决方案被证实有效。但总会有人找到的。
14
我有点觉得所有的基准都是胡扯。想象一下,如果我们所有的大学都说:“我们会在考试前一晚给你答案让你看。然后第二天,我们会让你来回答问题,然后评分。”突然间,每个人都能轻松通过考试了。
比方说,MMLU 是许多人用来评估这些模型的基准。MMLU 只是一个在网络上的多项选择题。提出一个问题,答案是A、B、C、D或E?然后它会告诉你正确答案。它可以在网上进行训练,并创建一个能够击败它的 LLM 模型。
从这些系统中我们现在看到,让人相信你是人类很容易,但实际上做出好的事情却很难。我可以让GPT-4制定一个商业计划并来向你推销,但这并不意味着你会投资。当你真正面对两个竞争的企业——其中一个由AI运营,另一个由人类运营——而你选择投资AI企业时,那就令我担忧了。
我有一个图灵测试问题要问 AI:如果我们将 AI 放在 1633 年,并让其基于当时所有可用的信息进行训练,它会预测地球还是太阳是太阳系的中心——即使 99.9% 的信息都说地球是太阳系的中心?我认为5年时间正好处于边缘位置,但如果我们在 10 年后进行这个 AI 图灵测试,它可能会说太阳。
15
非常简单地说,杰文斯悖论指出:如果需求是弹性的,并且价格下降,需求将会超过补偿。通常情况下,远远超过补偿。这绝对适用于互联网。您可以获得更多价值和更高生产力。我个人认为,在任何创造性资产或工作自动化方面,需求都是弹性的。我们制造得越多,人们消费得就越多。我们非常期待生产力的大规模扩展、大量新岗位以及许多新事物的出现,就像我们在微芯片和互联网时代所见到的一样。
我在弗吉尼亚州中部的农村长大,那里的经济主要靠烟草种植、家具制造和纺织业提供动力。当我高中毕业时,这三个行业都刚刚崩溃。当这些社区的人们能够使用非常强大的工具时,他们往往会做出非凡的事情,为自己、家人和社区创造经济机会。他们解决了你或我无法解决的问题,因为我们没有看到世界的整个问题格局。我们没有他们的观点。这些人工智能工具现在变得比以前更加容易使用。您现在就可以使用这些工具做有趣的事情,并且可以在弗吉尼亚州小镇成为一名企业家,而无需拥有计算机科学博士学位或经典人工智能专业知识。你只需要保持好奇心和创业精神。
如果你看过迄今为止的每一次技术转变或平台转变,都会导致更多需要设计的东西。有印刷机,然后你必须弄清楚在页面上放什么。最近是移动互联网,你可能会认为,“好吧,像素少了,设计师也就少了。”但事实并非如此,那时我们看到了设计师数量最大的爆炸增长。
16
在任何特定时刻,有两种类型的领域。一种是经验和积累知识非常丰富的领域,需要多年时间才能成为专家。生物学就是一个典型例子——如果你只从事生物学6个月,很难做出突破性或者诺贝尔奖级别的工作……另一种是非常年轻或者发展速度非常快的领域。人工智能曾经,并且现在某种程度上仍然如此,属于这类领域。真正有才华的通才往往可以超越那些在该领域已经待了很长时间的人,因为事情变化得太快了。如果说有什么不同之处的话,拥有大量先前知识可能会成为一个劣势。
从数学的理论空间中可以得出一个要点,那就是你需要花很长时间来思考问题。有时候你入睡然后醒来时会有新的想法,在几天或几周的时间里逐渐找到最终解决方案。这不是一种快速获得回报的过程,有时它也不是一个迭代式的事情。这几乎是一种不同的思考方式,在其中你建立直觉和纪律去面对问题,并相信自己能够解决它。随着时间推移,你会对哪个问题才是真正值得努力解决的问题建立起直觉。
随着时间的推移,不仅是机器学习在进步,我们所依赖的生物工具也在进步。过去并没有CRISPR技术,只有siRNA。然后出现了CRISPR基因编辑技术,现在又有了可以替换整个基因组区域的CRISPR prime技术。因此,我们所建立的工具也越来越好,这为我们以更有意义的方式解决更多疾病提供了可能性。人工智能/机器学习与生物学和医药领域交汇处存在许多机会。这种融合是一个时刻让我们能够利用今天已经存在但五年前还不存在的工具,在我们所生活的世界中产生巨大影响力的时刻。
如果你考虑过去发生的一些大型平台转变,那么在这些平台上最有价值的事情并不是在平台改变的头两年中部署的东西。如果你想想自己在智能手机上花费时间最多的地方,它不是短信应用程序,也不是网页浏览器,也不是邮件客户端。而是在平台可用性之后几年内创造出来的新东西。有哪些以前不可能的事情现在变得可能了?这才是人们应该思考的问题。不要去追逐那些琐碎的事情。
·END·
Memo: Signal, not noise!
扫码或点击「阅读原文」继续阅读更多内容
Sequoia 红杉资本:AI 的第二篇章
最近连投 9 家公司,英伟达在 AI 领域投疯了
当下 AI 的 4 波浪潮,与 AI 时代的一种新型商业模式