查看原文
其他

面向所有人:斯坦福大学2024秋季AI课程第一讲 《AI觉醒:如何在人工智能浪潮中找准自己的位置》

AI工作坊 AI深度研究员
2024-11-09

(关注公众号并设为🌟标,获取最新人工智能资讯和产品) 

全文约15,000 字,阅读约需 22分钟

人工智能正在颠覆世界,为各类组织和个人带来前所未有的发展、创新和决策机遇。

斯坦福在线课程旨在深入探讨推动这一变革的核心原理、工具和技术,为有志于AI事业的人才提供机器学习、强化学习、神经网络和自然语言处理等关键领域的基础与进阶技能。

2024年秋季,斯坦福推出了AI第一讲启蒙课程《AI觉醒:如何在人工智能浪潮中找准自己的位置》,由斯坦福大学商学院教授兼任以人为中心的人工智能研究所高级研究员Erik Brynjolfsson主讲。Brynjolfsson教授指出,当前AI技术进步的速度令众多研究者感到惊讶,远超预期。然而,我们的商业、文化和经济理解却未能与之同步,由此产生了一个不断扩大的鸿沟,蕴含着未来十年的重大挑战与机遇。

他经常询问AI研究者:"你感到惊讶吗?这是否出乎意料?"几乎所有人都会回答:"是的,现在AI我感到非常惊讶。" 这种技术快速发展与普通人适应之间的差距正在不断扩大。Brynjolfsson认为我们将面临的挑战和机遇可能就潜藏在这个差距之中。虽然我们可能会本能地认为AI会取代人类工作,但历史表明,大多数技术实际上是人类能力的补充。他还解释道:"大多数技术并没有降低人类劳动的价值,而是提升了它的价值。"事实上,如今人类劳动的价值比几百年前高出了约50倍。

这种增值效应源于技术对人类能力的放大。正如一个拥有计算机的人能够创造更多价值一样,AI也有潜力进一步增强人类的劳动能力。展望未来,我们希望看到AI继续作为人类能力的补充,至少在相当长的一段时间内是如此。

要充分把握AI带来的机遇,深入了解其原理和应用至关重要。这正是斯坦福大学等机构提供AI在线课程的原因 , 帮助人们获得在这个快速变化的领域中取得成功所需的知识和技能。


课程讲稿整理

我认为,这门课程是一个共创的过程,我非常期待与你们一起学习。在接下来的课程中,你们将会听到许多杰出讲者的演讲。

近年来,关于大型语言模型的讨论越来越多。两年前我们还没有这些模型,现在有了,并且围绕它们有很多讨论。皮尤研究中心(Pew Research Center)的一项调查显示,大约18%的美国工作人员至少在工作中使用过ChatGPT一次。虽然这个比例不算太高,但已经显示出AI技术的迅速普及。与此同时,NVIDIA股票的飙升也表明,许多大型科技公司都在积极推动这一领域的发展。媒体的关注和讨论,进一步加剧了这一现象。

1、人工智能发展两个主要原因

我认为,促进人工智能发展的两个主要原因是:计算资源和基础设施的获取。特别是在ChatGPT时代之前,人们对语言模型的处理存在一定的问题。主要难题在于,人们无法确定在投入巨量数据和计算资源后,这些模型的表现和投资回报如何。

随着计算能力的提升,出现了一种自我强化的循环:人们开始意识到,更多的计算资源和从大规模数据集中学习,能够帮助这些模型创建实用的现实世界应用。这也促使了更多对基础设施的投资。增加的计算资源和更多的投资、更好的处理器使得这些模型能够训练得更大,并且模型的表现也比八年前有了显著提升。这种技术进步虽然听起来像是轻描淡写,但实际上其影响是巨大的。

回到原始问题,即AI在劳动力市场中的影响,或者说技术总体上的影响是否比以前更大。这其实是两个问题。我们确实感受到技术变化的频率更高了,但其带来的影响是否更大却需要更仔细的分析。过去,技术的影响主要集中在特定的行业或领域。而AI则似乎有能力广泛影响所有行业。从这个角度看,人们对其影响的感知显然更广泛。至少有18%的人开始尝试使用AI技术,并且作为消费者,我们也更加能够感受到AI的影响。

例如,ChatGPT是最早几个为大众提供免费接入界面的AI应用之一。在此之前,这类技术被限制在某些特定领域。随着计算能力的增强,特别是在核心技术方面的提升,AI领域比几乎任何其他领域都能更快地进行迭代。然而,尽管AI的潜力巨大,但从目前来看,它尚未真正改变生产力数字或企业的运作方式。2023年生成AI软件的收入仅约为30亿美元,这还不包括谷歌和Meta通过使用AI改进算法所获得的好处。如果你询问大多数真实世界中的工作人员,他们的工作实际上并未发生根本变化。因此,尽管未来充满潜力,但当前AI对经济和社会的实际影响仍然有限。

2、Richard Sutton《苦涩的教训》

最近,大量资金的注入极大地扩展了这一领域的研究范围,不仅在技术能力方面有所提升,还包括了可解释性方面的进展,以及更多跨学科的研究方法在这一特定领域的探索。这种趋势无疑为人工智能的发展带来了新的动力。

一个非常有趣的研究视角是Richard Sutton的《苦涩的教训》。许多机器学习研究者可能已经听说过这个理论。其核心思想在于,当今我们在AI领域看到的许多进步,主要是因为我们构建了能够更有效利用数据、从大数据中学习,并与当前计算资源更好协同的模型。相比之下,许多其他算法的进展并没有达到预期的效果。在技术层面,我们见证了模型建设的进步,如专家混合模型和扩散模型等。这些方法增强了我们从庞大数据集中学习并有效利用计算资源的能力,这也是技术进步的部分原因。

Richard Sutton的《苦涩的教训》虽然只有几页长,但其观点对AI研究者来说可能是“苦涩的”。Sutton指出,AI研究者提出了许多新技术和算法,试图捕捉知识并教会机器如何执行任务,并在一定程度上取得了成功。你可以教它下棋、国际象棋,或更高级的任务如语言理解。然而,每次的重大进展并不仅仅源于这些尝试,而是得益于更多的数据和更强大的计算能力。以语言理解为例,之所以取得显著进展,是因为我们投入了更多的计算资源和更庞大的词汇数据。机器学会了如何理解语言,而我们并不需要那些曾试图教给机器的复杂语法和规则,就能获得相当不错的语言理解能力。因此,这或许是一个“苦涩的教训”,在某种意义上,AI研究者面对的是被更多的计算资源和数据所淹没的局面。但也可以认为,这是一个“美好的教训”,因为它指明了前进的路径。如今,许多公司都在基于这一教训进行投资,推动了更好进步的实现。当然,这种总结仍然有些简化,技术的每一方面都至关重要。

3、技术革命三大驱动力

如果要列出推动这场技术革命的三大驱动力,首先是计算能力的增强,其次是数据量的激增。回想你们小时候,当时世界上的大部分数据都不是数字化的,照片和信息大多以模拟方式传输。如今,这些数据几乎全部实现了数字化,数据量比70年代、80年代甚至90年代都要多得多,增加了好几个数量级。这些数据是推动发展的生命之血。因此,推动因素包括计算能力、数据量,还有第三个重要因素,即算法的改进、参数的增多,以及如变换器(Transformer)这样的重大发明。这些技术被一些人视为可能是历史上最重要的发明之一,因为它们使我们能够更有效地处理这些数据。

起初,当Google团队首次发布变换器模型这一成果时,并没有引起太多关注。但很快,人们开始意识到其强大的潜力,并逐步推动了这一领域的发展。在推动技术进步的过程中,不仅是技术本身的创新,还包括其他人对这些技术的进一步开发和应用。Richard Sutton的《苦涩的教训》揭示了在技术发展中,底层算法和方法的改进至关重要。这些技术的应用已经开始在各个领域产生影响。我曾多次前往国会,向他们介绍人工智能。当我自称为经济学家并讨论技术时,最初他们的反应是敷衍了事,但现在他们几乎挂在我每一个字上。现在的经济效益可能还不是很显著,但每个人都在赌这将来会有大作为。我会向你们展示一些理由,解释为什么他们认为这是一个合理的赌注。

事实上,经济变化远远落后于技术的潜力。如果突然发生灾难,所有技术进步都停止了,例如技术人员罢工或重大自然灾害,阻止了未来5年、10年甚至更长时间的人工智能技术进步,我们仍然会在商业创新和经济生产力增长上取得进展,因为人们会找到方法来应用已经被发明出来并且当前可用的技术。此外,随着这些技术的广泛应用,初创企业和公司得以在现有基础设施和技术之上进一步发展,使得技术变得更易于获取,跨学科合作也因此变得可能,从而促进了整个社会对这些技术的接受和利用。然而,一个值得注意的问题是,随着现有模型不断被训练,数据的供应可能即将枯竭。这种情况下,模型可能会开始在由人工智能生成的数据上进行训练,这增加了错误和幻觉的风险。

如果数据是推动这一切的核心,那么当我们的数据资源耗尽时,该如何应对呢?我知道有些演讲者将会更深入地探讨这个问题。这是一个重要的议题,因为目前的模型已经在互联网上训练了几乎所有可获取的数据,它们已经抓取并分析了大部分书籍中的内容。那么,接下来我们将从哪里获取额外的数据呢?如果我们打算继续增加数据和计算能力,我们将不可避免地面临限制。这里存在一个真正的疑问:是否可以使用合成数据?这听起来或许有些疯狂。你让一台机器生成一个句子,然后在那个句子上进行训练。这怎么可能有效呢?但我们将听到一些演讲者的观点,他们认为在某些情况下,这种方法确实是有效的,并且你可以看到一些明显有效的例子。

你们中有多少人听说过AlphaZero?它是如何训练的呢?它通过自我对弈来训练自己。对于国际象棋,它与自己对弈。同样的过程也适用于围棋。AlphaZero与AlphaGo不同,后者是通过人类的游戏对局进行训练的,记录了每一步棋的走法,从中学习如何在特定棋局下采取最佳策略。而AlphaZero,如其名,它是在零人类数据的基础上训练的。它仅仅了解游戏规则,然后生成自己的对局并观察结果。通过数十亿甚至数万亿次的实验,它掌握了游戏技巧。因此,当你有一套明确的规则时,确实可以生成大量的数据并从中学习。有些人尝试用物理引擎做类似的事情,比如在机器人技术或驾驶模拟中生成数据,或者利用教授在课堂上讲课的视频,从人们的互动中获取感知信息。这也许能告诉我们一些关于重力或其他物理现象的信息。这些都是生成以前未记录数据的可能方式。但使用合成数据或其他类型数据的潜力仍然是一个开放的问题,我们将拭目以待。我的猜测是,某些问题非常适合这种方法,比如有明确规则的游戏,而其他场景可能会非常困难。研究人员将继续探索这些问题。

然而,值得注意的是,现在很多在线内容已经是由大型语言模型生成的。这引发了另一个问题:如果我们抓取这些数据,并用其训练下一代模型,可能会导致某种功能失调。例如,我在推特上经常发现很多机器人账号在关注我,并对我作出回应。它们表现得并不好,因此很容易被识别为机器人。如果未来的数据主要来自这些机器人生成的内容,那么下一代模型可能会更加依赖这些数据,进而影响其表现。此外,我们必须意识到一个社会经济风险:我们对政策应用、政府应用或可能由这项技术引发的不同公司的期望都可能受限于我们对这项技术的理解。然而,关键是我们甚至不知道这项技术将如何出错,这才是最令人担忧的。我们知道有一些已知的未知风险,也知道所有这些领域都存在潜在的风险。但还有一些未知的未知因素,可能是一些我们甚至还没有想到的意外情况。

4、人工智能能力质的飞跃

显然,目前关于AI有很多炒作和无根据的说法,尤其是在离斯坦福越远的地方,人们对这些技术并不太熟悉,甚至有些言论只是凭空捏造。但毫无疑问,技术上正在发生一些根本性的、真实的变化。我四年前从麻省理工学院转到斯坦福的原因之一就是想更接近那些正在发明这些技术的人。我认为我们都很幸运能够在这个地方、这个时间点上亲身经历这一切。

因此,我经常问AI研究者,当我与新研究者交谈时,这是我会问的第一个问题之一。我问他们:“你感到惊讶吗?这是否出乎意料?”几乎所有人都会回答:“是的,我感到惊讶。”他们没有预料到这种技术进步。稍后我会向你们展示一张图表,概述这一转变。事实上,能力已经发生了质的飞跃,而这将在未来引发越来越多的经济变化。然而,我观察到的是,技术改进的速度在不断提高,在某些情况下甚至是指数级的,而我们的商业机构、文化和经济理解几乎没有相应的变化或改善。因此,这里存在一个日益扩大的差距。我认为,在这个差距中,可能隐藏着我们未来十年所面临的许多挑战和机遇。我的人生使命的一部分,以及数字经济实验室和这门课的目标,就是填补这个差距。

我知道有些人试图通过停止技术进步来填补差距,而我更专注于加速我们的理解。我希望在这门课中,我们能在这方面做出一些努力。因为最终,社会的变化将取决于我们是否能够更好地理解如何更新经济学,以及如何改进商业流程和机构。因此,正如我所说,我认为没有比现在更激动人心的时代,也没有比这里更激动人心的地方了。我很高兴来到这里,也很高兴你们也在这里。当你仔细思考时,你会发现,历史上的大多数事件其实并没有那么重要。为什么我这么说呢?好吧,我是一名经济学家。衡量这一点的一种方式是通过普通人的生活水平。地球上大多数人的生活水平仅略高于生存水平,然后一个世纪后,情况大致相同。一千年后,依旧如此。尽管历史书上记载了许多重大事件,但普通人的平均生活并没有真正发生太大变化,直到大约1775年、1776年。

那时发生了什么?可能是美国革命。但更重要的事件是亚当·斯密发布了《国富论》。有人可能会说这是人类摆脱了贫困陷阱。确实如此,但他们是如何摆脱贫困的呢?这是经济增长中一个被广泛讨论的话题。有些人,比如一些经济学家,认为是某些机构,如英国议会等的存在,这些机构促进了产权的保护,从而促使了英国的众多创新发明,并且这些创新逐渐扩散到其他地方。但我有一个更简单的答案——蒸汽机的新技术。我认为所有这些都很重要,也许它们帮助了蒸汽机的发现。你可以问为什么,为什么,为什么,但最终,苏格兰的詹姆斯·瓦特对蒸汽机进行了重大改进,使其开始变得实际有用。随后,这一技术被广泛应用于许多领域。正如你提到的一些机构变革一样,这些技术也开始推动其他发明的发展。但蒸汽机本质上引发了工业革命。它使我们能够不再只依靠人类或动物的力量,而是使用机器来移动物体和完成重要的体力工作。从那时起,生活标准以每年约几个百分点的复合指数速度增长。我们现在比几百年前的祖先富裕了大约30到50倍。

蒸汽机是第一个通用技术(General Purpose Technology,GPT)。有人知道我说的GPT是什么意思吗?是的,GPT不仅指生成预训练转换器(Generative Pretrained Transformer),还指通用技术。蒸汽机是第一个GPT,但它并不是最后一个。还有其他的GPT,比如电力、计算机。

根据Tim Bresnahan和Manuel Trajtenberg的研究,GPT具有三个重要特征:它们是普遍的,影响经济的广泛领域;它们能随时间改进;最重要的是,它们能催生互补的创新,进而引发在交通、工厂工作和其他领域的变革。人工智能也是一种GPT,同样符合所有这些标准。有人可能会假设互联网是一种通用技术(GPT),但它可能没有创造出同样的生产力“J曲线”效应。确实,没有一个明确的界限可以区分什么是GPT,什么不是GPT。我认为这是一种渐变的过程。互联网确实触发了一系列互补的创新,确实在90年代和21世纪初促进了广泛的生产力增长,我们仍然在以未被充分衡量的方式受益于它。但它的影响可能不如电力或蒸汽机那么大。因此,GPT的影响程度是不同的。人工智能可能是所有GPT中最普遍的一种。有人称AI为“终极发明”,因为它有潜力创造所有其他发明。正如DeepMind的创始人之一Demis Hassabis所说:“我们的目标是解决智能问题,然后利用它来解决世界上的所有其他问题。”如果你能解决智能问题,无论这意味着什么,你就能解决环境、医疗、贫困等许多其他问题。因此,从这个意义上说,AI是一种非常普遍的通用技术。

5、智能和ImageNet

我们正在以前所未有的方式解决智能的某些部分。你们都知道ImageNet吗?这是李飞飞和她的合作者在斯坦福整理的一个数据集,包含约1400万张图片。每张图片都经过了细致的标记,比如海星、羚羊或瞪羚。从2010年开始,有比赛让机器尝试识别这些图片。过去,机器在图像识别方面表现不佳,但现在情况已经发生了显著变化。大约在2012年左右,随着卷积神经网络和AlexNet的出现,图像识别技术迎来了一个陡峭的拐点。Jeff Hinton及其团队引入了深度学习技术,这些神经网络拥有多个层级,证明在执行这些任务上非常有效。此后,技术进步变得更加迅速。AI指数的报告中显示了在许多维度上的技术进展。

有很多指标显示,人工智能技术在不断改善。这些改进并不来自于DEI指数,而是基于不同的基准。我们可以看到,在许多任务上,机器逐渐达到了甚至超越了人类的性能水平。去年在这个教室里,杰克·克拉克展示了许多这样的图表,并指出他们遇到的一个问题是,每当有人制定一个基准,总会有人很快找到方法让机器超越这个基准。因此,他们正试图制定一些更持久和健壮的基准。有人提出了一个关于图表的快速问题:图表中的0%是否表示基准或数据集刚出现时的性能水平?是的,确实如此。但这并不意味着零性能。如果你回顾历史,这可能是一个更好的表示方法。图表中的数据被规范化为在两个数字之间的表现范围,这是一种规模化的表示方式。回顾人工智能的发展史,可以将其归类为几种不同的研究范式。1956年,人工智能这一领域在达特茅斯会议上首次正式成立,一群人聚集在一起,创造了这个术语并开始研究人工智能。当时,研究主要集中在符号方法上。尽管神经网络的概念也在研究中出现,但由于计算能力的限制,这些网络非常浅显,仅限于单层神经网络。

当我开始从事AI研究时,我教授的第一堂课是在哈佛继续教育学院,那是我本科毕业后不久的1985年。那时我们正在构建基于规则的专家系统。这些系统是通过手工编码实现的,过程非常繁琐。你需要与专家交流,了解他们在诊断发烧或选择酒类时使用的如果/那么规则,然后将这些规则逐一记录下来。通过串联一系列这样的规则,有时可以得到相当不错的结果。然而,正如理Rich Sutton在《苦涩的教训》中指出的那样,这种方法并没有很好地扩展。这些基于规则的系统充满了错误,最终并未真正取得突破。80年代曾有一次AI热潮,人们对人工智能技术充满了期待,但随后热情逐渐消退,进入了一个所谓的“AI寒冬”。机器学习在这个背景下出现。正如Rich Sutton所描述的,这是一个全新的方法,有人甚至称之为“软件2.0”。机器学习的核心思想在于,我们不再需要明确告诉机器该做什么。你们都有编程经验,知道写代码时必须精确地描述出希望机器执行的操作。如果你在代码中写错一个词或一个逗号,机器就不会按照你的意图行事。

但在机器学习中,情况发生了变化。你不需要确切知道如何解决问题。相反,你提供大量的输入数据和输出数据,机器通过学习这些数据之间的关系,发现其中的统计关联,从而实现有效的预测。这种方法使得机器能够自主学习和改进,极大地推动了人工智能的发展。在不同环境中,机器学习的应用有很多实例。例如,银行的反洗钱系统。它用于探测洗钱活动,尽管这种技术也有可能被用作洗钱本身。这显示了技术的双刃剑特性,需要我们谨慎使用。另一个例子是光学字符识别(OCR)。在90年代,人们花费大量时间尝试识别手写文字,比如读取人们手写的数字“3”或“2”,这对机器来说非常困难,对许多人来说也不易区分。然而,神经网络逐渐开始在这些任务上取得进展。如果你尝试为此编写规则,那会非常复杂。但神经网络通过学习数据中的模式,能够识别这些字符。早期的另一个例子是信用评分系统。信用评分利用机器学习来评估个人的信用风险,并进行预测。实际上,像这些应用的例子还有很多。如果你有大量的输入数据(X)和输出数据(Y),并且你有足够的数据,机器学习系统有很大的可能性能够找到这些关系,并能够进行样本内和样本外的预测。

6、人工智能淘金热

目前,企业正在掀起一场机器学习应用的淘金热。每家公司都在努力寻找尚未被机器学习技术涉足的领域,并探索在这些领域中如何利用输入数据和输出数据进行学习。例如,自动除草机是一个应用实例。这种机器人通过图像识别来识别不需要的植物物种,然后用激光摧毁它们。它不使用任何化肥或杀虫剂,只是依靠机器学习和图像识别技术自动工作。如今,我们进入了一个新时代,那就是生成性AI或基础模型、大型语言模型(LLM)的时代。这与传统的机器学习略有不同。在传统机器学习中,像费菲莉和她的团队那样标记数据是一项关键任务。例如,标记一张图片是否包含猫或狗,是否显示癌症或其他病变。然而,新的生成性AI使用的是无监督学习或自监督学习,这种方法被证明更具扩展性。

LLM的工作原理可以用“填空题”来形容。它是一种自回归闭合任务,系统试图预测句子中的下一个词。例如,“杰克和吉尔上了山。”系统会尝试预测“山”这个词。通过数百亿次的训练,系统逐渐学会了如何正确预测下一个词。这种方法的巧妙之处在于,它不需要人类注释员。你可以拿一本书,遮住一个词,然后让系统根据上下文预测被遮住的词。这种方法的有效性在于,选择随机词并遮住它们,看看系统能否根据上下文填补这些词是相对容易的。你有海量的数据可以用来训练,数万亿的词汇数据为训练提供了充足的资源。使用像变换器模型这样的架构,这种方法不仅能够有效地预测下一个词,还可以用来生成文本。这种生成文本的方法基于对世界的某种理解和知识储备,包括语法、常识、地理知识等。因此,LLM被证明是一种非常强大的工具。

类似的技术也可以用于生成图像。通过模糊图像的一部分,系统可以学习如何填补缺失的部分,例如马的耳朵或眼睛。这种自监督的方法极大地增强了系统从数据中学习的能力。因此,像电影《我,机器人》中提到的那样,机器是否能够创作交响乐或绘制美丽的画作?这部电影大约是20年前制作的,设定在遥远的未来,大约在2035年。然而,随着AI技术的不断进步,这样的场景或许比我们想象的更早到来。在讨论生成性AI的优势和劣势之前,我们先来看一些具体的应用场景。例如,在电影《我,机器人》中,机器人被问到是否能创作交响乐或绘画时,原先的回答是否认的。然而,如果今天重拍这部电影,为了贴近现实,机器人很可能会给出肯定的回答。这表明,至少在某些方面,我们的技术进展速度已经超过了科幻电影的预测。尽管在类人机器人方面的进展可能没有那么迅速,但这一话题将在后续课程中进一步探讨。

生成性AI展现出了一系列显著的优势。首先,它的应用范围极为广泛。无论是在法律考试中模拟律师资格考试,还是在艺术创作中,生成性AI都展现出了卓越的能力。例如,GPT-3.5和GPT-4在处理复杂知识、理解法律条文并进行推理时表现出色,这显示了其在理解和应用复杂知识方面的潜力。此外,生成性AI具有快速学习与适应的能力。与传统算法不同,生成性AI能够通过观察大量数据迅速学习和适应,而不需要详尽的编程指令。这使得它们在处理大规模和复杂数据时更加高效。生成性AI还能通过自我改进优化自身的表现,这在自我监督学习中尤为明显。随着模型对世界的理解加深,其预测和生成能力也随之提高。然而,生成性AI也面临一些显著的劣势。首先,尽管生成性AI能够处理和理解大量数据,但其表现极度依赖于输入数据的质量和多样性。如果数据存在偏差或不足,模型可能会输出不准确甚至有偏见的结果。其次,生成性AI的决策过程往往缺乏透明性,这在需要解释和验证其决策的应用场合构成了挑战。此外,由于生成性AI从广泛的数据中学习,很难将特定的输出直接归因于特定的训练样本,这使得理解模型的学习过程和纠正错误变得复杂。

除了技术上的优势和劣势,生成性AI的应用还涉及经济和道德问题。数据的所有权、使用权以及使用生成模型训练数据的补偿问题,都是当前亟待解决的议题。这些问题已经在《纽约时报》、OpenAI以及其他众多实体和个人之间的辩论中得到了广泛讨论。通过对生成性AI的分析,我们可以看到它不仅是技术进步的标志,也是对现有法律、伦理和社会规范的挑战源泉。随着这些技术的发展,我们需要不断审视和调整现有的框架,以确保技术进步既能促进创新,也能保护个人和社会的利益。

7、人工智能增长S曲线

正如你所看到的,这是一条对数曲线,表明当你成比例地增加计算能力、数据和参数时,预测下一个词的能力会有可预测的提高。而这种预测下一个词的能力与许多其他性能指标相关联。目前,没人确切知道当继续延伸这一过程时会发生什么,但微软和OpenAI投资1000亿美元建造了一个名为Stargate的大型数据中心,原因之一是他们认为通过增加更多的计算能力可能会有所帮助。也许他们还会找到获取更多数据的方法。我们将看看你能在多大程度上继续推进这一进展。值得关注的是,尽管底部的这些数字看似惊人,但实际上每个刻度之间的差异是100倍。如果这些模型的成本在5亿美元到10亿美元之间,增加100倍意味着需要1000亿美元,再增加100倍则显得不太现实,因为即使全球GDP也不足以支撑如此庞大的计算能力投资。因此,也许他们需要想出一些其他的方法来继续推进这一进展。

有一些预测表明,人工智能的发展速度比我们预期的要快。Metaculus网站上有许多关于人工智能的预测,例如,AI何时能通过数学奥林匹克竞赛或其他挑战。一个与我们讨论相关的预测是,什么时候会有第一个通用AI系统被设计、测试和发布?他们对通用AI系统有一个严苛的定义,包括通过图灵测试、能够组装物品并完成一系列其他任务。几年前的预测是2057年,而去年降到了2040年。最近的预测则是2031年。时间表的提前可能是因为生成性AI的进展出乎意料,让人们重新评估了什么是可能的。在这些预测中,具身性被考虑为通用AI的一部分定义。机器人技术的发展速度被认为会比认知部分慢得多,但也有一些公司在积极开发类人机器人,例如Elon Musk和其他人的项目。Yann LeCun指出,我们可能不会很快实现通用AI,但他也提到,尽管LLM(大型语言模型)可能是一个死胡同,仍然会有其他技术推动进展,构建世界模型。即便LLM不能完全实现通用AI的标准,它们在某些任务上的能力也可能具有巨大的经济价值。Yann LeCun认为LLM将会带来数万亿美元的价值和影响。

需要考虑的是,即使一个模型不能完全实现通用AI的标准,它在某些任务上的能力也可能具有巨大的经济价值。这其中有一些好消息,但也有一些挑战。这些技术将会提高生产力,使经济总量大幅增加。然而,没有任何经济定律、教科书或理论表明每个人都必须平均受益。事实上,也没有任何规定说每个人都必须受益。完全有可能一些人会停滞不前,甚至处境恶化。可悲的是,在过去的十年或二十年里,这对于许多人来说已经成为现实。这些变化和预测突显了生成性AI的潜力和挑战。作为一名经济学家,我关注的是接下来5年、10年、15年内的情况,而不是几十年后的通用AI。随着技术的不断进步,我们需要持续关注这些变化,并审视其对经济和社会的深远影响。

在美国,即使整体生产力在增长,高中文化程度或以下的人群的平均工资却在下降。这表明,技术变革并不一定会均匀地影响每个人。这不仅仅是如何创造繁荣的问题,而是如何实现共享繁荣的挑战。如果技术只让少数超级富有人士受益,而全国其他地区或全球大部分人都未能受益,这可能并不是一个理想的结果。这种情况是有可能发生的。Alan Turing对人工智能的看法曾经吸引了许多人的注意。当我第一次听到图灵测试这个概念时,感到非常惊奇。图灵测试的想法是,能否制造出一台与人类无法区分的机器?如果你在幕布后向它们提问,你无法判断哪个是人类,哪个是机器。更广泛地说,AI被定义为尽可能接近人类的复制。当我第一次听到这个概念时,觉得这是一个很好的定义。但现在,我认为这其实是一个非常糟糕的标准。我认为它并不能有效衡量智能,反而有点像测试我们有多容易被蒙骗。

图灵测试有点像是一个“魔术师测试”,如果一位魔术师能让一位女士在我们面前漂浮,我们可能会惊呼“太神奇了”,但这并不意味着引力被破解了,或者他发明了反重力技术。看起来很神奇,但它其实不是一个好测试。我们需要更好的测试来衡量智能,但从根本上说,作为一名经济学家,抛开图灵测试是否是衡量智能的好标准不谈,我认为它作为目标导向,是一个非常糟糕的方向。这种目标导向把很多研究引向了错误的方向。更具体地说,在技术发展中,你可以开发替代技术,也可以开发互补技术。替代技术是指能够完成同样任务的技术。如果两种事物可以互相替代,那么拥有更多的替代品A时,B物品的价值和价格就会降低。如果机器替代人类劳动,它们会降低人类劳动的价值。但你也可以有互补品,互补品是指使另一件事物更有价值的东西。比如,左鞋是右鞋的互补品,软件是硬件的互补品,瓶盖是瓶子的互补品。互补品会使另一件物品更有价值。出于某种原因,我们大多数人,包括我自己,有时会将技术主要视为替代品。我们会想如何用这项技术来替代人类正在做的事情,就像Alan Turing的想法一样?但实际上,在大多数历史时期,大多数技术都是互补品。大多数技术并没有降低人类劳动的价值,反而提升了它的价值。记得我之前提到过,今天的人类劳动价值比几百年前高了50倍吗?为什么现在你支付的劳动报酬比过去高了?当你拥有这些机器时,为什么你要支付更多的劳动报酬?这是因为有了这些机器,使用推土机的人能够完成更多的工作;拥有计算机的人能够创造更多的价值。机器在放大人类的能力。

在历史的大部分时间里,机器大多是增强和补充人类劳动的互补品。展望未来,我们希望看到机器继续增强和补充人类劳动,至少在一段时间内是这样。

人工智能先驱尼尔斯·尼尔森,曾是斯坦福大学的教授,他的愿景与艾伦·图灵非常相似。我提到他是为了说明艾伦·图灵的观点在当时并不是孤立的,事实上,这种观点在当时是主导性的,认为人类水平的智能意味着要完成所有人类所做的任务,并找出机器是否能完成同样的事情,将其自动化。这种愿景激励了许多技术专家,也激励了许多商业主管,但我认为这往往是一个错误的方向。虽然你可以通过这种方式创造价值,但这并不是主要的价值来源。事实上,类人AI一直是人们追寻了数千年的目标。代达罗斯是希腊神话中的发明家和工程师,据传说,他制造了可以走动和说话的机器人,它们与人类无异。当然,这只是一个传说。后来,捷克剧作家卡雷尔·恰佩克创造了“机器人”这个词汇,这是当时非常流行的一部戏剧,大约是在一个世纪前。你们可能看过波士顿动力的机器人和其他类似的机器人。现在我们看到生成性AI能够做许多原本由人类完成的事情。

8、2500年前雅典智能

让我们做一个思想实验。假设你们都回到了代达罗斯的时代,他确实成功制造了类人机器人,但他的目标仅限于执行当时人类在做的所有任务,并没有超越这些任务。列出当时的经济活动,也就是2500年前的希腊经济中的任务清单。那么那个经济是什么样的?你可以自动化许多事情,比如制作陶罐、制造希腊长袍、修理马车等,但这并不意味着生活水平会有很大提升。拥有成堆的陶罐、长袍和香料并不代表生活质量的飞跃。自代达罗斯时代以来,我们的生活水平并不是通过减少劳动来实现的,而是通过增加新的产品、新的服务和新的发明来实现的。因此,我们需要超越仅仅考虑今天我们正在做的任务,并思考如何让机器来完成这些任务。我并不是说减少劳动不好。好消息是,这样做可以让人们不再需要从事某些工作,可以享受更多的闲暇时间,但他们也会错过很多新技术带来的好处,比如喷气飞机、iPhone或mRNA疫苗,以及我们今天拥有的其他酷炫的科技产品。

大多数这些创新都是新的,而不是对过去的简单重复。换句话说,生产率被定义为产出除以投入,大多数经济学家将其操作化为GDP除以工作时间。所以如果劳动时间为零,从数学上讲,生产率会发生什么?这是一个复杂的数学问题。在讨论生产率和技术变革时,我们常常会碰到一些有趣的悖论。例如,当我们谈到生产率趋于无穷大时,这表面上看起来很理想,但它可能带来的结果却并非如此乐观。如果劳动时间降为零,劳动收入也会随之降为零。那么,在这种情况下,为什么还要支付工人工资呢?虽然生产力和财富可能会大幅增长,但如果劳动者无法分享这些财富,社会的分配将变得极不平衡。劳动收入为零意味着劳动者的经济和政治权力也会随之减弱,影响他们在社会中的谈判能力和地位。这一情景虽然设想得极端,但值得我们深入思考。无限的生产率听起来很诱人,但如果财富和权力高度集中在少数人手中,而大多数人却无法受益,这种社会模式显然存在问题。这种情况下,技术虽然创造了大量的财富和生产,但如果无法实现广泛的分配,社会的不平等将会加剧。我们需要思考如何在这样一个可能出现的世界中,确保财富和权力能够更加公平地分配,可能需要找到一种新的分配机制,而不再依赖于传统的劳动收入。

接下来,让我们谈谈技术如何在现实世界中改变工作方式。我曾参与一项研究,分析了斯坦福大学的一组人开发的呼叫中心系统。这一系统由塞巴斯蒂安·特龙和扎伊德·伊纳姆领导,利用自监督学习系统分析呼叫中心的转录记录,识别哪些对话带来了良好的结果,哪些导致了不良结果,并据此生成一个大型语言模型来提出有效的建议。不同于让机器人完全替代人类操作员,这个系统是由LLM提供建议,而人类操作员与客户对话。

我们的研究发现,使用了这项技术的呼叫中心员工在解决问题的速度和准确性上都有显著提升,整体生产率提高了约14%。更有意思的是,最不熟练、经验最少的工人生产率提升了约35%,而最熟练的工人则几乎没有提升。这表明,技术不仅可以提升整体效率,还可以帮助缩小员工之间的能力差距。然而,这种技术的广泛应用也带来了新的问题。有人担心,如果所有这些知识最终都被提取回LLM中,那么这些呼叫中心的员工是否会面临失业的风险。的确,这种担忧是合理的,尤其是当机器逐渐掌握了常见问题的解决方案时。我们发现,机器在处理常见问题时表现非常出色,因为它们可以从大量数据中学习。然而,对于那些罕见的、一次性的案例,机器目前的技术仍然表现得不够理想。随着时间的推移,这种分界线可能会逐渐向右移动,即机器能够处理的问题范围会扩大,但人类的作用仍然不可替代,特别是在处理复杂和少见的问题时。

9、情感分析概念

自动驾驶汽车的发展速度不如预期,因为它们同样面临着处理尾部案例和边缘案例的挑战。这些情况虽然少见,但非常难以预测和学习,这也解释了为什么这些技术在实际应用中进展缓慢。除了生产率和绩效的提升,我们还观察到了客户满意度的提高。使用这项技术后,客户的反馈更加积极,净推荐分数也有所上升。通过情感分析,我们可以看到客户对这些互动的满意度更高,这进一步证明了技术在提升客户体验方面的潜力。

在我们探讨情感分析之前,先解释一下这个概念。情感分析是指通过分析文本中的词汇和语言模式来判断情感倾向的过程。我们在研究中分析了数百万个词汇和通话记录,查看了其中包含多少“快乐的词汇”和“愤怒的词汇”。结果显示,与大型语言模型(LLM)一起工作的呼叫中心在情感倾向上表现更好,操作员和客户都更加满意,操作员的离职率也更低。因此,在这个特定案例中,股东和公司、客户、员工这三方的表现都有显著提升。

关于你提出的问题,即这种技术增强是否是未来的发展方向,这是一个非常有趣的话题。为了进一步讨论,我想提到一项研究,研究显示,自动化和AI技术对大量任务的影响将会越来越大。我的前研究生丹尼尔·罗卡与OpenAI的一些研究人员合作,研究了美国经济中18,000项任务,发现大约80%的劳动力至少有部分任务会受到影响,尤其是高收入工人。在这项研究中,提到自动化技术对任务的影响可以通过类似自动驾驶汽车的“六个级别”来理解。在自动驾驶中,级别1到5分别代表了从人类驾驶为主,到完全由机器接管所有操作的不同阶段。我认为这种分级不仅适用于自动驾驶,还适用于许多其他经济任务。尽管十年前我曾在TED演讲中提到,人类与机器的合作可以击败最强的国际象棋电脑,这种模式被称为“自由式国际象棋”或“高级国际象棋”,但如今的技术,如AlphaZero,已经发展到一个新阶段,人类几乎无法在国际象棋比赛中为机器提供有效补充,反而可能成为一种干扰。

自动驾驶汽车的发展还没有达到这个高度。我个人驾驶特斯拉汽车,尽管技术先进,但我仍不完全信任它。在几次驾驶中,我发现如果不及时接管驾驶,可能会出现事故。因此,尽管自动驾驶技术在不断进步,但它仍处于需要人类监控和干预的阶段。回顾2012年我和安迪·麦卡菲乘坐谷歌自动驾驶汽车的一次经历,我们一路沿着101号公路从旧金山返回,当时技术看似接近成熟。然而,随着时间的推移,我们发现实现完全自动驾驶比预期要困难得多。这提醒我们,技术的发展常常需要经历不同的阶段,有些问题可能会迅速通过这些阶段,而另一些问题则可能会停留在中间阶段,甚至长时间难以达到终极阶段。

在未来的发展中,我们需要深入思考哪些任务能够快速通过自动化的各个阶段,哪些任务则会较为缓慢地推进。最终,我们可能会在许多任务上实现完全自动化,但在某些领域,人类与机器的合作仍将是不可或缺的。这些问题值得我们进一步研究和探讨,以更好地理解技术如何改变工作和生活,并制定相应的策略来应对这些变化。

斯坦福人工智能课程链接:https://learn.stanford.edu/Social-AI-YouTube-2024.html



对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你对观点和看法!

往期回顾

1、[在自媒体时代,英伟达CEO采访扎克伯格:AI如何为个体创作者打造个性化的盈利模式]

2、[牛津大学教授Nick Bostrom讲述:AI技术能否让我们实现每周工作四天的生活(90分钟访谈视频)]

3、[加州大学伯克利教授斯图尔特·罗素演讲:如果我们实现了这一AGI目标,社会将会发生什么样变化?]


我们AI团队将先进科技与创新想法完美融合!

想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波技术浪潮

告别昂贵服务和缺人烦恼,再见漫长交付周期

无限创意风格,分分钟生成专业级作品

感受 AI 带来的全新工作体验!

欢迎各大品牌方、媒体、企业和个人等

请联系负责人微信:Milo-1101

--END--

继续滑动看下一个
AI深度研究员
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存