查看原文
其他

研究速递| Science:生成式人工智能生产力效应的实验证据

图灵财经 图灵财经
2024-09-16

点击蓝字 关注我们


研究速递

生成式人工智能生产力效应的实验证据

作者:Shakked Noy, Whitney Zhang

来源:Science

摘要

我们研究了一种生成式人工智能技术——辅助聊天机器人chatgpt——在中级专业写作任务中的生产力影响。在一项预先注册的在线实验中,我们给444名受过大学教育的专业人士分配了职业特定的、有激励的写作任务,并随机让其中一半的人接触ChatGPT。我们的结果表明,ChatGPT大大提高了平均生产率:所需时间减少了0.8个SDs,输出质量提高了0.4个SDs。工人之间的不平等减少了,因为ChatGPT通过更多地惠及低能力工人来压缩生产率分配。ChatGPT主要是替代工人的努力,而不是补充工人的技能,并重新构建任务,以产生想法和编辑,而不是粗略的起草。接触ChatGPT增加了工作满意度和自我效能,并提高了对自动化技术的关注和兴奋。

引言

可生成人工智能的最新进展可能对生产和劳动力市场产生广泛影响。新的生成式人工智能系统,如ChatGPT或DALL-E,可以提示从大量训练数据中创建新颖的文本或视觉输出,在质量上不同于大多数自动化技术的历史例子。之前的自动化浪潮主要影响了“常规”任务,这些任务由明确的步骤序列组成,可以很容易地编码并编程到计算机中。创造性的、难以编码的任务(如写作和图像生成)在很大程度上避免了自动化——学者们指出,这种模式可能会随着深度学习技术的出现而改变,而深度学习技术现在是生成式人工智能系统的基础。强大的生成式人工智能技术的出现在新的背景下重新引入了许多经典问题。根据定义,自动化技术代替人类执行特定的任务。但是,更广泛地说,它们可能完全取代人类的某些职业,或者补充现有的人类工人并提高他们的生产力(Acemoglu和Restrepo, 2020;Boustan et al ., 2022;Kanazawa et al, 2022)。就自动化技术主要取代人类工人而言,它们可能会增加失业率,而它们对总生产率的影响可能很小或不存在,因为它们主要用于从工人到资本所有者的收入再分配(Acemoglu和Restrepo, 2018)。只要自动化补充了现有的工人,它可以同时通过提高生产率和工资以及降低价格来使工人,资本所有者和消费者受益(Kleinberg等人,2018;Hoffman等人,2018;Agrawal et al, 2019)。例如,像ChatGPT这样强大的生成式写作工具可能会完全取代某些类型的作家,比如拨款作家或营销人员,通过让公司直接自动化拨款申请和新闻稿的创建,而最小化人工监督。这可能不会提高最终书面输出的质量,但会让公司通过消除人工来节省工资成本。另外,像ChatGPT这样的工具可以大大提高拨款作者和营销人员的工作效率,例如,通过自动化他们写作任务中相对常规的、耗时的子组件,例如将想法翻译成最初的草稿。在这种情况下,对这些服务的需求可能会扩大,从而导致更高的就业和工资,以及企业更高的生产率和消费者更便宜的产品。工人之间的不平等也可能受到影响:如果能力较低的工人得到ChatGPT的更多帮助,不平等可能会减少,如果能力较高的工人拥有利用新技术所需的技能,不平等可能会增加。本文为回答这些问题迈出了第一步在一项在线实验中,我们招募了444名经验丰富、受过大学教育的专业人士,并让他们每人完成两项针对特定职业的、有奖励的写作任务。我们选择的职业有市场营销人员、基金写手、顾问、数据分析师、人力资源专家和管理人员。这些任务包括撰写新闻稿、简短报告、分析计划和微妙的电子邮件,由20到30分钟的任务组成,旨在模拟这些职业中执行的真实任务;事实上,我们的大多数参与者报告说他们之前完成了类似的任务,并将分配的任务评价为他们日常工作的真实表现。参与者面临着以高额奖金形式出现的强力激励,要求他们完成高质量的工作。

结论

1. ChatGPT的使用
在治疗组中,92%的治疗参与者成功注册了ChatGPT, 81%的人选择在第二个任务中使用它,给它的平均自我评估有用性评分为4.4分(满分5分)。
在治疗之前,大约70%的参与者听说过ChatGPT, 30%的参与者以前使用过它。自我报告和客观测量表明,只有10-20%的对照组在任务中使用ChatGPT,这意味着在第二个任务中,我们的治疗组和对照组之间的使用至少有60个百分点的实验导致的差距。事实上,一些控制参与者正在使用该工具,这意味着我们的估计提供了ChatGPT使用对生产力影响的下限。
2.生产效率
我们用每分钟的收入来衡量生产力。实验干预显著提高了这一结果。在治疗组中,治疗后任务所需的时间比对照组减少了10分钟(37%),对照组平均需要27分钟(p = 0.000)。治疗组的评价者平均评分增加了0.45个标准差(p = 0.000),总体评分和写作质量、内容质量和独创性的具体评分的增长大致相似。
这些影响并不局限于特定的时间或等级分布:整个时间分布向左移(工作速度更快),整个等级分布向右移(质量更高)。在单个工人层面上,图2显示,在第一个任务中获得低分的工人的成绩增加了,花费的时间减少了,而获得高分的工人保持了他们的等级水平,同时大大减少了他们花费的时间。
在一组20%的参与者中,我们要求实验组和对照组的参与者在每项任务上都花15分钟。这使得处理组和控制组之间的工作量固定,允许我们将等级上的任何差异解释为ChatGPT访问对生产能力的纯粹影响。在这一组中,尽管预估不精确且预处理略有不平衡,但治疗后的评分提高了0.39个标准差(p = 0.13)
在另一组中,30%的被试完成第二项任务后,被试者被展示了他们第一项任务的输出,如果他们愿意,他们有机会使用ChatGPT编辑或替换它。23%的人选择用ChatGPT的输出来代替他们的回复,25%的人使用ChatGPT来编辑他们的原始回复,这表明参与者认为ChatGPT除了是一种节省时间的方便方法外,还可以提高输出质量。
3.生产力不平等
对照组表现出持续的生产力不平等:在第一项任务中得分高的参与者在第二项任务中也往往得分高。对照组参与者在第一个任务中的平均成绩与他们在第二个任务中的平均成绩之间存在0.49的相关性。
在实验组中,最初的不平等被处理消除了一半:第一任务和第二任务等级之间的相关性仅为0.25(斜率差的p值= 0.004)。
这种不平等的减少是由这样一个事实推动的:在第一轮中得分较低的参与者从ChatGPT访问中获益更多,如图所示:在x轴的左端,治疗线和控制线之间的差距要大得多。
4. 人机互补
ChatGPT可以从两个方面提高工人的生产率。一方面,它可以通过快速生产工人直接提交的令人满意的质量的产出来代替工人的努力,让他们减少花在任务上的时间。另一方面,它可以补充工人的技能:人类和ChatGPT一起工作可以产生比他们各部分的总和更多的东西,例如,如果ChatGPT辅助头脑风暴过程,或者快速生成一个粗略的草案,然后人类编辑和改进草案。在我们的实验中,互补性故事的证据可以有两种形式:(a)我们可以观察到治疗组参与者选择花费大量时间编辑ChatGPT的输出或反复提示ChatGPT以期望获得更高的分数,(b)我们可以观察到治疗组参与者的文章比ChatGPT的原始输出获得更高的分数,这表明人工输入增加了价值。
我们没有观察到这些证据,这表明ChatGPT主要是通过替代工人的努力来提高生产率的。68%的被处理的参与者报告提交ChatGPT的初始输出而没有编辑它,并且在我们第一次观察到他们粘贴大量文本(可能来自ChatGPT)后,平均而言,被处理的参与者在任务上仅活跃了3分钟。参与者在粘贴ChatGPT文本后的活跃时间与他们最终获得和处理的分数之间也没有相关性。受访者没有收到比我们给评估者评分的原始ChatGPT输出更高的平均分数,这意味着我们没有发现任何证据表明人工编辑正在改善ChatGPT输出。即使在凸激励组中,参与者被给予强大的金钱激励去这么做,情况也是如此。
5. 任务结构
正如前面讨论的那样,ChatGPT实质上改变了编写任务的结构。在治疗之前,参与者花了大约25%的时间进行头脑风暴,50%的时间写草稿,25%的时间进行编辑。处理后,花在写草稿上的时间减少了一半以上,花在编辑上的时间增加了一倍以上。
6. 技能需求
如果ChatGPT对那些写作和沟通能力相对较差的人特别有帮助,它可能会扩大可用的职业选择,并提高那些努力将想法有效地写在纸上的有很强创意能力的人的收入,从而对劳动力市场产生重大影响。
我们对这个假设进行了几次检验。我们构建了两种衡量一个人相对写作技巧的方法。首先,在实验开始时,我们要求参与者对他们在沟通(写作和口语)、解决问题和创造力方面的技能从1到3进行排名。其次,除了分配总体分数,评价者还根据写作质量、内容质量和独创性分别评估每一篇文章的输出;一个人的第一项任务总分和写作分数之间的差距提供了另一种衡量标准。
同样,我们构建了ChatGPT个人层面收益的两个度量。首先,在实验结束时,我们询问治疗组的参与者,他们愿意每月支付多少钱,以便在工作中使用ChatGPT。其次,我们衡量每个实验组参与者从第一个任务到第二个任务的成绩提高了多少。我们找不到支持上述假设的明确证据。在我们的两种写作技巧测量中,为ChatGPT付费的平均意愿是持平的:无论他们的写作技巧如何,受访者都愿意为每月订阅ChatGPT支付约0.5%的月薪。从ChatGPT中获得的分数在两种相对写作技能的测量中也大致持平:写作技能相对较差的人不会获得不同寻常的大分数。
7. 工作满意度与自我效能
使用ChatGPT可能会影响工作满意度。例如,它可以通过自动完成任务中繁琐或恼人的部分,或者让他们更快地完成任务,让参与者更快乐。另一种情况是,它可能会快速自动执行任务中最有趣的部分,从而降低游戏体验的乐趣。类似地,它既可以通过给参与者提供一个复杂而强大的工具来增强他们的能力,从而提高自我效能,也可以通过让参与者感到多余来降低自我效能。我们在每个任务结束后用一个问题来衡量工作满意度,这个问题是关于参与者有多喜欢这项任务,而自我效能感是关于他们在完成任务时感觉自己有多熟练/有效,这两个问题都是用1-10李克特量表来衡量的。
ChatGPT显著提高了工作满意度,提高幅度约为0.40个标准差(p = 0.000)。尽管参与者大多是用它来代替自己的努力,但它温和而不精确地提高了自我效能,提高了0.20个标准差(p = 0.060)。来自参与者的定性反馈(在调查最后的开放文本框中)表明,许多人喜欢发现和使用这个工具。
8. 关于自动化的信念
许多接受治疗的参与者在参加实验之前从未听说过(30%)或从未使用过(70%)ChatGPT。因此,大多数人基本上是第一次接触这种技术,并接受关于它在写作任务中的有用性的速成课程。他们对未来自动化浪潮的看法如何受到这次遭遇的影响?在受访者完成第二项任务后,我们得出了三个信念,每一个都在1-10的范围内:他们对自己职业中的工人被人工智能取代的担忧程度;他们对人工智能将提高他们的工作效率有多乐观;以及总体而言,他们对人工智能未来发展的乐观或悲观程度。治疗对这些结果的影响:对自动化的担忧增加了0.26个标准差(p = 0.006),兴奋增加了0.39个标准差(p = 0.000),净乐观增加了约0.20个标准差(p = 0.037)。
9. 为期两周的跟进调查
ChatGPT对参与者的价值之一是他们在实验结束后是否继续使用它。为了跟踪参与者是否随后在他们的实际工作中使用ChatGPT,我们在他们完成初始调查两周后对他们进行了重新调查。这项随访仍在进行中,迄今为止已邀请的423名应答者的回复率为82%,没有证据表明不同治疗状况的应答率存在差异。
33%的前治疗组参与者在过去一周的工作中使用了ChatGPT,而对照组参与者的这一比例为18%。除了那些在参与我们的主要实验时没有使用过ChatGPT的工人外,26%的被治疗工人和9%的对照组工人现在在他们的工作中使用ChatGPT (p值差异为0.048)。用户给它的平均有用性得分为3.65/5.00,略低于我们的主要实验,可能是由于现实世界的任务更长、更复杂。他们报告使用它的任务范围很广:为员工生成推荐信、响应客户服务请求、头脑风暴、搜索引擎请求、粗略起草电子邮件等等。
没有在工作中使用ChatGPT的受访者大多表示,这是因为聊天机器人缺乏上下文相关的知识,而这些知识是他们写作的重要组成部分。

讨论

受过大学教育的专业人员在执行中级专业写作任务时,使用ChatGPT会大大提高工作效率。生成式写作工具提高了低能力工人的产出质量,同时减少了他们花费的时间。允许高能力的工人保持他们的质量标准,同时变得更快。在总体水平上,ChatGPT实质上压缩了生产率分布,减少了不平等。它也已经被许多工人在实际工作中使用。实验证据表明,ChatGPT在很大程度上替代了工人的努力,而不是补充了工人的技能,这可能导致对工人的需求减少,并产生不利的分配效应,因为资本所有者以牺牲工人为代价获得收益。
这个实验有几个值得列举的重要限制。首先,任务相对较短,自包含,并且缺乏上下文特定知识的维度,这可能会夸大我们对ChatGPT有用性的估计。工作满意度和自我效能感的结果同样有限,反映的是对一项小任务的享受,而不是对员工整个工作的感受,这一点可以从两周后试验组和对照组的实际工作满意度没有差异这一事实中得到证明。其次,实验本身只能捕捉到ChatGPT对选定职业的直接、即时影响。随着劳动力市场和生产系统适应ChatGPT等技术的出现,将会产生许多间接的、增强的或抵消的“一般均衡”效应。ChatGPT的效果也可能因职业、任务和技能水平而异。
只有时间和未来的研究才能充分揭示ChatGPT及其后续产品将如何影响劳动力市场。目前,我们提供的证据表明,生成式人工智能技术将——并且已经开始——显著地影响员工。


关注本公众号:图灵财经


来源:Science

作者:Shakked Noy, Whitney Zhang

编辑:张卓昕


精彩推荐


中国信通院:全球数字经济白皮书(2022年)

数字经济形态下的数字政府建设

2022年双十一全网销售数据解读报告

开拓大学生职业空间,电商平台大有可为

2023全球数字科技发展研究报告:全球科研实力对比


更多精彩内容



继续滑动看下一个
图灵财经
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存