查看原文
其他

《斯坦福2024年人工智能指数报告》解读

潘天赐 清华大学智能法治研究院
2024-08-28

2024年4月15日,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2024年人工智能指数报告》(Artificial Intelligence Index Report 2024)。[1]2024年指数报告是迄今为止最全面的指数报告,扩大了内容范围,更广泛地涵盖了人工智能的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态等基本趋势。报告增加了更多的原始数据,介绍了预计的人工智能培训成本、负责任的人工智能前景以及关于人工智能对科学和医学影响。


该报告有十大发现:(1)人工智能在图像分类、视觉推理和英语理解等维度上超过了人类,包括。然而,它在更复杂的任务中落后于人类,如竞赛级数学,视觉常识推理和规划。(2)工业界继续主导前沿AI研究。(3)最先进的AI模型的培训成本已经达到了前所未有的水平。例如,OpenAI的GPT-4估计使用了价值7800万美元用于计算训练,而谷歌的Gemini Ultra花费了1.91亿美元用于计算。(4)美国作为顶级AI模型的主要来源领先于中国、欧盟和英国。(5)负责任的人工智能报告严重缺乏标准化。包括OpenAI、Google和Anthropic在内的领先开发人员主要针对不同的负责的人工智能基准测试他们的模型。这导致更难以系统地比较顶级AI模型的风险和局限性的工作。(6)尽管去年人工智能私人投资总额有所下降,但用于生成人工智能的资金激增(7)人工智能使员工更有效率,工作质量更高。人工智能有潜力弥合低技能工人和高技能工人之间的技能差距。(8)由于人工智能,科学进步进一步加速。(9)美国的人工智能法规数量急剧增加。(10)人们更加意识到人工智能的潜在影响,也更加担忧。


1

基本内容


1.  研究与发展


英文全球人工智能出版物的数量历年不断增长。从2010年到2022年,人工智能出版物的总数增加了近两倍,从2010年的约88,000篇增加到2022年的超过240,000篇。去年的增幅仅为1.1%。


2010年至2022年全球人工智能专利数量显著增加,近几年的增幅尤为明显。例如,2010年至2014年,人工智能专利授权量的总增长率为56.1%。仅从2021年到2022年,人工智能专利数量就增长了62.7%。按地理区域划分,世界上授予的人工智能专利主要来自中国(61.1%)和美国(20.9%)。


2014年以前,学术界在发布机器学习模型方面一直处于领先地位。2014年后,产业界开始领跑。2023年,产业界发布了51个著名的机器学习模型,而学术界仅发布了15个。值得注意的是,在2023年,产学合作产生了21个著名模型,创下了新高。如今,创造尖端人工智能模型需要大量的数据、计算能力和财力,而这些都是学术界所不具备的。去年的人工智能指数报告首次强调了这一转变,即在领先的人工智能模型中,产业主导地位日益增强。尽管今年的差距略有缩小,但这一趋势在很大程度上依然存在。


图1:各部门发布著名机器学习模型的数量


人工智存在不断演变的地缘政治格局。根据研究人员所属机构所在地进行划分,美国以61个著名机器学习模型居首,欧盟和英国为25个,中国为15个,法国为8个紧随其后。自2019年以来,欧盟和英国在著名人工智能模型的数量上首次超过了中国。自2003年以来,美国生产的模型数量超过了英国、中国和加拿大等其他主要地区。


图2:三地发布著名机器学习模型的数量


在参数维度,自2010年代初以来,模型的参数量急剧上升,反映出人工智能模型设计的任务越来越复杂,数据可用性更强、硬件的改进和更大模型经验证的有效性;在计算维度,著名的人工智能模型的计算使用量呈指数级增长,这一趋势在最近更为明显;开放的基础模型数量增长迅速,自2022年以来增加了一倍多,自2019年以来增长了近38倍,2023年,大多数基础模型可以开放获取(65.8%)发布,18.8%属于外部人员无法访问,15.4%为限制访问;清华大学是发布最多基础模型的非西方机构;基础模型的训练费用正在逐年上升。


图3:基础模型的训练费用


2. 技术表现


多年来,人工智能已在一些基准测试中超越了人类,例如2015年在图像分类测试中、2017年在基本阅读理解测试中、2020年视觉推理测试中以及2021年在自然语言推理测试中超越人类。截至2023年,人工智能仍有一些任务类别未能超越人类能力。这些任务往往是更复杂的认知任务,如视觉常识推理和高级数学问题解决(竞赛级数学问题)。


图4:人工智能技术表现与人类表现的比较


传统的人工智能系统范围有限,语言模型在文本理解方面表现出色,但在图像处理方面却乏善可陈,反之亦然。最近人们开发出了强大的多模态模型,如GPT-4,这些模型能够处理图像和文本,在某些情况下甚至还能处理音频。


人工智能模型在既定基准上的性能已经达到饱和,这促使研究人员开发更具挑战性的基准。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa、用于基于代理行为的AgentBench和用于幻觉的HaluEval。


在10个选定的人工智能基准上,封闭模型的表现优于开放模型,性能优势中位数为24.2%。封闭模型和开放模型的性能差异对人工智能政策讨论具有重要影响。


3. 负责人工智能


该报告探索了负责任人工智能的四个关键维度:隐私[2]和数据治理、透明度和可解释性、有保障和安全,以及公平性。人工智能事件数据库(AIID)跟踪人工智能道德滥用的案例,如自动驾驶汽车导致行人死亡。2023年报告了123起事件,比2022年增加了32.3%,自2013年以来,人工智能事件增长了20倍以上。


研究人员发现,隐私和数据治理风险,例如,未经所有者同意使用数据或数据泄露,是人们主要担心的问题,并且亚洲人和欧洲人担忧的程度明显高于北美人。根据由斯坦福大学和埃森哲的研究人员合作进行的全球负责任的人工智能状态调查(the Global State of Responsible AI Survey),51%的组织报告称,隐私和数据治理相关的风险与他们的人工智能采用策略相关。从地理上看,欧洲(56%)和亚洲(55%)的组织最频繁地报告隐私和数据治理风险,而总部位于北美的组织(42%)报告的风险最少。只有不到0.6%的公司表示,他们已经完全实施了所有提及的六种数据治理缓解(mitigation)措施;90%的公司表示,他们至少实施了一项措施;10%报告,他们尚未完全实施任何一项措施。大型语言模型(LLM)接受了大量数据的训练,其中大部分是从互联网等公共渠道获取的,不论这些模型是封闭的还是开放的,均可能从中恢复训练数据,个人信息也不可避免地被泄露,谷歌通过新技术开展数据审计,有助于减轻该弊端的影响。


图5:采用与人工智能相关的数据治理措施的地区情况

图6:采用与人工智能相关的数据治理措施的行业情况


人工智能的透明度包括数据和模型的透明度、操作的透明度等维度。该报告将可解释性定义为理解和阐明人工智能决策背后的基本原理的能力。高级模型的本身具有复杂性,特别是那些基于深度学习的模型,即使是开发人员也很难理解这些模型如何处理输入和产生输出,并且更复杂的模型可能提供更好的性能,但往往比更简单的模型更难以解释。研究表明,只有8%的公司全面实施了一半以上的透明度和可解释性措施,相当多公司(12%)没有完全实施任何措施。


2023年,随着人工智能能力的不断改进,模型的使用越来越普遍,对其保障和安全的担忧成为决策者的首要任务。2023年,人工智能系统的安全和安全性引发了重大的争论,特别是关于与先进人工智能相关的潜在极端或灾难性风险,人工智能存在算法歧视,还能放大网络攻击的危害。研究表明,13%的组织全面实施了一半以上的保障措施,12%的没有完全实施任何措施。


人工智能的公平性强调开发公平的系统,避免延续对任何个人或群体的偏见或歧视。研究表明,欧洲地区(34%)最频繁地报告公平性风险,虽然大多数企业已经充分实施了至少一项公平性措施,但仍缺乏全面的整合。来自牛津大学的研究强调了人工智能的不公平是如何在标记化(Tokenization)阶段产生的。标记化,即将文本分解成更小的单元进行处理和分析的过程,在不同语言之间表现出显著的可变性。需要的更长文本数量和标记时间的语言,可能会降低使用这些语言的用户服务质量。


4. 经济


全球私人人工智能投资已连续第二年下降,去年的降幅低于2021年至2022年的降幅。新投资的人工智能公司数量猛增至1,812家,较上年同期增长40.6%。相较而言,生成式人工智能投资一路飙升。尽管去年人工智能的私人投资总额有所下降,但生成式人工智能的资金激增,与2022年相比增加了近8倍,达到252亿美元。生成式人工智能领域的主要参与者,包括Open AI、Anthropic、Hugging Face和Inflection,都对外公布了大量的融资轮次。


图7:人工智能不同方式的融资情况

图8:人工智能私人投资情况

图9:生成式人工智能私人投资情况


美国已经成为人工智能领域的领先者,但在人工智能私人投资方面进一步领先。2023年,美国的人工智能投资达到了672亿美元,是第二高的投资者中国近8.7倍。自2013年以来,在私人人工智能投资中,国家排名保持不变:美国为3,352亿美元,其次是中国,为1,037亿美元,英国为223亿美元。自2022年以来,中国和包括英国在内的欧盟的私人人工智能投资分别下降了44.2%和14.1%,而美国在同期显著提升了22.1%,美国和其他地区之间的私人投资差距随着时间的推移而扩大。不同区域生成式人工智能私人投资的差异尤为明显,在2022年,美国在生成式人工智能方面的投资超过了欧盟和英国的联合投资约19亿美元,到2023年,这一差距扩大到211亿美元。自2022年以来,美国、欧盟和英国的新设人工智能公司数量大幅增加,而中国则同比略有下降。


图10:2023年人工智能不同国家投资情况

图11:不同国家新设人工智能公司数量变化情况


2023年吸引投资最多的重点领域是人工智能基础设施/研究/治理(183亿美元);其次是NLP和客户支持(81亿美元);再次是以及数据管理和处理(55亿美元)。人工智能基础设施、研究和治理的突出地位反映了对专门构建人工智能应用程序的公司的大量投资,如OpenAI、Anthropic和Inflection。人工智能基础设施/研究/治理的显著增长主要是由对美国的投资驱动的。美国在几乎所有重点领域的投资速度都明显超过了中国、欧盟和英国。一个明显的例外是面部识别,2023年在美国的投资总额为9000万美元,在中国为1.3亿美元。同样,在半导体投资方面,中国(6.3亿美元)也略落后于美国(7.9亿美元)。


2022年,人工智能相关职位占美国所有工作岗位的2.0%,这一数字在2023年下降到1.6%。人工智能岗位招聘数量的减少是由于主要人工智能公司的职位减少,以及这些公司中技术岗位比例减少。2023年,几项研究评估了人工智能对劳动力的影响,表明人工智能能够让员工更快地完成任务,并提高他们的产出质量。这些研究还证明了人工智能在弥合不同技能水平的员工之间的技能差距方面的潜力。还有一些研究警告说,在没有适当监督的情况下使用人工智能可能会导致工作效率的下降。每年,Stack Overfow都会对使用他们的工具的专业开发人员社区进行调查,最新的调查调查了9万多名开发者的收入,这些受访者并不只使用人工智能,一个云基础设施工程师的全球平均工资为10.5万美元。在美国,该职位的平均工资是18.5万美元。在全球和美国,薪酬最高的职位都是高级管理人员,其次是工程经理。对于所有接受调查的职位,美国的工资都明显高于其他国家。


麦肯锡调查显示,55%的组织至少在一个业务单元或功能中使用人工智能(包括生成式人工智能),高于2022年的50%和2017年的20%。同比增长最显著的是欧洲,使用率增长了9%。北美仍然是使用人工智能的领先者。大中华区的人工智能使用率也显著上升,比前一年增长了7%。42%的受调查机构报告实施人工智能(包括生成式人工智能)降低了成本,与前一年相比,报告成本下降的受访者增加了10%,最常节省成本的领域是制造业(55%)和服务运营(54%);59%的机构报告收入有所增长,从人工智能中受益最多的包括制造业(66%)、市场营销和销售(65%)。这表明人工智能正在推动业务效率的显著提高。


在过去的十年里,工业机器人[3]的安装和使用都在稳步增加。自2013年超过日本成为工业机器人的领先安装供应商以来,中国显著扩大了与最接近的竞争国家的差距,2022年中国装机量是日本的5.8倍,是美国的7.4倍。2013年,中国的装机容量占全球总量的20.8%,到2022年,这一比例上升至52.4%。自2021年以来,中国安装的工业机器人数量超过了世界其他国家的总和,去年的差距进一步扩大。这一日益扩大的差距凸显出中国在工业机器人安装方面日益增长的主导地位。2017年,协作机器人(collaborative robots)仅占所有新工业机器人安装总数的2.8%,到2022年,这一数字攀升至9.9%。同样,2022年,除医疗机器人外,所有应用类别的服务机器人安装数量都有所上升,电气/电子领域应用最多,其次是汽车领域。这一趋势不仅表明机器人安装数量的总体增加,而且越来越重视部署机器人。截至2022年,美国在专业服务机器人制造商数量方面领先,大约是排名第二的中国2.06倍。


5. 科学和医疗


2022年,人工智能开始应用于推进科学发现。2023年,更重要的科学相关人工智能应用的推出——从提高算法排序效率的AlphaDev到促进材料发现过程的GNoME。2023年,启动了几个重要的医疗系统,包括增强流行病预测的EVEscape和用于人工智能驱动的突变分类(mutation classification)的AlphaMissence。人工智能正被越来越多地用于推动医疗领域的进步。2022年,FDA批准了139种与人工智能相关的医疗设备,较2021年增长了12.1%。自2012年以来,FDA批准的人工智能相关医疗设备的数量增加了45倍以上。人工智能正越来越多地被用于现实世界的医疗目的。


6. 教育


人工智能博士向工业的迁移仍在加速。2011年,新的人工智能博士在工业界(40.9%)和学术界(41.6%)获得的工作岗位的比例大致相同。然而,到2022年,毕业后加入工业界的比例(70.7%)明显高于进入学术界的比例(20.0%)。2019年,美国和加拿大13%的人工智能新教师来自工业界。到2021年,这一数字已经下降到了11%,而到了2022年,它又进一步下降到了7%。这一趋势表明,高水平的人工智能人才从工业界向学术界的迁移逐渐减少。


7. 政策与治理


在过去一年和过去五年中,美国与人工智能相关的法规的数量显著增加。2023年,有25项与人工智能相关的法规,高于2016年的1项。仅去年一年,与人工智能相关的法规总数就增长了56.3%。2023年,大西洋两岸的政策制定者都提出了大量的人工智能监管提案。欧盟就《人工智能法案》的条款达成了协议,这是2024年颁布的一项具有里程碑意义的立法。与此同时,拜登总统签署了一项关于人工智能的行政命令,这是当年美国最著名的人工智能政策倡议。2023年,美国联邦层面的人工智能相关立法显著增加,提出了181项法案,是2022年(88项法案)的两倍多。发布人工智能法规的美国监管机构数量从2022年的17家增加到2023年的21家,这表明美国监管机构对人工智能监管的担忧日益加剧。2023年首次颁布了AI相关法规的一些新监管机构包括美国运输部、能源部和职业安全与健康管理局。随着时间的推移,美国的人工智能监管的趋势已经明显转向了限制性监管,在2023年,有10项限制性的人工智能法规,而只有3项是扩张性的(expansive)。相反,在2020年,有四项法规是扩张性的,一个是限制性的。在与人工智能相关的监管中,最普遍的主题是对外贸易和国际金融。


图12:2016年-2023年各国家通过法律的人工智能相关法案数量



2

评述


随着人工智能的快速发展,人工智能指数报告旨在帮助人工智能社区、政策制定者、商业领袖、记者和普通公众驾驭这一复杂的局面。它提供了持续、客观的快照,跟踪几个关键领域:人工智能能力的技术进步,推动人工智能开发和部署的社区和投资,关于当前和潜在未来影响的公众舆论,以及在管理风险和挑战的同时刺激人工智能创新的政策措施。[4]


IBM同样发布了对于2024年人工智能发展趋势的报告,[5]与斯坦福《2024年人工智能指数报告》相比,更多地从AI应用与商业领域提出了相关趋势,也值得关注,下文将予以概述。


2022年是生成式人工智能爆发进入公众意识的一年,2023年是它开始在商业世界中扎根的一年。IBM认为2024年将是人工智能未来的关键一年,因为研究人员和企业正在寻求确定如何将这种技术上的进化飞跃最实际地融入我们的日常生活。


生成式人工智能已经进入了“业余爱好者”(hobbyist)阶段,与计算机一样,进一步的进展旨在以更小的封装获得更高的性能。2023年,具有开放许可的越来越高效的基础模型呈爆炸式增长,首先是Meta的LlaMa系列大型语言模型的推出,随后是StableLM、Falcon、Mistral和Llama2等。DeepFloyd和StableDiffusion已经与领先的闭源模型势均力敌。通过开源社区开发的微调技术和数据集的增强,许多开放模型现在可以在大多数基准测试中优于除最强大的闭源模型之外的所有模型,尽管参数数量要少得多。


下一波人工智能进步不仅将集中在提高特定领域的性能上,还将集中在可以将多种类型的数据作为输入的多模态模型上。虽然跨不同数据模式运行的模型并不是一个严格的新现象——像CLIP这样的文本到图像模型和像Wave2Vec这样的语音到文本模型已经存在多年了——但它们通常只在一个方向上运行,并且经过训练以完成特定任务。


模型优化将变得越来越容易。开源社区最近的成果很好地满足了最大化模型性能的趋势。许多关键的进步不仅是由新的基础模型推动的,而且是由用于训练、调整、微调或调整预训练模型的新技术和资源(如开源数据集)推动的。2023年流行的值得注意的模型无关技术包括:低秩适应(LoRA)、量化、直接偏好优化(DPO)。


2024年的企业可以通过定制模型开发来追求差异化,而不是围绕“大人工智能”的重新包装服务构建包装器。借助正确的数据和开发框架,现有的开源 AI模型和工具几乎可以针对任何真实场景进行定制,从客户支持使用到供应链管理再到复杂的文档分析。开源模型为组织提供了快速开发强大的自定义AI模型的机会,这些模型根据其专有数据进行训练并针对其特定需求进行了微调,而无需进行昂贵的基础设施投资。这在法律、医疗保健或金融等领域尤其重要,在这些领域中,基础模型可能无法在预训练中学习高度专业化的词汇和概念。法律、金融和医疗保健行业也是可以从足够小的模型中受益的典型例子,这些模型可以在适度的硬件上本地运行。将AI训练、推理和检索增强生成(RAG)保持在本地,可以避免专有数据或敏感个人信息被用于训练闭源模型或以其他方式通过第三方手中的风险。使用RAG访问相关信息,而不是直接将所有知识存储在LLM本身中,有助于减小模型大小,进一步提高速度并降低成本。



3

结语


《2024年人工智能指数报告》有助于了解和适应新兴趋势,这对于最大限度地发挥潜力、最大限度地降低风险和负责任地扩大生成式人工智能的应用至关重要。《2024年人工智能指数报告》中展现了中国在人工智能领域的全球第一梯队实力,中国工业机器人的装机数量全球遥遥领先,但同时在开发和资金投入和美国等国家与地区仍存在一定差距,需要结合实际制定逐步提升的战略。




[1] Nestor Maslej, Loredana Fattorini, Raymond Perrault, Vanessa Parli, Anka Reuel, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Russell Wald, and Jack Clark, “The AI Index 2024 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2024.

[2] 该报告将隐私定义为个人对其个人数据进行保密、匿名和保护的权利,以及他们同意并被告知其数据是否以及如何被使用的权利。

[3] 工业机器人被定义为“自动控制、可编程、多用途机械手,可编程在三个或更多轴,可以固定或移动用于工业自动化应用。”

[4] Narayan Prasad Ghimire, AI Index Report-2024: AI still behind human on complex tasks like competition-level mathematics, April 16, 2024, https://risingnepaldaily.com/news/41637.

[5] Dave Bergmann, The most important AI trends in 2024, February 9, 2024, https://www.ibm.com/blog/artificial-intelligence-trends/.



撰稿 | 潘天赐,清华大学智能法治研究院实习生

选题&指导 | 刘云

编辑 | 王欣辰


注:本公众号原创文章的著作权均归属于清华大学智能法治研究院,需转载者请在本公众号后台留言或者发送申请至computational_law@tsinghua.edu.cn,申请需注明拟转载公众号/网站名称、主理者基本信息、拟转载的文章标题等基本信息。

继续滑动看下一个
清华大学智能法治研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存