斯坦福《2024年人工智能指数报告》

chatGPT 主写 Renee 创业随笔

2024-10-09

前天，斯坦福大学发布了《2024年人工智能指数报告》（Artificial Intelligence Index Report 2024）。

点击以下链接查看报告全文：https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

以下是对报告的简要摘要，欲了解更多详情，请自行下载上述链接的报告。

报告简介

欢迎阅读第七版人工智能指数报告。2024年的报告是我们迄今为止最全面的一版，发布于人工智能对社会影响前所未有的重要时刻。本年度，我们扩大了研究范围，更广泛地覆盖了诸如人工智能技术进步、公众对此技术的看法以及围绕其发展的地缘政治动态等关键趋势。本版报告包含了比以往任何时候都多的原始数据，新增了关于人工智能培训成本的估算、负责任的人工智能景观的详细分析，以及全新的章节，专注于人工智能对科学和医学的影响。人工智能指数报告汇总、提炼并可视化与人工智能相关的数据。我们的使命是提供经过严格审核、来源广泛的客观数据，以便政策制定者、研究人员、企业高管、记者以及公众能够更全面、更细致地理解人工智能这一复杂领域。该指数在全球范围内被认为是最可信且权威的人工智能数据和洞察来源之一。以往的版本在《纽约时报》、《彭博社》和《卫报》等主要报纸上被引用，获得了数百次学术引用，并被美国、英国、欧盟等地的高层政策制定者参考。今年的版次在规模、范围上均超过以往任何一版，反映出人工智能在我们所有人的生活中的日益重要性。

Top 10 Takeaways

AI的局限性与超越：人工智能在某些任务上已超越人类，如图像分类、视觉推理和英语理解等领域。然而，在竞赛级数学、视觉常识推理和规划等更复杂的任务上，AI的表现仍然落后。
工业对前沿AI研究的主导地位：2023年，工业界产出了51个显著的机器学习模型，而学术界仅贡献了15个。此外，由工业界和学术界合作产生的显著模型达到了21个，创下新高。
前沿模型的成本急剧上升：据人工智能指数估计，最先进的AI模型的培训成本已达到前所未有的水平。例如，OpenAI的GPT-4的训练成本估计为7800万美元，而谷歌的Gemini Ultra的计算成本为1.91亿美元。
美国在顶尖AI模型开发中领先：2023年，有61个重要的AI模型起源于美国机构，远超欧盟的21个和中国的15个。
对LLM责任性的评估缺乏严格与标准化：最新研究显示，负责任的AI报告在标准化方面存在显著不足。包括OpenAI、Google和Anthropic在内的领先开发者主要针对不同的负责任AI基准测试他们的模型，这种做法使得系统性比较顶尖AI模型的风险和局限变得复杂。
生成型AI的投资激增：尽管去年整体的人工智能私人投资有所下降，但生成型AI的融资额却激增，从2022年起几乎增长了八倍，达到252亿美元。包括OpenAI、Anthropic、Hugging Face和Inflection等主要企业报告了大规模的筹资轮。
数据显示：AI提升工作效率与质量：2023年的多项研究评估了AI对劳动力的影响，结果表明AI帮助工作者更快完成任务并提高了工作质量。这些研究还展示了AI在缩小低技能与高技能工作者之间技能差距的潜力。然而，其他研究警告称，未经适当监管使用AI可能会导致性能下降。
AI进一步加速科学进展：2022年，AI开始推动科学发现。到了2023年，更多重大的科学相关AI应用问世——从提高算法排序效率的AlphaDev到促进材料发现的GNoME。
美国AI相关法规的数量大幅增加：过去一年，以及过去五年内，美国的AI相关法规数量显著增加。2023年，AI相关法规达到25项，较2016年的仅1项法规大幅上升。仅去年一年，AI相关法规的总数就增长了56.3%。
全球对AI影响的认识加深，同时担忧也增加：Ipsos的一项调查显示，过去一年内认为AI将在未来三到五年内极大影响其生活的人的比例从60%增加到66%。此外，52%的人对AI产品和服务表示担忧，较2022年上升了13个百分点。在美国，Pew的数据表明52%的美国人对AI感到的担忧超过了兴奋感，从2022年的37%上升。

分章节内容

本报告共分9个章节。每个章节的内容：

第一章：研究与开发

工业界对前沿AI研究的主导地位持续：2023年，工业界推出了51个显著的机器学习模型，而学术界贡献了15个。此外，由工业界和学术界合作产生的显著模型达到了21个，创下新高。
更多基础模型及更多开放源代码的基础模型：2023年共发布了149个基础模型，是2022年的两倍多。在这些新发布的模型中，65.7%为开源模型，相比之下，2022年和2021年的比例分别为44.4%和33.3%。
前沿模型的成本显著上升：根据人工智能指数的估计，最先进AI模型的训练成本达到了前所未有的水平。例如，OpenAI的GPT-4的训练成本估计为7800万美元，谷歌的Gemini Ultra的计算成本为1.91亿美元。
美国在顶尖AI模型开发中领先：2023年，有61个重要的AI模型起源于美国机构，远超欧盟的21个和中国的15个。
AI专利数量急剧增加：从2021年到2022年，全球AI专利授权数量增长了62.7%。自2010年以来，授予的AI专利数量增加了超过31倍。
中国在AI专利上占据主导地位：2022年，中国以61.1%的比例领先全球AI专利来源，大幅领先美国的20.9%。自2010年以来，美国在AI专利领域的份额已从54.1%下降。
开源AI研究迅猛增长：自2011年以来，GitHub上的AI相关项目数量持续增加，从2011年的845个增长到2023年的约180万个。特别是2023年，GitHub上的AI项目总数增长了59.3%。同时，这些项目在GitHub上的总星标数量在2023年也显著增加，从2022年的400万增至1220万。
AI出版物数量持续增长：从2010年到2022年，AI相关出版物的总数几乎增加了三倍，从约88000增加到超过240000。过去一年中，这一增长率为1.1%。

第二章：技术性能

AI在某些任务上超越人类，但非所有任务都如此。AI已在多个基准测试中超越人类表现，包括图像分类、视觉推理和英语理解等。然而，在更复杂的任务如竞赛级数学、视觉常识推理和规划等方面仍然落后。
多模态AI的兴起。传统的AI系统通常功能单一，例如语言模型擅长文本理解但在图像处理方面表现不佳，反之亦然。然而，最近的进步促成了强大的多模态模型的开发，如谷歌的Gemini和OpenAI的GPT-4。这些模型展示了灵活性，能够处理图像和文本，并且在某些情况下甚至能处理音频。
更难的基准测试出现。随着AI模型在既定的基准测试如ImageNet、SQuAD和SuperGLUE上达到性能饱和，研究者们推出了更具挑战性的新基准测试。2023年出现的新基准包括SWE-bench用于编程、HEIM用于图像生成、MMMU用于一般推理、MoCa用于道德推理、AgentBench用于基于代理的行为，以及HaluEval用于幻觉。
更好的AI意味着更好的数据，进而意味着……更好的AI。新的AI模型如SegmentAnything和Skoltech被用来生成专门的数据，用于任务如图像分割和3D重建。数据是AI技术改进的关键。利用AI创建更多数据增强了当前的能力，并为将来的算法改进铺平了道路，特别是在更困难的任务上。
引入人类评估。随着生成模型产生高质量的文本、图像等，基准测试逐渐开始转向包括人类评估，如Chatbot Arena排行榜，而非纯计算化的排名如ImageNet或SQuAD。公众对AI的感受正成为跟踪AI进展的一个日益重要的考量因素。
得益于LLMs，机器人变得更加灵活。语言建模与机器人技术的融合催生了更灵活的机器人系统，如PaLM-E和RT-2。这些模型除了提升了机器人能力外，还能提出问题，这标志着向能与现实世界更有效互动的机器人迈进了重要一步。
代理AI的技术研究增加。长期以来，创建能在特定环境中自主操作的AI代理系统一直是计算机科学家的挑战。然而，新兴研究表明，自主AI代理的性能正在改善。目前的代理可以掌握如Minecraft这样的复杂游戏，并有效地处理真实世界任务，如在线购物和研究协助。
封闭LLMs显著超越开放模型。在10个精选的AI基准测试中，封闭模型的表现超过了开放模型，中位数性能优势为24.2%。封闭与开放模型在性能上的差异对AI政策辩论具有重要影响。

第三章：负责任的AI

对LLM责任性的评估缺乏严格与标准化。最新研究显示，负责任的AI报告在标准化方面存在显著不足。包括OpenAI、Google和Anthropic在内的领先开发者主要针对不同的负责任AI基准测试他们的模型，这种做法使得系统性比较顶尖AI模型的风险和局限变得复杂。
政治深伪视频易制难辨。政治深伪视频已经在全球范围内影响选举，最近的研究表明，现有的AI深伪视频方法的准确性各异。此外，如CounterCloud这样的新项目展示了AI如何轻易地创造和传播虚假内容。
研究人员发现LLM存在更复杂的漏洞。以往，对AI模型的红队测试主要集中在测试对人类直观有意义的对抗性提示。今年，研究人员发现了一些不太明显的策略，这些策略可以使LLM展示出有害行为，如让模型无限重复随机词汇。
全球企业日益关注AI带来的风险。一项关于负责任AI的全球调查突出显示，公司最关注的AI相关问题包括隐私、数据安全和可靠性。调查显示，各组织开始采取措施减轻这些风险。然而，全球范围内，大多数公司迄今为止只解决了这些风险的一小部分。
LLM可能输出版权材料。多项研究表明，流行的LLM的生成输出可能包含版权材料，如《纽约时报》的摘录或电影场景。这种输出是否构成版权侵犯，正成为一个中心法律问题。
AI开发者在透明度方面表现不佳，对研究产生影响。新引入的基础模型透明度指数显示，AI开发者在透明度上尤其是在培训数据和方法论的披露方面存在不足。这种不开放的态度阻碍了进一步理解AI系统的稳健性和安全性的努力。
极端AI风险难以分析。过去一年中，AI学者和实践者之间就立即模型风险（如算法歧视）与潜在的长期存在威胁之间的关注点展开了大量讨论。科学基础的主张与应通知政策制定的主张难以区分，这一挑战由短期风险的具体性与长期存在威胁的理论性所加剧。
AI事件数量持续增加。根据追踪AI滥用相关事件的AI事件数据库，2023年报告了123起事件，较2022年增长了32.3个百分点。自2013年以来，AI事件增长了超过二十倍。其中一个显著的例子包括广泛在线分享的AI生成的Taylor Swift性暗示深伪视频。
ChatGPT存在政治偏见。研究人员发现ChatGPT在美国偏向民主党，在英国偏向工党。这一发现引发了对该工具可能影响用户政治观点的担忧，特别是在全球重大选举标志的一年中。

第四章：经济

生成型AI投资激增。尽管去年整体的人工智能私人投资有所下降，但生成型AI的融资额却激增，从2022年起几乎增长了八倍，达到252亿美元。包括OpenAI、Anthropic、Hugging Face和Inflection等主要企业报告了大规模的筹资轮。
美国在AI私人投资方面进一步领先。2023年，美国的AI投资总额达到672亿美元，几乎是次高投资国中国的8.7倍。与此同时，自2022年以来，中国和欧盟（包括英国）的私人AI投资分别下降了44.2%和14.1%，而美国的投资增长了22.1%。
美国及全球AI相关职位减少。2022年，AI相关职位占美国所有职位发布的2.0%，到2023年这一比例降至1.6%。AI职位列表的减少归因于领先AI公司发布的职位减少及这些公司内技术角色的比例下降。
AI降低成本并增加收入。一项新的麦肯锡调查显示，42%的受访组织报告实施AI（包括生成型AI）后成本有所降低，59%的组织报告收入增加。与去年相比，报告成本下降的受访者增加了10个百分点，表明AI正在推动显著的业务效率提升。
AI私人投资总额再次下降，而新资助的AI公司数量增加。全球私人AI投资已连续第二年下降，尽管这一下降幅度小于从2021年到2022年的急剧减少。新资助的AI公司数量激增至1812家，比去年增长了40.6%。
组织对AI的采用率小幅上升。2023年的麦肯锡报告揭示，现在有55%的组织在至少一个业务单元或功能中使用AI（包括生成型AI），较2022年的50%和2017年的20%有所增加。
中国在工业机器人领域占据主导地位。自2013年超越日本成为全球最大的工业机器人安装国以来，中国与最接近的竞争国家之间的差距已显著扩大。2013年，中国的安装量占全球总量的20.8%，到2022年这一比例上升到了52.4%。
机器人安装呈现更大多样性。2017年，协作机器人仅占所有新工业机器人安装的2.8%，这一数字到2022年升至9.9%。同样，2022年服务机器人在除医疗机器人外的所有应用类别中的安装数量也有所增加。这一趋势不仅表明机器人安装总量的增加，还反映了对部署面向人类服务角色的机器人的日益重视。
数据显示：AI提升工作效率与质量。2023年的多项研究评估了AI对劳动力的影响，结果表明AI帮助工作者更快完成任务并提高了工作质量。这些研究还展示了AI在缩小低技能与高技能工作者之间技能差距的潜力。然而，其他研究警告称，未经适当监管使用AI可能会导致性能下降。
《财富》500强企业开始频繁提及AI，尤其是生成型AI。2023年，在394次收益电话会议中提到了AI（几乎占所有《财富》500强公司的80%），较2022年的266次明显增加。自2018年以来，《财富》500强企业收益电话会议中提及AI的次数几乎翻倍。其中，最常被提及的主题是生成型AI，占所有电话会议的19.7%。

第五章：科学与医学

AI进一步加速科学进展。2022年，AI开始推动科学发现。2023年，更多重大的科学相关AI应用问世——从提高算法排序效率的AlphaDev到促进材料发现的GNoME。
AI显著推动医学前进。2023年，推出了几个重要的医学系统，包括增强流行病预测能力的EVEscape和协助AI驱动的突变分类的AlphaMissence。AI越来越多地被用于推动医学进步。
高度知识化的医学AI已经到来。在过去几年中，AI系统在MedQA基准测试上显示了显著改进，这是评估AI临床知识的关键测试。2023年的杰出模型GPT-4 Medprompt的准确率达到90.2%，比2022年最高分提高了22.6个百分点。自2019年该基准测试推出以来，AI在MedQA上的表现几乎增加了三倍。
FDA批准的AI相关医疗设备数量持续增加。2022年，FDA批准了139种AI相关医疗设备，比2021年增加了12.1%。自2012年以来，FDA批准的AI相关医疗设备数量增加了超过45倍。AI越来越多地被用于实际医疗用途。

第六章：教育

美国和加拿大的计算机科学本科毕业生数量持续增长，硕士毕业生数量相对平稳，博士毕业生略有增长。尽管美国和加拿大的计算机科学本科毕业生数量在过去十多年中持续增长，但选择继续攻读研究生学位的学生数量已趋于平稳。自2018年以来，计算机科学硕士和博士毕业生的数量略有下降。
AI博士生向工业界的迁移趋势加速。2011年，选择进入工业界（40.9%）和学术界（41.6%）的新AI博士生比例大致相等。然而到了2022年，大部分（70.7%）博士生毕业后加入工业界，而选择进入学术界的只有20.0%。仅在过去一年中，进入工业界的AI博士生比例就增加了5.3个百分点，显示出从大学到工业界的人才流失加剧。
学术界人才从工业界转移的趋势减少。2019年，美国和加拿大的新AI教师中有13%来自工业界。到2021年，这一数字降至11%，并在2022年进一步下降到7%。这一趋势表明高水平AI人才从工业界向学术界的迁移逐渐减少。
美国和加拿大的计算机科学教育变得较少国际化。2022年，国际计算机科学本科、硕士和博士毕业生的比例较2021年有所下降，尤其是硕士类别的国际学生数量下降尤为明显。
更多美国高中生学习计算机科学，但访问问题依然存在。2022年，进行了201,000次AP计算机科学考试。自2007年以来，参加这些考试的学生数量增加了十倍以上。然而，最近的证据表明，大型高中和郊区学校的学生更有可能有机会接触计算机科学课程。
国际上相关的AI学位课程数量在增加。自2017年以来，以英语授课的AI相关的高等教育学位课程数量已增加三倍，过去五年中每年都稳定增长。全球的大学都在提供更多以AI为重点的学位课程。
英国和德国在欧洲信息学、计算机科学、计算机工程和信息技术毕业生生产中领先。英国和德国在欧洲生产信息学、计算机科学、计算机工程和信息技术的本科、硕士和博士毕业生数量上处于领先地位。按人均基础计算，芬兰在本科和博士毕业生的生产上领先，而爱尔兰在硕士毕业生的生产上领先。

第七章：政策与治理

美国AI相关法规的数量大幅增加。过去一年，以及过去五年内，美国的AI相关法规数量显著增加。2023年，AI相关法规达到25项，较2016年的仅1项法规大幅上升。仅去年一年，AI相关法规的总数就增长了56.3%。
美国和欧盟推进具有里程碑意义的AI政策行动。2023年，大西洋两岸的政策制定者提出了推进AI法规的重大提案。欧洲联盟在AI法案的条款上达成了协议，这是2024年颁布的一项具有里程碑意义的立法。与此同时，拜登总统签署了关于AI的行政命令，这是那一年美国最引人注目的AI政策倡议。
AI吸引了美国政策制定者的高度关注。2023年，在联邦层面上关于AI的立法提案显著增加，提出的法案数量从2022年的88项增加到181项，超过一倍。
全球政策制定者频繁讨论AI。全球立法程序中提到AI的次数几乎翻倍，从2022年的1,247次增加到2023年的2,175次。2023年，共有49个国家在立法程序中提及AI。此外，2023年每个大陆至少有一个国家讨论了AI，突显了AI政策话语的全球影响。
更多监管机构开始关注AI。2023年发布AI法规的美国监管机构数量从2022年的17个增加到21个，显示出越来越多的美国监管机构对AI法规的关注。2023年首次制定AI相关法规的新监管机构包括交通部、能源部和职业安全健康管理局。

第八章：多样性

美国和加拿大的计算机科学学位学生种族多样性持续增长。虽然白人学生在本科、硕士和博士各层级的新居民毕业生中依然占比最高，但其他种族群体，如亚洲人、西班牙裔和黑人或非裔美国人学生的代表性不断增加。例如，自2011年以来，亚裔计算机科学本科毕业生的比例增加了19.8个百分点，西班牙裔本科毕业生的比例增长了5.2个百分点。
欧洲信息学、计算机科学、计算机工程和信息技术领域在所有教育层次上存在显著的性别差距。调查的每个欧洲国家都报告说，在信息学、计算机科学、计算机工程和信息技术的本科、硕士和博士项目中，男性毕业生数量超过女性毕业生。尽管过去十年大多数国家的性别差距有所缩小，但缩小的速度缓慢。
美国K-12级别的计算机科学教育变得更加多样化，反映了性别和种族代表性的变化。参加AP计算机科学考试的女性学生比例从2007年的16.8%增加到2022年的30.5%。同样，亚洲学生、西班牙裔/拉丁裔学生和黑人/非裔美国学生参加AP计算机科学的比例也在逐年稳定增加。

第九章：公众意见

全球范围内人们对AI的潜在影响更加警觉且感到不安。Ipsos的一项调查显示，过去一年中，认为AI将在未来三到五年内极大影响其生活的人的比例从60%增加到66%。此外，52%的人对AI产品和服务表示担忧，较2022年上升了13个百分点。在美国，Pew的数据表明52%的美国人对AI感到的担忧超过了兴奋感，从2022年的38%上升。
西方国家对AI的态度虽低但正在慢慢改善。2022年，包括德国、荷兰、澳大利亚、比利时、加拿大和美国在内的几个发达西方国家对AI产品和服务的态度最不积极。从那时起，这些国家中每一个都见证了认可AI益处的受访者比例的上升，其中荷兰的变化最为显著。
公众对AI的经济影响持悲观态度。在Ipsos的一项调查中，只有37%的受访者认为AI将改善他们的工作。只有34%的人预期AI将促进经济，32%的人认为它将改善就业市场。
在AI乐观主义方面出现人口统计学差异。在AI潜在提高生活水平的看法上，存在显著的人口统计学差异，年轻一代普遍更加乐观。例如，59%的Z世代受访者认为AI将改善娱乐选择，而只有40%的婴儿潮一代这样认为。此外，收入和教育水平较高的个体对AI对娱乐、健康和经济的积极影响更加乐观，与他们收入较低和教育程度较低的同龄人相比。
ChatGPT广为人知且广泛使用。多伦多大学的一项国际调查显示，63%的受访者知道ChatGPT。在这些已知晓的人中，约一半的人报告至少每周使用ChatGPT一次。

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

斯坦福《2024年人工智能指数报告》

报告简介

Top 10 Takeaways

分章节内容

第一章：研究与开发

第二章：技术性能

第三章：负责任的AI

第四章：经济

第五章：科学与医学

第六章：教育

第七章：政策与治理

第八章：多样性

第九章：公众意见

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

斯坦福《2024年人工智能指数报告》

报告简介

Top 10 Takeaways

分章节内容

第一章：研究与开发

第二章：技术性能

第三章：负责任的AI

第四章：经济

第五章：科学与医学

第六章：教育

第七章：政策与治理

第八章：多样性

第九章：公众意见

您可能也对以下帖子感兴趣