AI 模型评估指南:人工智能最擅长什么,进化速度有多快?
随着全球顶尖实验室竞相实现通用人工智能(AGI),我们正见证AI在复杂任务上超越人类的惊人成就。
尽管AI在说服力、情感评估和创意产生方面展现了卓越能力,离完全超越人类仍有一段路要走。未来的AGI可能彻底变革多个行业,开启一场前所未有的认知革命。
除了OpenAI之外,全世界许多最重要的人工智能实验室的明确目标是实现通用人工智能(AGI),我们有必要认真思考:我们何时(如果能的话)能够实现AGI(通用智能),即“在所有任务上都比人类表现更好的智能”。
大多数计算机科学家认为实现这种AGI是可能的,但在实现方法和时间表上存在很大的分歧。在2023年对计算机科学家进行的一项调查中,预计实现AGI的平均时间是2047年,但同一调查还指出,到2027年实现AGI的概率为10%。
无论未来如何发展,但目前的现实是,我们还没有一款AI能够比人类更好地完成所有任务,甚至大多数任务。但这并不意味着人工智能在一些极其复杂的工作中没有达到或超越人类的水平。在某些领域中,人工智能的表现惊人,特别是在那些需要同理心和判断力的“人性化”任务中。例如:
如果你与人工智能辩论,他们说服你接受特定观点的可能性比普通人类高出87%。
GPT-4可以帮助人们重新评估人类情绪状况,其效果优于85%的人类,在评估的有效性、新颖性和同理心方面击败了人类。
GPT-4产生的创业想法被专家认为比受过培训的商学院学生的想法更好。
人工智能在32个案例中的28个击败了初级医生,其他4个与人类持平,同时AI在同理心和判断力上获胜。
一、AI基准测试
自从2022年下半年,ChatGPT发布,开启了大模型的军备竞争。两年不到的时间,全球各地成百上千个大模型纷纷面世,宣称取得新的突破。一个现实的问题就是,我们如何知道人工智能真正擅长什么?我们如何知道它的进化速度有多快?
其中一种方法就是对人工智能进行基准测试。这正是OpenAI在发布GPT-4时所做的,展示了GPT-3.5和GPT-4之间的巨大差异。纵轴显示的不是考试成绩,而是被人工智能击败的人类考生的百分比。相当令人印象深刻!
但值得注意的是这种方法也存在缺陷。
首先,这些测试中的一些问题可能包含在AI的训练数据中,这实际上让它能够“提前记住”答案(这一问题称为“过度拟合”overfitting)。
其次,对人工智能进行人类一样的考试难度也比较大。以AI在律师资格考试中得分达到第90百分位为例。一篇新的论文详细研究了这个分数,发现了AI与人类比较时存在的许多问题,并最终得出结论,经过适当的提示,GPT-4总体上应该处于第69百分位(而不是第90百分位),在通过考试的学生中则处于第48百分位。这个成绩仍然非常好,并且能够通过律师资格考试,但并非像媒体报道的那么好。此外,考试成绩仍然是比较单一的衡量标准,我们都知道通过律师资格考试并不代表你是一名优秀的律师。
基准测试的另一个问题是,它们并不能帮助我们理解人工智能是否真正接近AGI。为此,我们需要随着时间推移的基准测试。
人工智能领域有很多基准测试,几乎所有基准测试都集中在编码技能上(因为人工智能实验室里的程序员,更关注AI的编码能力)或是一般知识测试(general knowledge)。
最常见的基准测试是MMLU(Measuring Massive Multitask Language Understanding ),它由约 16,000 个多项选择题组成,涵盖数学、哲学、法律和医学等 57 个学科。它是比较大型语言模型功能最常用的基准之一。MMLU 由一组研究人员于 2020 年发布,其设计比当时的基准(例如 GLUE (2018))更具挑战性。此外还有10几个基准测试比较常见,具体参见微软亚洲研究院的研究员介绍大模型评测领域的综述文章《A Survey on Evaluation of Large Language Models》。
AI研究员Maxime Labonne提供的这张各大模型在MMLU中的表现图表很重要,我们会发现:
目前有许多大型语言模型(LLMs),您可能听说过 GPT-4、Gemini 和 Claude,但还有大量其他模型,其中大多数是“开放权重”(open weights)模型,这类似于开源。任何人都可以免费下载和使用开放权重模型,比较著名的有中国阿里巴巴推出的 Qwen、法国的 Mixtral 和阿布扎比的 Falcon。目前在开放权重模型领域占据主导地位的是 Meta 的 Llama 3 模型。
我们会发现人工智能的规模定律:人工智能模型越大(意味着需要更多的数据和更长的训练时间),人工智能的表现就越好。随着时间的推移,人工智能模型变得越来越大,性能越来越好,逐步超越业余水平并接近专家水准。
GPT-4 刚问世时表现异常,远远领先于其他模型,但随后出现了另外两个同级别的模型:Gemini Advanced 和 Claude 3 Opus。当然,OpenAI几天前最新发布的 GPT-4o 再次处于行业前列,但这次在文本质量并未取得大的突破,但是在速度和音频/视觉能力等多模态方面取得了重大进展。
由 Google、Anthropic 和 OpenAI 控制的闭源专有模型表现最佳,而开放权重模型则相对落后。不过,Meta 的最大版本开放权重模型 Llama 3 在 MMLU 测试中的得分高达 86%,达到了 GPT-4 的水平。
值得注意的是,现实情况往往更为复杂。AI模型可能会被训练测试中的问题,要么是无意,要么是为了在这些基准测试中获得高分,在国内俗称“刷榜”。此外,MMLU 测试内容非常奇特,而且测试本身未经校准,这意味着我们不知道从 84% 提高到 85% 的正确率是否与从 40% 提高到 41% 一样具有挑战性。
二、AI 进化不止
此外,我们还可以通过查看用于LLM评估的众包开放平台lmsys chatbot arena来评估AI模型。这个网站上,你可以输入提示词并比较两个不同大型语言模型(LLMs)的两个答案。这也是比较模型的一种相当不错的方法,因为它可以通过主观评估“共鸣”(Vibe)来衡量模型在超过一百万次对话中的表现。
该网站使用了最初为国际象棋棋手排名而开发的 ELO 评级系统,根据用户偏好来比较不同语言模型的性能。下图显示了这些模型在胜率方面的表现情况。尽管该测量方法与 MMLU 大不相同,但结果非常相似,据研究,ELO 和 MMLU 之间的相关性非常高(0.89)。
在几天前的GPT-4o发布之际,OpenAI CEO 奥特曼在个人Twitter上,转发公司技术人员对新模型的测试结果就是来自于lmsys chatbot arena。
只要训练大型语言模型的规模律继续保持下去,无论采用什么基准测试和衡量方法,随着时间的推移,人工智能能力的提升非常迅速,我们都会看到大模型都会不断进化,向上和向右移动,接近甚至超越人类的表现。
三、通用AI之路
人工智能在多个基准测试中击败人类的能力不断提升,这表明其具备超越人类的能力,但需要谨慎解读。
人工智能在某些任务上表现出色,而在其他任务上则表现不佳。面对诊断疾病、在辩论中说服人类或解析法律合同等复杂任务,AI的能力可能会迅速提高,达到超越人类的水平。但与之相关的任务,如人类律师和医生执行的某些工作,可能完全超出大型语言模型(LLMs)的能力范围。虽然它在某些任务上超过了人类,但并不意味着它能在所有相关工作上达到人类水平。尽管人工智能和人类可以执行一些类似的任务,但潜在的“认知”过程有根本的不同。
这表明,通用人工智能(AGI)标准——“一台机器可以比人类更好地完成任何任务”——可能会让我们忽视人工智能已经在某些领域超过人类的事实,也可能让我们误以为人类更容易被取代。直到大型语言模型(LLMs)变得更强大之前,在许多情况下,人工智能仍然需要与人类协同工作。因此,我们可能需要将 AGI 的发展分为不同的层次来考虑:
第一级:通用人工智能 (AGI)
能够在任何任务上超越人类的机器。
第二级:弱通用人工智能 (Weak AGI)
在某些特定的工作中,机器能够在其职责范围内的所有任务上超越普通的人类专家。目前没有实际存在的弱通用人工智能系统,但可以关注法律工作、某些类型的教练和客户服务等方面的发展。
第三级:专注人工智能 (Artificial Focused Intelligence)
在某一明确定义的重要且具有智力挑战的任务上,人工智能能够超越普通的人类专家。当人工智能达到这一水平时,人们宁愿咨询人工智能来寻求帮助,而不是随便找一个专家,尽管表现最好的专家仍然优于人工智能。我们很可能已经在医学、写作、法律、教育等多个领域达到了这一水平。问题在于缺乏明确的专业基准和研究,使得我们无法对人工智能与人类的比较进行准确评估。
第四级:协同智能 (Co-Intelligence)
人类与人工智能协同工作时,常常能够超越单独工作的最佳表现。当正确使用时,人工智能是人类的得力工具助手。在ChatGPT面世一年之后,以各类AI工具为代表的协同智能已经普遍存在于今天的各行各业和我们个人的日常生活之中。
最后,即使没有公认的AI评估最佳方法,随着人工智能在特定领域继续超越人类的能力,我们预计会看到从医疗保健、法律到金融等各个行业的重大颠覆。专注人工智能和协同智能系统的兴起会提高人类生产力,甚至改变生产关系,我们可能需要重新评估人类在决策中的作用。尽管通往真正通用人工智能的道路仍不确定,但一场全球范围内,影响全人类的认知革命正在进行。
硅谷科技评论(svtr.ai)AI创投社区覆盖人数超过10W,其中AI从业者超过10000人,大都来自全球科技大厂、顶尖投资机构和高潜创业企业。如果您有兴趣加入,或者成为我们的导师、顾问或是创业合伙人等,欢迎联系凯瑞(pkcapital2023),与一群志同道合的伙伴一起构建。文末扫码访问AI数据库和社群通讯录。
AI周报:
001 | 002 | 003 | 004 | 005 | 006 | 007 | 008 | 009 | 010 |
011 | 012 | 013 | 014 | 015 | 016 | 017 | 018 | 019 | 020 |
021 | 022 | 023 | 024 | 025 | 026 | 027 | 028 | 029 | 030 |
031 | 032 | 033 | 034 | 035 | 036 | 037 | 038 | 039 | 040 |
041 | 042 | 043 | 044 | 045 | 046 | 047 | 048 | 049 | 050 |
051 | 052 |
AI创投
+
AI行业
+
AI公司
+