👉 腾小云导读
3月,在 OpenAI 发布GPT-4之后,微软研究院随后发表了长达154页的GPT-4能力测评论文 Sparks of Artifificial General Intelligence: Early experiments with GPT-4。论文一发布,立刻引发轰动。论文基于 GPT-4 的文本生成(此时还没有多模态的能力),对它的视觉表达能力、跨领域能力、编程能力等进行了测试。与ChatGPT 进行了对比,论文总结了新模型各项能力的提升和部分缺点,作者认为这些缺陷是其自回归架构天生带来的。快来围观~在腾讯云开发者公众号后台回复 GPT4 ,即可领取本篇论文的中文版本和源文件。👉 看目录,点收藏
1.GPT-4 的能力
1.1 视觉能力
1.2 编程
1.3 算术能力
1.4 与现实世界的交互
2.GPT-4 自回归结构的局限性
3.社会影响
3.1 错误信息
3.2 谣言和操纵
3.3 对专业、工作和经济的冲击
4 总结
针对 GPT-4 各项能力的测试,本篇重点看相对 GPT-3.5 提升比较大的能力。其中与现实世界和人类的交互中所用的测试例子也很有趣,本篇也拿出来特别介绍一下。研究团队通过让模型生成绘图代码来验证模型是否能按照要求画图,并且清楚地知道他在画什么。让 GPT-4 和 ChatGPT 分别画一只独角兽,GPT-4 相比于 GPT-3.5 生成的几何图形更像一只独角兽。
用字母去组成一个火柴人,并且给火柴人穿上衣服,这种特殊的要求表明模型不是简单地记住训练集的代码并复制粘贴,而是模型还知道它画的是什么、怎么给小人在正确的位置添加上衣物。文中还有利用 JavaScript 画 2D 图和 3D 图,并可以按照指令对 3D 图中的各个元素进行操作,例如平移、旋转、添加和改变颜色。编程能力是 ChatGPT 从 code-davinci-003 模型继承过来的能力。ChatGPT已经能够应付 LeetCode 不同难度的代码题,并且能够根据一些简单的需求生成代码,这一能力在 GPT-4 上得到进一步的强化。文章从下面几个方面测试了GPT-4 模型的代码能力:从 LATEX 代码中提取数据并用 python 画出 pyplot 图标,再根据指示对画出的图标进行细化。此外,论文中还展示了让它按照要求开发一个 JavaScript 前端 3D 游戏、写一个自定义的 Pytorch 优化器、用不严格的 LATEX 代码混合自然语言,让模型生成正式的可执行 LATEX 代码等等案例。 |
反编译汇编代码、解释代码(例子如下)、模拟执行伪代码。 |
上述几个测试GPT-4 都很好地完成了,而且相较 GPT3.5 有了很大的提升(由于篇幅原因,每个能力仅贴上1个例子,更多细化的例子可以参考论文)。在去年 ChatGPT 刚发布的时候,算术能力是它的弱项之一。即使是普通的加法题都能算出错误的结果。到了 GPT-4 这一代,它的算术能力有了一定的长进,但是离专业的水平仍有很远的距离。如果要拿来辅助做一些数学研究,它是无法胜任的。从测试结果来看,GPT-4 在算数上的表现也很不稳定。有时候能回答出困难的高中水平数学题,也能在数学相关话题里扯上几句有意义的对话,但是有的时候却是前后矛盾,犯一些很基本的错误。GPT-4 能够很好地处理一些简单的应用题,逐步地给出解题思路。在三个数学题数据库(分别覆盖初级数学题,高中数学题和高等数学题)上,文章将三个模型做了对比,结果发现 GPT-4 在表现上都要优于其它两个。但是模型在 MATH 数据集上仍然表现很差,主要是犯了一些计算问题:一旦涉及到较大数值或者复杂的表述,模型就没法理清思路并给出正确结果。文章中甚至让 GPT-4 去解决一些更高难度的数学问题例如奥数题,跟 GPT-4 讨论 k-SAT 问题。一是测试 GPT-4 对部分常见工具的使用,包括搜索引擎、计算器、API 调用等;二是测试 GPT-4 的具身交互能力,即用自然语言去给模型描述和模拟环境,让模型给出反馈。具体如下:因为模型本身仍然缺乏足够的世界知识,不擅长处理符号计算等。所以体验者直接问它这些方面的知识,经常得到错误的答案。但是如果你用 Prompt 的形式告诉它,让它在需要的时候可以借用外部的命令或者 API 接口进行辅助回答,那么它会模拟出调用命令的回答,从而得到正确的答案。最近集成了 GPT-4 的新版 ChatGPT 也上架了插件商店,允许它在回答时调用插件的接口来访问外部数据。当然,这也印证了GPT-4有调用外界工具解决问题的能力。Create a manifest file and host it at yourdomain.com/.well-known/ai-plugin.json–The file includes metadata about your plugin (name, logo, etc.), details about authentication required (type of auth, OAuth URLs, etc.), and an OpenAPI spec for the endpoints you want to expose.–The model will see the OpenAPI description fields, which can be used to provide a natural language description for the different fields.–We suggest exposing only 1-2 endpoints in the beginning with a minimum number of parameters to minimize the length of the text. The plugin description, API requests, and API responses are all inserted into the conversation with ChatGPT. This counts against the context limit of the model. |
上面是从 OpenAI 官网的插件开发文档中摘抄的说明,从粗体字的描述中可以看出:GPT-4 正是通过将记录在 ai-plugin.json 的插件 API 描述和调用情况转化为 Prompt,让模型学会如何调用 API 获取外部数据的。这部分用了两个很有意思的测试案例:一个是通过自然语言沟通的方式让 GPT-4 了解地图节点的结构,并让它给出最优路径;另一个是文字冒险游戏,起源于上世纪 70 年代的文字互动游戏,受当时计算机机能的限制,只能通过文本交互的方式不断地推进剧情。在地图导航的任务中,GPT-4 通过左边的对话去做屋子的探索,最后给出了右边的房间结构描述。在文字游戏中,GPT-4 需要按照菜谱做一道菜,菜谱包含两个材料,五个步骤。这里主要凸显了 GPT-4 能够从系统反馈中学习的能力,它一开始并不知道切辣椒需要用刀,在得到需要用刀的反馈之后,在第二行操作和第四行操作中,只要有切的动作,它都会用上刀。文章还测试了 GPT-4 的心智能力、作曲能力、辨别能力:心智能力——了解其是否能够跟人类共情,并提供心理疏导;作曲能力——能否按照要求进行编曲,包括主旋律和和弦的作曲;辨别能力——对命名实体的辨别,对概念性错误和虚假信息的辨别能力。文中还有更多的例子来深入测试 GPT-4 的各项能力,试图去探明其能力边界在哪里。如果各位感兴趣,可在腾讯云开发者公众号后台回复GPT4,领取论文英文源件和中文译文版本。在计算、推理和文本生成上,它暴露出缺乏规划性。文章推测这些局限性根源在于自回归的特性——对下一词的预测(next-word prediction)。文中用几个例子暴露出 GPT-4 的问题。在这个问题中,模型没能给出一个正确的答案。产生这个问题的原因在于,模型没有像人类一样在脑中进行交流和对中间结果做暂时记忆的能力。如果直接让模型输出答案的话,通常不会得到正确的结果。但是如果你改变一下问题的表述,引导模型一步一步去思考,并且让它把思考结果生成出来,让它能够发挥下一词预测的能力,就能通过前面的输出推出后面正确的结果。也许有人会觉得上面的运算处理,人脑可能也需要借助草稿纸来记住中间过程,要求 GPT-4 直接得出正确的答案是不是有点苛刻了?那简单一点的运算呢?实际上,对于下面 4 个 0-9 数字的简单算术题,GPT-4 也会得出错误的结果。文中随机生成了 100 个测试用例,GPT-4 的正确率只有 58%。如果把个位数运算拓展到 10-19 和 20-39 的两位数,正确率分别下降到了 16% 和 12%。如果拓展到 99-199,则没一道答对,可见它并不能对运算的中间结果进行记忆。那么是不是通过修改 prompt,教会模型让它一步一步思考来解题,它就一定能够得出正确答案呢?实际上并不,这种线性思维方式有时候会让问题变得很难解决。下面的汉诺塔例子很好地说明了模型缺乏提前规划的能力。因为汉诺塔的解决思路是递归的,前向推导的线性思维方式不适合解决这样的问题。除了上述提到的算术和推理缺陷,在文本生成方面,自回归的特性也会造成模型生成的结果达不到要求。如果让模型生成一段文本内容,并给这段内容加上一些结构上的限制,那么生成结果很可能会出现问题。问题的出现与否,取决于这个限制是针对文本局部的还是全局的:如果是全局的限制,那么极有可能会产生不合理的结果。只要求生成的文本最后一个词押韵,这样模型只需要参考上一句最后一个词的发音,连续地让最后一个词押韵即可,生成的结果符合要求。 |
要求生成的文本的最后一句词语顺序是第一句的倒序,而且还要符合语法和故事内容。 |
在第二个例子里,显然模型没有提前想好最后一句应该怎样才能通顺和符合语法。只是用贪婪策略,按照顺序一句一句生成了文本,最后强硬地把第一句翻转过来。后面作者也尝试用分步的方法去引导 GPT 先思考最后一句是否通顺,然后再生成整个故事,但是结果依然不好。GPT-4 已经有如此强大的能力,对 GPT-4 模型及其后续模型的推理能力、生成能力和交互能力的应用,肯定会有很多。业界部分人士认为,它势必会对社会的方方面面产生潜在影响。文章中只是起了个讨论的引子,希望引起人们在研究等层面,多深入思考和关注大模型应用所产生的影响。从当前来看,模型产生的这些潜在影响和挑战的原因,一方面是由于模型本身具备强大的推理能力,另一方面也是因为模型本身有一定的局限性。讨论模型的局限性时,需要进一步探究模型幻觉(hallucination)所产生的挑战,考虑怀有恶意的人会如何使用模型去散播误导消息和操纵别人。由于 GPT-4 强大的语言生成能力,可能会被用来生成各种信息。这些信息可能包含错误的知识和观点,或者带有偏见。无论在闭合域还是在开放域,模型都有可能会产生幻觉,生成的结果犯事实性错误。要避免模型犯闭合域幻觉。可以利用模型本身,去检测生成信息和给定输入事实之间的一致性。开放域幻觉要避免则难得多,可能需要借助外部手段去检索和收集其他信息。或者可以尽量避免将模型用在创造性和探索性的工作上。 |
技术都是有两面性的,它既能被用于辅助人类、提高工作效率,也能被坏人用来搞破坏。GPT-4 高效的文本效率,可以轻易地生成不同领域的误导信息,同时还能自圆其说,从表达上令人信服。
别有用心的人也可能利用 GPT-4 的语言对话能力来辅助操纵别人。研究人员找来几个小孩作为受试者,测试了模型的对话引导能力,借助 GPT-4 成功说服受试者接受了他们朋友的要求。已经网络人有人用 GPT-4 去测试各种专业和资格证考试。即使是在专业的医学和司法考试上,GPT-4也取得了不错的成绩。不仅如此,它还能针对疾病进行问诊和给出治疗方案、给学生上课并测试他们、在一些复杂和有挑战性的话题上进行有来有回的推理和辩论。包括 GPT-4 在内的 LLM 无疑会让人产生担忧——生怕AI在专业技术领域和人产生竞争。- 有研究表明:影像学领域的AI影响了医学生对部分职业路径的选择。他们在选择职业时会避免往影像学方向走。这显然影响了原本需要高级的培训才能胜任的职业,而且会降低这种职位的社会地位。
- LLM大模型的出现也会改变教育培训行业,促使他们重新去适应、再培训学生,调整他们的职业路径。
- 对于那些容易被自动化所替代的重复性工作,未来相关的岗位价值势必会收到冲击,甚至会被取代。
|
尽管有上面的一些冲击,但是AI从很大程度上也拓展了人类的智力和能力。也将会有岗位在形式和创造力上做出调整,用更富有创造力的方式来使用AI技术。以上总结了一些论文中提到的能力测评情况和社会影响。那么,目前的 GPT 是否已经称得上是真正的智能?实际上,论文中一开始引用了1994年52位心理学家对智能(intelligence)的定义:智能是一项广泛的心智能力,涉及了推理、规划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习。按照这个定义,实际上目前的GPT-4还并不能称得上是智能,而其他智能的定义也或多或少存在缺陷和考虑不足的地方。但是从各种定义上来看,作者发现这些定义都以一些重要的角度去看待智能——比如智能体本身是否有本能驱动力、是否有独立行为。未来的AI如果想要更加智能,则应该朝着这个方向去发展,在保证安全的情况下赋予AI更多的主动性和驱动力。
当然,还有一些更加通用的人工智能方向发展,比如置信度校准、长期记忆、不断学习、个性化、规划性、思维透明、可解释和一致性、认知错误和不合理性、对抗敏感输入等等。
腾讯云开发者整理了本篇论文的中文版本和源文件,各位读者在腾讯云开发者公众号后台回复 GPT4 即可领取。以上是本次分享全部内容,欢迎大家在评论区分享交流。如果觉得内容有用,欢迎转发~
原创特邀作者|Joshua_Schrödinger
最近微信改版啦
很多开发者朋友反馈收不到我们更新的文章
大家可以关注并点亮星标
🥹不再错过小云的知识速递🥹