“惨痛的教训”和ChatGPT的规模优势

Original R Sutton/鲁为民 MoPaaS 2023-03-02

Sutton 的惨痛教训和 AI 的规模优势

作者: 鲁为民，MoPaaS CEO

前言

人工智能领域这些年一直是在颠覆中，阶梯式的循环发展，依赖算力、数据和模型的规模优势不断地实现从量变到质的突变。特别是当今ChatGPT 大模型的横空出世，让人们试图重新审视人工智能的规模优势的这个发展现实。实际上，Rich Sutton 教授 --- 现代人工智能领域强化学习 (Reinforcement Learning) 鼻祖 --- 在2019年的“The Bitter Lesson (惨痛的教训)”一文中就对深度学习应用的“大力出奇迹”现象的有过类似的感悟（见本文附录）。

当时深度神经网络学习方法，包括卷积神经网CNN、循环神经网RNN以及深度强化学习RL已分别将计算机视觉(CV)、语音识别和计算机围棋等领域一一颠覆，同时也在自然语言处理领域也初现曙光。特别是深度CNN模型 ResNet 在2016 ImageNet ILSVRC挑战赛卓越性能表现不仅远远超过之前的最先进的方法 (SOTA)，也超过人类本身 (见下)。

另外Google 在2017年发表其Transformer 方法，以及接下来基于Transformer的 BERT和 GPT 的语言模型让人们对深度学习在自然语言处理上的突破充满期待；这些模型的一个共同特点就是规模大：算力大、数据集大和模型参数多。此外各种深度学习方法层出不穷，模型规模优势和性能也不断攀升，已经让人目不暇接，虽然当时人们还没法目测到 ChatGPT 今天所展示的能力 ...

参照这些年大模型在不同场景的实践，特别是像 LaMDA，ChatGPT，Dall E-2, MidJourney，和 Stable Diffusion 等大模型应用所引起的关注，了解 Sutton 对这种现实的感悟仍然是有价值的。我们试着让 ChatGPT 将Sutton 教授的“The Bitter Lesson (惨痛的教训)” 翻译成中文（一字不改附在本文后），同时也让ChatGPT 对 Sutton 的两个“痛苦教训”总结如下：

第一点：通用方法的巨大力量，搜索和学习可以随着计算能力的提高而不断扩展。
第二点：人类头脑的复杂性是无止境的，不应该试图寻找简单的思考方式，而应该构建元方法以捕获任意复杂性。人工智能代理应该像人类一样发现，而不是包含人类发现的内容。

“惨痛的教训”的思考

Sutton 的“惨痛的教训”一发表便引起很多讨论。这些观点被很多从业者认可，虽然也遭到一些抨击，包括来自深度学习的坚决批判者Gary Marcus。Sutton似乎是在说：“即人工智能的发展将来自如何利用无穷的计算资源，而不是试图给机器更多人类先前的认知和理解。” 我们对Sutton的“惨痛教训”的解读是 AI 的成功发展依赖一种规模优势，当然规模是指计算资源(算力和数据)，以及相称的模型。这些“惨痛的教训”也多少对应AI 发展的现实。似乎我们可以进一步延伸将AI 的发展归纳为大致遵循下面的 S 曲线 (见下图)：

1. 当前的AI方法遇到瓶颈 ... 一种更通用的方法以及更大的模型横空出世，并从性能和各项能力上碾压过去方法；而后面依赖的比以往更大算力（当然包括更大的数据集）；

2. 新的更大模型的突破带来新的希望，AI 实践者渴望了解、解释和改进这个新的模型和方法，他们试图理想主义地定义并找到其独立于复杂的外部世界的局部结构和规律 ... 比如尝试各种方法，通过简化模型、嫁接入其它的方法，或对接特定垂直场景，希望进一步小而美地优化完善这个模型；

3. 但这些努力可能还来不及看到期待的结果，或这些方法遇到瓶颈 ... 一种更加通用的方法以及更大的模型横空出世，并从性能和其它能力上碾压过去方法以及先前的努力；而后面依然是比以往更大算力和更大的数据集 ... 然后又回到 2。

人工智能领域这些年一直是这样不断颠覆，阶梯式的循环发展，持续地实现从量变到质的突变。特别是当今ChatGPT 大模型的横空出世，AI 实践者试图重新审视人工智能的规模优势这个发展现实；AI 实践者应该怎样来消化ChatGPT这样的大模型，以及其规模优势？

有朋友将目前AI的实践者分为两大阵营，分别称为“对接派”和“冷启派”。“冷启派”实践者则通常冷启动一切从零开始，抛弃当前对世界认知的束缚，但他们相信计算规模的力量。往往很长时间不被人认知，一旦沉默中爆发，带来的新的大模型则会给行业带来震荡甚至颠覆；像 ChatGPT 和 Stable Diffusion 这样的模型往往是横空出世。

则“对接派”处于上面 S曲线的第二阶段，他们主要试图通过改良的方法来试图将通用模型接入到不同的垂直场景。比如对接特定应用，使用用本领域私有或专有数据对模型进行增强样本的优化训练（Fine-tuning)，补足通用模型在垂直领域的短板。又比如大模型动辄有数百亿个参数，运行起来需要的算力是一个挑战；试图通过模型简化或降维，包括使用模型蒸馏(Distillation)或裁剪(Pruning)等方法，将垂直领域里可能用不到的资源摘除，缩小模型规模来降低运行成本。另外，将大模型同时作为一个适配层，引入、嫁接和集成其它垂直应用，试图补齐大模型的短板，比如数学推理。

这些补救方法看似非常合理。特别是在设置合理期待值的前提下，这种努力值得鼓励而且是有意义的。但没有免费的午餐，这些试图简化和优化大模型的努力并不轻松。AI 实践者需要权衡利弊；如果把握不好，这些方法的有效性有可能会与预期有差距甚至带来新的问题，因为模型微调而增强某些垂直场景能力，或模型降维和规模缩小而减少运行成本，或其它模型适配调整来接入其它垂直功能，模型原本的通用基本的能力以及模型的泛化能力有可能减弱（见下一节规模优势和涌现），甚至可能出现价值错位甚至安全风险。

Sutton 的“惨痛的教训”的感悟是针对“对接派”发出的，因为现实可能是他们陷在第二阶段忙于应对或还来不及思考清楚怎么应对和消化当前模型，而“冷启派”可能某个时候会突然冒出，新的模型和方法从性能和能力上将全面超越当前模型并将“对接派”的工作远远抛在身后。当然他的感悟还不仅仅停留在“对接派”和“冷启派”表面，更多深层的问题的是需要或应该怎样去了解和认知世界，或是否存在某种简化的结构或规律，或是否值得去探究了解这个结构 (如果认为存在的话) 。

这个争执可能会持续的进行下去；新的问题也可能会不断地浮现。比如除了算力外，怎样让训练数据集避免成为瓶颈？这个问题对于机器人研究来说已经是一个挑战，有从业者将其称为”惨痛的教训2”(谷歌大脑Karol Hausman，2023)。因此问题可能是能否找到其它来源为机器人学习提供足够数据，使得机器人学习能够利用其他领域的进展而获得更多的数据。

但不管怎样，AI的规模优势一定还会继续。

ChatGPT: 规模优势和涌现

AI解决的一个关键问题是如何充分利用人类的知识和经验数据（包括各种媒介记录的知识，人为标记或未标记的数据、过去与环境的交互或从模拟器产生的数据）建立一个高容量的AI模型来满足人们各种预测的需要。首先 AI 的突破在语言模型，这个有多方面的原因，但主要可能是因为语言在我们的生活、工作、学习、宗教和政治活动、以及表达我们情感推理等复杂性方面起着重要的作用。我们因此也拥有大量的语言数据，包括互联网的文本数据、书籍文本、计算机代码和Wikipedia 数据等等，用于训练语言模型。目前的大语言模型展示了三个重要能力(爱丁堡大学付尧, 2022)：

语言生成：遵循语言提示词（Prompt），模型生成补全提示词的句子或生成合理的答案。这也是今天人们与语言模型最普遍的交互方式。此外，还可以理解或生成计算机代码。
泛化学习：上下文学习 (In-Context Learning) 是目前大语言模型基本的能力，模型遵循给定任务的几个示例，然后为新的测试用例生成答案。ChatGPT 模型可以在从没见过的新指令上自动生成有效的回答；它还可以利用思维链 (Chain-of-Thought, CoT) 进行复杂推理。目前看来，这些是语言模型重要的涌现(Emergence) 能力。
世界知识：通过ChatGPT模型原则上可以生成2021年前事实性知识和常识性内容。

那么这些能力从何而来呢？当然自然语言和代码生成的能力来自于语言建模的训练目标。目前的大模型应用目前统一于Transformer 技术架构下，而目前各种大模型则主要有两类预训练模型框架：BERT 和 GPT。BERT是基于Transformer-Encoder的双向语言表征的预训练模型，通过Fine-Tuning来应用于各类自然语言理解类任务。但目前大多大语言模型几乎都采用基于Transformer-Decoder的GPT这种自回归生成单向语言预训练模型，比如ChatGPT、GPT-3、PaLM、MT-NLG和LaMDA等。GPT通过选择性的Fine-Tuning +提示 (Prompting) 的模式来应用到下游语言任务。这一方面可能是由于 GPT 架构可以灵活地实现理解和生成任务在表现形式上的统一；另一方面基于提示的推理更符合用户的使用习惯，而且以提示这种模式解决下游任务，GPT模式效果要优于BERT模式。

像GPT-3这样的大语言模型基于提示语的推理方法包括可以通过零下（Zero-shot，用户不需要提供回答实例）、一下（One-shot,只需提供一个实例)和多下（Few-Shot，需要提供多个实例)提示来获得满意的结果。通过这些提示，大语言模型会对它的答案空间进行相应的调整，来适应问题场景的需求。另外在用于调整模型的指令数量足够多时，模型也可能会在从没见过的新指令上自动生成有效的回答。因此像ChatGPT这样的超大模型可以实现比较满意的泛化能力。

大语言模型本质上收集和记忆了大量人类相关知识和经验并能根据需要及时地给出合适的答案。另外ChatGPT采用的世界知识来自 3000 亿单词的训练语料库。模型的需要具备足够的规模（比如ChatGPT模型具有 1750 亿参数）以便于存储大量知识；特别是知识密集型任务的性能与模型大小息息相关，所以这类语言模型往往规模很大。

实际上模型的规模优势在基于深度神经网(DNN) 早期实践中就已经被观察到，即所谓的深度优势。一般情况下深神经网络比浅网络有更丰富表现能力；如果用一个单层神经网络来实现一个多层神经网络的效果，需要具备指数多的计算单元。对于这些年出现的更高维度和更稀疏的大模型，人们除了进一步证实其深度优势外，还从大量的实验和经验观察中发现大模型的性能遵照所谓的伸缩律（Scaling Law，OpenAI/AnthropicKaplan et al., 2020）。伸缩律主要是指大模型的性能和表现力与数据集的大小、模型参数的多少以及计算力的多少呈幂律(Power Laws) 的关系(见下图）。一般来说大模型的参数越多，数据集和计算资源规模越大，其性能和泛化能力会越强。当然实际情况可能比这复杂，算力，数据和模型的规模需要某种匹配。此外规模往往不是性能的唯一决定因素。

大语言模型的规模优势不仅仅体现在模型性能上的简单提升。经验观察进一步发现大模型的规模达到一定的程度后，模型能力会从量变产生质变，性能会有跳跃性的增长（下图），也可能会涌现一些新的能力，包括这种上下文学习能力以及利用思维链 (Chain-of-Thought, CoT，Google Jason Wei, 2022) 进行复杂推理能力。对于大语言模型的上下文学习能力和基于CoT的推理能力的来源，虽然有各种不同的解释，但这种学习能力与微调（Fine-Tuning）实现的泛化能力不一样，并不需要调整模型参数。有些AI从业者将这种具备学习“怎样学习”的能力称为一种Meta-Learning（元学习）能力。这种大模型学习能力质的飞跃是所谓的涌现(Emergence) 现象（见下图）。为什么大语言模型预训练会促使上下文学习和一定的推理能力，或者涌现现象的机理是什么目前还没有完全了解清楚。

结语

包括 ChatGPT在内的大模型是从大量人类的知识和经验数据中获得能力的，这些大型机器学习模型具有规模优势，可以涌现不同的能力来适用于多种任务。Sutton”惨痛的教训” 一文是对AI的规模优势现实的一种感悟。谷歌、微软、Meta、OpenAI、Anthropic、Stability AI 和 MidJourney等组织不断地投入了巨大的资本来构建这些大模型，这些大模型随后会推动影响数十亿人的产品。这些模型可能已经集成到成熟的产品（如谷歌搜索和微软Teams）、产生新的体验（如GitHub CoPilot、Stable Diffusion和 MidJourney）或成为下一代初创公司的生态系统的中心。一方面它们的规模可能还会继续扩大，可能还会不断地颠覆人类的认知；我们需要了解模型不断涌现的能力，以及其带来应用的价值和机会；另一方面，也有关于它们的风险的广泛讨论：它们可能有毒、不诚实，可能被用于传播虚假信息，其数据和部署的实践引发出的法律和伦理问题。鉴于大模型引发的兴奋和恐惧，我们必须衡量和规避这些挑战与风险，更深入地科学了解大模型的影响，特别是怎样更好和人类价值观对齐，释放更多的红利给人类。

附录：

惨痛的教训

作者：Rich Sutton；翻译：ChatGPT

2019年3月13日

从70年的人工智能研究中读取的最重要的教训是：利用计算的通用方法最终是最有效的，而且差距很大。最终的原因是摩尔定律，或者说是计算单位成本持续指数下降的概括。大多数人工智能研究都假设代理可用的计算是不变的（在这种情况下，利用人类知识将是提高性能的唯一方法），但是，随着时间的推移，更多的计算不可避免地变得可用。为了在短期内寻求有影响的改进，研究人员寻求利用他们对领域的人类知识，但长远来看，唯一重要的是利用计算。这两者不必相互冲突，但在实践中往往会相互冲突。花在一方面的时间就是不花在另一方面的时间。对一种方法的投资有心理承诺。而基于人类知识的方法往往使方法变得复杂，使它们不太适合利用利用计算的通用方法。有很多人工智能研究人员对这个惨痛的教训的迟钝认识的例子，回顾一些最突出的例子是很有启发意义的。（The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available. Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. These two need not run counter to each other, but in practice they tend to. Time spent on one is time not spent on the other. There are psychological commitments to investment in one approach or the other. And the human-knowledge approach tends to complicate methods in ways that make them less suited to taking advantage of general methods leveraging computation. There were many examples of AI researchers' belated learning of this bitter lesson, and it is instructive to review some of the most prominent.）

在电脑国际象棋中，击败世界冠军卡斯帕罗夫的方法是基于大量深度搜索。当时，这被大多数利用人类对国际象棋特殊结构的理解进行研究的电脑国际象棋研究人员看到了惊愕。当一种更简单的基于搜索的方法，结合了特殊的硬件和软件，证明了更有效的时候，这些基于人类知识的国际象棋研究人员不是好的失败者。他们说，“野蛮的搜索”可能这次获胜了，但它不是一个通用的策略，而且不是人们玩国际象棋的方法。这些研究人员希望基于人类输入的方法获胜，但他们并不成功。（In computer chess, the methods that defeated the world champion, Kasparov, in 1997, were based on massive, deep search. At the time, this was looked upon with dismay by the majority of computer-chess researchers who had pursued methods that leveraged human understanding of the special structure of chess. When a simpler, search-based approach with special hardware and software proved vastly more effective, these human-knowledge-based chess researchers were not good losers. They said that ``brute force" search may have won this time, but it was not a general strategy, and anyway it was not how people played chess. These researchers wanted methods based on human input to win and were disappointed when they did not.）

相似的研究进展模式也在计算机围棋中观察到，只是晚了20年。最初有巨大的努力被用于通过利用人类知识或游戏的特殊特征来避免搜索，但是一旦搜索被有效地应用于规模上，所有这些努力都证明是无关紧要的，甚至更糟。重要的是通过自我游戏学习价值函数（就像在许多其他游戏以及国际象棋中一样，尽管学习在1997年首次击败世界冠军的程序中并没有发挥重要作用）。自我游戏学习和学习一般来说就像搜索一样，可以投入大量计算。搜索和学习是在人工智能研究中利用大量计算的两个最重要的技术类别。在计算机围棋中，正如在计算机国际象棋中一样，研究人员的最初努力是面向利用人类的理解（以便减少搜索），只有在很晚之后才通过拥抱搜索和学习而取得更大的成功。（A similar pattern of research progress was seen in computer Go, only delayed by a further 20 years. Enormous initial efforts went into avoiding search by taking advantage of human knowledge, or of the special features of the game, but all those efforts proved irrelevant, or worse, once search was applied effectively at scale. Also important was the use of learning by self play to learn a value function (as it was in many other games and even in chess, although learning did not play a big role in the 1997 program that first beat a world champion). Learning by self play, and learning in general, is like search in that it enables massive computation to be brought to bear. Search and learning are the two most important classes of techniques for utilizing massive amounts of computation in AI research. In computer Go, as in computer chess, researchers' initial effort was directed towards utilizing human understanding (so that less search was needed) and only much later was much greater success had by embracing search and learning.）

在语音识别领域，70年代曾有由DARPA主办的比赛。参赛者包括众多利用人类知识的特殊方法，如词汇知识、音素知识、人类声道等。另一方面是更具统计学性质的新方法，它们基于隐马尔可夫模型（HMM），做了更多的计算。再一次，统计学方法击败了基于人类知识的方法。这导致了自然语言处理领域整体的重大变革，数十年来，统计学和计算逐渐占据了该领域。语音识别领域中深度学习的最近兴起是这一持续方向的最新一步。深度学习方法更加依赖计算，并利用巨大的训练集进行学习，以生成更好的语音识别系统。与游戏一样，研究人员始终试图制作按照研究人员认为自己思维运作方式的系统，即试图将这种知识放入系统中，但当通过摩尔定律大规模计算变得可用，并找到了一种利用它的方法时，最终发现这是徒劳的，浪费了研究人员的时间。（In speech recognition, there was an early competition, sponsored by DARPA, in the 1970s. Entrants included a host of special methods that took advantage of human knowledge---knowledge of words, of phonemes, of the human vocal tract, etc. On the other side were newer methods that were more statistical in nature and did much more computation, based on hidden Markov models (HMMs). Again, the statistical methods won out over the human-knowledge-based methods. This led to a major change in all of natural language processing, gradually over decades, where statistics and computation came to dominate the field. The recent rise of deep learning in speech recognition is the most recent step in this consistent direction. Deep learning methods rely even less on human knowledge, and use even more computation, together with learning on huge training sets, to produce dramatically better speech recognition systems. As in the games, researchers always tried to make systems that worked the way the researchers thought their own minds worked---they tried to put that knowledge in their systems---but it proved ultimately counterproductive, and a colossal waste of researcher's time, when, through Moore's law, massive computation became available and a means was found to put it to good use.）

计算机视觉领域也出现了类似的模式。早期的方法将视觉视为寻找边缘或广义圆柱体，或者以SIFT 特征的方式。但今天这一切都已经废弃了。现代的深度学习神经网络仅使用卷积和某些不变性的概念，并且表现得更好。（In computer vision, there has been a similar pattern. Early methods conceived of vision as searching for edges, or generalized cylinders, or in terms of SIFT features. But today all this is discarded. Modern deep-learning neural networks use only the notions of convolution and certain kinds of invariances, and perform much better.）

这是一个重要的教训。作为一个领域，我们仍然没有彻底地学到它，因为我们继续犯同样的错误。为了看到这一点并有效地抵抗它，我们必须了解这些错误的吸引力。我们必须学习这个惨痛的教训，即建立我们认为自己思考的方式不能长期有效。这个苦难的教训基于以下历史观察：1）AI 研究人员经常试图将知识建入他们的代理，2）这总是在短期内有所帮助，对研究人员来说是令人满意的，但是3）从长远来看，它会停滞甚至阻碍进一步的进展，并且4）突破性的进展最终是通过一种相反的基于搜索和学习的大规模计算的方法实现的。这种最终的成功带有苦涩的味道，往往没有得到完全的理解，因为它是对一种非常受人们喜欢的、以人为中心的方法的成功。（This is a big lesson. As a field, we still have not thoroughly learned it, as we are continuing to make the same kind of mistakes. To see this, and to effectively resist it, we have to understand the appeal of these mistakes. We have to learn the bitter lesson that building in how we think we think does not work in the long run. The bitter lesson is based on the historical observations that 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher, but 3) in the long run it plateaus and even inhibits further progress, and 4) breakthrough progress eventually arrives by an opposing approach based on scaling computation by search and learning. The eventual success is tinged with bitterness, and often incompletely digested, because it is success over a favored, human-centric approach.）

从这个惨痛的教训中，我们应该学到的第一件事是通用方法的巨大力量，即随着计算能力的提高而继续扩展的方法，即使在可用计算能力非常强大的情况下也是如此。两种似乎可以任意扩展的方法是搜索和学习。（One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great. The two methods that seem to scale arbitrarily in this way are search and learning.）

从惨痛的教训中学到的第二个总体点是，头脑的实际内容是极其复杂的，我们不应该再试图找到关于头脑内容的简单思考方式，例如对空间、物体、多个代理或对称性的简单思考方式。所有这些都是任意、本质复杂的外界的一部分。它们不应该被构建进去，因为它们的复杂性是无止境的；相反，我们应该构建能够发现和捕获这种任意复杂性的元方法。这些方法的关键在于它们可以找到良好的近似，但搜索应该由我们的方法进行，而不是由我们进行。我们希望人工智能代理可以像我们一样发现，而不是包含我们发现的内容。把我们的发现构建进去只会使看到如何完成发现过程变得更困难。（The second general point to be learned from the bitter lesson is that the actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds, such as simple ways to think about space, objects, multiple agents, or symmetries. All these are part of the arbitrary, intrinsically-complex, outside world. They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity. Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. We want AI agents that can discover like we can, not which contain what we have discovered. Building in our discoveries only makes it harder to see how the discovering process can be done.）

想要了解更多，欢迎入群交流！

权益福利：

1、AI 行业、生态和政策等前沿资讯解析；

2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流；如果二维码过期或者人数已达上限，可加小编微信：MoPaaS2021

关于MoPaaS魔泊云

源于硅谷、扎根中国，上海殷泊信息科技有限公司(MoPaaS)是中国领先的人工智能（AI）平台和服务提供商，为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求，基于自主的智能 PaaS 云平台专利技术，MoPaaS 在业界率先推出开放的AI平台为加速客户AI应用项目落地提供高效的GPU算力优化和模型开发运维 (ModelOps) 能力和服务。MoPaaS AI平台已经服务在教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS 致力打造全方位开放的AI技术和应用生态圈。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者（Strong Performer)。

END

▼ 往期精选 ▼

1、ChatGPT 的内幕：OpenAI 创始人Sam Altman如何用微软的数十亿美元打造了全球最热门技术

2、Reid Hoffman 和 ChatGPT: 与人工智能谈论人工智能

3、OpenAI：解密ChatGPT背后的世界（下）

4、OpenAI：解密ChatGPT背后的世界（上）

▼点击下方“阅读原文”，查看文章来源！