拥有100万亿参数的GPT-4，有何值得期待？

Original Alberto Romero 数据实战派 2022-01-14

收录于话题

#人工智能 70 个

#计算机 8 个

#自然语言处理 84 个

#预训练模型 12 个

作者：Alberto Romero

译者：青苹果

原文：GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3.

为了应对实现通用人工智能（AGI, Artificial General Intelligence）的挑战，OpenAI 应运而生。通俗来说，这就是一种能够完成人类所能完成的任何事情的 AI。

毫无疑问，这样的技术必将改变我们所认知的世界。它就如一把双刃剑，如果使用得当，可使所有人受益；倘若落入坏人之手，也会变成最具毁灭性的武器。这就是 OpenAI 接手这项任务的原因，以确保每个人都能平等受益：“我们的目标是以最有可能造福全人类的方式推进数字智能。”

然而，这个问题的严重性使得它可以说是人类涉足的最大的科学事业。尽管计算机科学（CS, Computer Science）和 AI 有了长足的进步，但没有人知道如何解决这个问题，以及它何时会成为现实。

有些人认为，深度学习不足以实现 AGI。伯克利大学的计算机科学教授、AI 先驱 Stuart Russell 认为：

“专注于原始计算能力完全没有切中要点……我们不知道如何让机器实现真正的智能——即使它有宇宙那么大。”

相比之下，OpenAI 相信，以大型数据集为基础并在大型计算机上训练的大型神经网络是实现 AGI 的最佳途径。OpenAI 的首席技术官格雷格·布罗克曼（Greg Brockman）在接受《金融时报》采访时表示：“我们认为，谁拥有最大型的计算机，谁就将获得最大的收益。”

显然，他们也是这样做的：开始训练越来越大的模型，以唤醒深度学习中隐藏的力量。朝此方向迈出的第一个非微妙步骤是 GPT 和 GPT-2 的发布。这些大型语言模型将为后续的 “新秀”模型-GPT-3 奠定基础。一个拥有 1750 亿参数，比 GPT-2 大 100 倍的语言模型。

可见 GPT-3 是当时最大的神经网络，并且就目前来说，仍是最大的密集神经网络。它的语言专长以及数不胜数的能力令多少人为之惊叹。尽管一些专家仍持怀疑态度，但大型语言模型已经让人感到新奇。

对于 OpenAI 研究人员来说，这是一个巨大的飞跃并且增强了他们的信念感，也进一步让我们相信 AGI 是深度学习的一个值得关注的问题（OpenAI 团队对于AGI的最新想法，可见“数据实战派”近期文章：OpenAI GPT-4进展有了一些新线索）。

三位一体——算法、数据和计算

OpenAI 相信扩展假说（ the scaling hypothesis）。

给定一个可扩展的算法，即本例中的 Transformer——GPT 系列背后的基本架构——可能有一条通向 AGI 的直接路径，该路径可以基于该算法训练越来越大的模型。

但大型模型只是 AGI 难题的一部分。训练它们需要大量的数据集和大量的计算能力。

当机器学习社区开始揭示无监督学习的潜力时，数据不再是瓶颈。这与生成语言模型和小样本任务（few-shot task）迁移一起解决了 OpenAI 的“大数据集”问题。

他们只需要使用大量的计算资源来训练和部署他们的模型即可很好地运行。这也就是他们在 2019 年与微软合作的原因。他们授权了这家大型科技公司，这样他们就可以在商业上使用 OpenAI 的一些模型，以换取对其云计算基础设施和所需的强大 GPUs 的访问权。

但是 GPUs 并非是专为训练神经网络而构建的。游戏行业开发这些芯片用于图形处理，而 AI 行业只是利用了它对并行计算的适用性。OpenAI 想要最好的模型和最好的数据集，他们也想要最佳的计算机芯片。然而，GPUs 还不够。

许多公司也意识到了这一点，并开始在不损失效率和能力的情况下，构建训练神经网络的内部专用芯片。然而，像 OpenAI 这样的纯软件公司很难将硬件设计和制造进行集成。这恰好解释了他们为什么采取了另一条路线：使用第三方 AI 专用芯片。

这时到 CerebrasSystems 登场了。这家致力于研发用于深度学习的芯片产品的公司早在 2019 年便制造了有史以来最大的用于训练大型神经网络的芯片。现在他们“重出江湖”，OpenAI 将很好地与其进行合作，开展新的研究。

WSE-2 芯片和 GPT-4 模型

两周前，Wired 杂志发表了一篇文章，披露了两条重要消息。

首先，Cerebras 再次制造了市场上最大的芯片- WSE-2（Wafer Scale Engine Two）。它大约 22 厘米，有 2.6 万亿晶体管。相比之下，特斯拉（Tesla）全新的训练芯片也仅有 1.25 万亿晶体管。

Cerebras 找到了一种有效压缩计算能力的方法，因此 WSE-2 有 85 万个核心（计算单元），而典型的 GPUs 只有几百个。他们还用一种新颖的冷却系统解决了散热问题，并创设了一种高效的 I/O 数据流。

像 WSE-2 这样的超专业、超昂贵、超强大的芯片用途并不多。训练大型神经网络就是其中之一。所以 Cerebras 和 OpenAI 进行了对话。

第二条消息是，Cerebras 首席执行官安德鲁·费尔德曼（Andrew Feldman）对 Wired 杂志表示：“从与 OpenAI 的对话来看，GPT-4 将会有大约 100 万亿个参数。……至于发布，可能还需要几年来准备。”

从 GPT-3 开始，人们就对 OpenAI 及其后续版本充满了期待。现在我们知道它会在几年内问世，而且规模会非常大。它的尺寸将超过 GPT-3 的 500 倍。是的，你没看错：500 倍！

GPT-4 将比去年震惊世界的语言模型大 500 倍。

GPT-4 可以带给我们什么期待？

100 万亿的参数究竟有多大呢？

为了理解这个数字概念，我们用人脑与其展开比较。一般情况下，大脑约有 800-1000 亿个神经元（GPT-3 的数量级）和大约 100 万亿个突触。

GPT-4 将拥有与大脑的突触一样多的参数。

这种神经网络的庞大规模可能带来我们只能想象的 GPT-3 的质的飞跃。我们甚至可能无法用当前的提示方法测试系统的全部潜力。

然而，将人工神经网络与大脑进行比较是一件棘手的事情。这种比较看似公平，但那只是因为我们假设至少在一定程度上，人工神经元是松散地基于生物神经元的。最近发表在 Neuron 杂志上的一项研究表明并非如此。他们发现，至少需要一个 5 层神经网络来模拟单个生物神经元的行为。换句话说，每个生物神经元大约需要 1000 个人工神经元才可以模拟。

由此看来，比较结果是，我们的大脑更胜一筹。即使 GPT-4 不如我们的大脑强大，它也肯定会带来一些惊喜。与 GPT-3 不同，它可能不仅仅是一个语言模型。OpenAI 首席科学家 Ilya Sutskever 在 2020 年 12 月撰写多模态的相关文章时暗示了这一点：

“到 2021 年，语言模型将开始认识视觉世界。当然，文字本身即可表达关于这个世界的大量信息，但毕竟是不完整的，因为我们也生活在视觉世界之中。”

我们已经在 DALL·E 中看到了一些，它是 GPT-3 的一个较小版本（120 亿参数），专门针对文本-图像对进行训练。OpenAI 当时表示，“通过语言描述视觉概念现在已经触手可及。”

OpenAI 一直在不停地开发 GPT-3 的隐藏能力。DALL·E 是 GPT-3 的一个特例，很像 Codex。但它们并不是绝对的改进，更像是一种特殊情况。而 GPT-4 具备更多的功能。举例来说，将 DALL·E（文本图像）和 Codex（编码）等专业系统的深度与 GPT-3（通用语言）等通用系统的宽度相结合。

那么其他类人特征呢，比如推理或常识？在这方面，Sam Altman 表示他们也不确定，但仍然保持“乐观”心态。

总之，目前看来，问题很多但答案却很少。没有人知道 AGI 能否成为可能，也没有人知道如何构建，亦没有人知道更大的神经网络是否会越来越向其靠近。但不可否认的一点是：GPT-4 值得我们关注，必定不负期待。

往期推荐

丨谷歌团队警告：人人都想做模型而非数据工作，这很危险

丨DeepMind这项最新研究，究竟经过深思熟，还是炒作新概念？

丨计算机视觉的“惨胜”：反思大型图像数据集

丨微软亚研院团队的思路与实践：预训练时代下的文档智能，如何迈向多模态?

丨计算机理论顶会 STOC 最佳论文：这种最常见 AI 技巧之一，意外发现新局限

丨 LSTM之父新作：一种方法，超越线性Transformers

丨苹果官方揭秘：这个强大的相册功能是如何实现的？

丨DeepMind的新强化学习系统，是迈向通用人工智能的一步吗？

丨调查：“AI红娘”来了，有一半人选择相信TA