访谈系列·E02S01｜llya的AGI信念：为伊消得人憔悴，十年终迎GPT震撼崛起

ai汤源 AI2Paradigm 2024-04-01

图｜汤源

文｜汤源

GPT-4成功背后灵魂人物Ilya访谈

-让机器学会思考与理解语言的关键

▽

题记

本文主要介绍了GPT系列模型的演进历程，从GPT-1到GPT-3，模型参数规模不断增大并在NLP任务中取得了良好的表现。作者提到了模型越大越好的直觉及信念，以及如何利用模型规模的优势来取得更好的结果。另外，作者也谈到了RLHF（Reinforcement Learning Human Feedback）的应用以及GPT-3预训练模型已经具备智能体的所有特征。本文还提到了GPT系列模型的局限性和缺点，以及对生成文本的所有权、真实性、可信度和责任的新伦理和法律问题。

在本系列解读-前言篇中提到，OpenAI的ChatGPT与GPT-4的成功推出，使得每个和GPT聊过的人都惊讶于GPT模型明显参透了人类语言理解与生成的秘密，能够精准理解会话意图。在GPT-4版本里，幻觉（hallucinations）的部分明显减少。聊得多了之后，你完全能够感受到被喂了全网的语料、出版物数字文本后的GPT大语言模型预训练体，已经形成了文本描述的人类世界。

然而，OpenAI 公司从早期的开源走向闭源，并且被大股东微软强迫快速商业化。GPT 系列的论文对具体细节描述不详，从来不释放模型代码以便业界共享人工通用智能（AGI）的成果，也不愿与其他机构共同研发AGI。

经朋友提醒，我又去看了MITAI研究员、YouTube百万博主Lex Fridman在两年多前对Ilya进行的专访，针对深度学习（Deep Learning）。这个1个半多小时的采访涉及了众多机器学习内容，到处闪现Ilya对于AGI前景的信心满满，并声称GPT2语言模型的水平已经使得AGI从孩童年代进入到成熟阶段。‍

在 Lex 的采访视频中，Ilya 被问到如果可以媲美人类智能的 AGI 发布后的第一个夜晚，会和他/她聊什么。最近老黄的访谈视频中的 Ilya，相比之下显得更加成熟，甚至有点憔悴，前额部分的头发也更加稀疏。不知道这两年多 Ilya 经历了什么，那次访谈后不久 GPT3 的论文就发布了，按道理那个时候预训练的模型已经可以对话了。看来那时 Ilya 就已经和 GPT 智能体度过了不少彻夜未眠的长谈时光。

就像笔者这些天一样，在 Bing Chat 和 Claude+ 中，我与我自己脑内的代理（agent）和语言模型智能体相互探索。同时，在无所不知的 GPT 模型智能体的帮助下，试图以我非专业的视角理解为什么机器神经网络竟然能参透人类语言的秘密！

与Lex采访不同，老黄视频专访中主导者明显是Ilya，他从深度学习专业的角度进行探讨。这次访谈中，Ilya自然地分享了机器学习器成长的关键要素。

本文是Ilya最新访谈系列解读的第二篇，继续揭示GPT模型背后的大神如何构建机器学习深度神经网络的NLP领域大模型，如何将对人类世界的认知提取与压缩，并可以以人类自然语言生成表达。

系列解读二：GPT正篇（2017-2020）

△

2017年：在Transformer之前的语言模型方向的突破

-发现能表达人类语言情感的神经元（情感单元）

▩视频访谈里的时间线到了2017年

在这段对话中，Ilya提到了他在2015-2016年初到硅谷创立OpenAI时，深度学习领域正处于低潮期。相比现在，之前的情况极其冷清，估计整个领域的从业人员数量也就一百多人，大多数都在类似于Google和DeepMind这样的大厂里工作。

同时，Ilya着重讲述了创立OpenAI的两个初衷，并且指出初衷的坚守是OpenAI今天的原动力。

无监督学习的一种路径是通过数据压缩实现（unsupervised learning through compression）
强化学习（reinforcement learning）包括游戏对抗学习和人类反馈学习

正是 OpenAI 团队在这两个方向不懈地努力下，取得了进展和积累，最终形成了 ChatGPT 发布的基础（GPT-3.5）。

Ilya特意提到了他的同事Alec Radford的发现。他们让循环语言模型（RNN）学习Amazon的购物评论，发现语言模型的神经元参数（neuron units）可以感知评论者的情绪。在他们共同撰写的一篇论文中提到了这一点：

论文BingChat解读｜学习生成自然语言评论和发现情感（Learning to Generate Reviews and Discovering Sentiment）
这篇论文讨论了如何利用字节级循环语言模型（RNN）来学习生成自然语言评论和发现情感。它声称这些模型可以在无监督的情况下学习到与高层次概念（如情感）相对应的解耦特征。它还展示了这些模型可以通过操纵情感单元来生成逼真和多样的评论。
在这篇论文写作的年份（2017年），他们做了一些事情，使深度学习取得了飞跃，例如：
1、开发了AlphaZero，一种通用的强化学习算法，可以在没有人类指导的情况下掌握不同的棋盘游戏。
2、创建了深度学习的开源框架和平台，如Sonnet，TensorFlow Eager，PyTorch和Universe。
3、用诸如胶囊网络、Mask R-CNN和神经风格迁移等技术推进了计算机视觉的发展。
4、用诸如Transformer、ELMo和GPT等模型改进了自然语言处理。

在撰写这篇论文时，Transformer 模型架构还未出现。Ilya 的团队使用的是基于 mLSTM（乘法式长短时记忆）架构的循环语言模型。当时还没有后来在 Transformer 中出现的 token 概念，因此被称为字节级（byte-level）。

BingChat｜乘法 LSTM (mLSTM) 是一种用于序列建模的循环神经网络架构，它结合了长短期记忆 (LSTM) 和乘法循环神经网络 (mRNN) 架构。mRNN 和 LSTM 架构可以通过从 mRNN 的中间状态添加连接来组合到 LSTM 中的每个门控单元。

具体的工程细节可以参考论文，但对于我这个非专业人士来说阅读论文并不适合。不过，我确实询问了一下Bingchat这篇论文的局限性：

论文的BingChat解读｜该论文的一些局限性包括：
1、该论文没有明确说明如何发现情感单元，以及为什么它在不同的模型和数据集中是唯一且稳定的。
2、该论文没有将其RLM与其他最先进的语言模型进行比较，例如Transformers（Vaswani等人，2017年），后者也可以生成逼真的文本并执行情感分析。
3、该论文没有在更细粒度或更复杂的情感分析任务上评估他们的RLM，例如基于购物评论方面的情感分析或嘲讽检测。
4、该论文没有解决产生可能影响人们的意见和决策的现实和操纵性文本评论的伦理和社会影响。
5、该论文没有提供任何代码或数据来重现他们的实验或验证他们的主张。

正如业界一直诟病OpenAI作为研究机构的地方，发表的论文和技术报告对于细节总是语焉不详，关键点也是一笔带过，而且也不和业界的研究结果做比较。当然，代码和数据更是秘而不宣。

论文BingChat解读｜这篇论文能够发现情感单元（sentiment units）的原因在于使用了大量未标记的数据（8200万亚马逊评论）来训练字节级循环语言模型（RLM）。该模型能够捕获长期文本中的依赖关系和高级概念。此外，作者还使用了乘法LSTM(mLSTM)架构，该架构具有门控机制，可以控制信息流并了解与任务相关的内容。这让他们的RLM能够以无监督的方式学习与情绪相对应的分离特征。

这篇论文的发现对于如何利用无监督学习让机器神经网络思考产生了极大的启发。这一进展无疑验证和坚定了Ilya一直以来认为的一个机器学习观点：训练方式决定了机器学习模型的表达能力。如果只是喂标记数据（监督学习），那可能只能表达感知层面的东西，比如视觉识别和分类。而如果给足够大和强的机器神经网络大量非标记数据（无监督学习），只要模型的神经元数量和数据集的数量达到一定的比例，同时有方法解决规模带来的问题，那么模型最终能够从海量数据中提取所有隐藏的语言密码。

视频脚本｜13:35 in which training these autoregressive generative models,
compress the data and intuitively you can see why that should work, if you compress the data really well, you must extract all the hidden secrets which exist in it, therefore that is the key.
其中训练这些自回归生成模型，如果你能很好地压缩数据，就一定能提取出数据中隐藏的所有秘密，因此这就是关键所在。

在视频中，Ilya针对他所说的无监督学习中的数据压缩进行了解释。他指出，Compression只是他在无监督学习早期的一个叫法。那个时候，业界还不知道如何训练无监督学习模型，这个词也不是简单的统计数学概念。我还向BingChat询问了他们的看法，他们的解释如下：

BingChat｜我认为 Ilya 的意思是他认为学习有用的数据表示的一个好方法是压缩它，即找到一种紧凑而有效的方法来对数据中的信息进行编码。压缩可以看作是一种无监督学习形式，因为它不需要任何标签或输出，而只是试图捕获数据中的结构和模式。通过压缩数据，我们还可以去除噪声和冗余，并专注于与任务相关的基本特征。

确实，借助GPT-4本身，我能够极大地提升探索LLM大模型涌现能力的效率。在我已经阅读过周志华机器学习“西瓜书”的基础上，如果再加上我个人的一些非专业的发挥，某种意义上，监督学习与无监督学习类似于人类的教育与思考。初期对婴幼儿只是识字辨物，类似于有标记学习。大脑的神经元发育到一定程度后，就能够独立思考、理解更多无标记的周围世界，并不断扩大大脑认知的世界范围。

同时，再次请教了BingChat相关背景知识如下，供大家参考：

BingChat｜机器学习的三种方法是：
监督学习，使用已知的输入和输出数据来训练一个模型，以便预测未来的输出，例如根据房屋的特征来预测房价。
无监督学习，试图在没有输出的情况下找出输入数据中的隐藏模式或内在结构，例如根据客户的购买行为来进行市场细分。
强化学习，让一个智能体在一个动态的环境中通过试错来学习最优的行为策略，例如让一个机器人在一个迷宫中寻找出口。

BingChat｜监督学习和无监督学习的区别
监督学习使用标记数据来帮助预测结果，而无监督学习则不然。
在监督学习中，模型从具有输入和输出变量的训练数据集中学习，然后将所学知识应用于新数据。
在无监督学习中，模型只有输入变量，并试图在没有任何指导的情况下寻找数据中的模式或结构。

BingChat｜那一年自然语言处理领域发生了一些进展
引入了Transformers，一种新的神经网络架构，它使用注意力机制来编码和解码文本序列，提高了机器翻译和其他NLP任务的性能。
发布了ELMo，一种新的学习上下文化词嵌入的方法，它能够从大规模文本语料中捕获语法和语义信息，提高了各种NLP应用的准确性，如问答和情感分析。
开发了CoVe，一种新的技术，它使用一个预训练的机器翻译模型来生成上下文化的词向量，可以用于其他NLP任务，如自然语言推理和情感分类。
出现了零样本zero-shot学习，一种新的学习范式，它可以从自然语言描述中学习，而不需要任何标注数据，使得NLP模型能够在不同领域和语言中执行任务，如文本分类和关系抽取。
推进了自然语言生成，一个关注如何从结构化或非结构化数据生成自然语言文本的NLP子领域，它导致了更真实和连贯的文本的创建，用于各种目的，如摘要、对话和故事讲述。

除此之外，我还问了BingChat 2017年在NLP机器学习领域发生了什么（如上）。虽然Ilya团队利用语言模型发现和生成“语言中的情感”并没有用到Transformer架构，但无疑那一年Transformer架构的提出，除了“Attention is all you need”和Ilya说的compression在无监督学习理念上的暗合，Transformer全新、简单的架构理念，在LLM大语言模型的计算效率比传统RNN高得多。加上在GPT中只使用了decoder-only的架构，使得GPT 1-3的发布速度更快。

▩2020年：从GPT1到GPT3的旅程

在2017年，OpenAI在NLP的无监督学习范式方面取得了突破，语言模型现在能够识别和生成语言中的情绪，GPT-1可以看作是这一进展的前身；Transformer架构的创新应用极大地加速了GPT系列模型的进化，尤其是无监督学习方面的快速发展。Ilya描述了Transformer的非RNN架构非常适合GPU计算，易于优化，大大简化和加速了模型对于大数据集的压缩抽象理解，使得GPT神经元能够逐步建立对于整个人类文本世界的理解。

视频脚本：来自于Lex Fridman 2000年对Ilya的采访视频
@Lex: 1:01:23 do you think attention is the key?
@Ilya: no, it's a key but it's not the key , the transformer is successful because it is the simultaneous combination of multiple ideas, and if you were to remove either idea, it would be much less successful; so the transformer uses a lot of attention, but attention existed for a few years, so that can't be the main innovation;
The transformer is designed in such a way that it runs really fast on the gpu, and that makes a huge amount of difference, this is one thing.
The second thing is the transformer is not recurrent, and that is really important too, because it is more shallow and therefore much easier to optimize;
so in other words, it uses attention, it is a really great fit to the gpu, and it is not recurrent so therefor less deep and easier to optimize, and the combination of those factors make it successful, so now it makes great use of your gpu, it allows you to achieve better results for the same compute and that's why it's successful

在谈到GPT系列的研究时，除了前面提到的无监督学习范式进展是两个大想法之一，Ilya特别以DotA 2这个实时策略游戏为例。当时，OpenAI内部启动了一个大型项目，使用强化学习来训练游戏代理进行互搏。最终，经过强化学习训练的游戏代理能够战胜全世界最好的人类选手。

视频脚本：
19:22 and there is a whole competitive league for that game, the game is called DotA 2. and so we train the reinforcement learning agent to play against itself to produce with the goal of reaching a level so that it could compete against the best players in the world, and I was a major undertaking, as well it was a very different line, it was reinforcement learning.

DotA 2游戏对抗中的强化学习成果后来应用到了GPT系列中，这就是现在大家所知道的RLHF（Reinforcement Learning Human Feedback）。

从2018年到2020年，GPT系列经历了从GPT-1到GPT-3的迭代演进。模型参数规模从GPT-1的1.17亿个参数增加到了GPT-3的1750亿个参数。Ilya在一次访谈中提到，在OpenAI内部，由于2017年的一系列进展和Transformer架构的应用，模型参数规模的增大不再是问题，而是如何正确地利用规模。他同时坚信，模型越大越好，关键在于如何充分发挥规模的优势。

视频脚本：
Ilya Sutskever: 18:07 the intuition, so I would say that, the way I'd phrase it is that I had a very strong belief that bigger is better, and that one of the goals that we had at OpenAI is to figure out how to use the scale correctly,
there was a lot of belief about an OpenAI about scale from the very beginning, the question is what to use it for precisely.

在 Lex Fridman 的采访中，Ilya 曾经做了更详细的解释：在统计和机器学习中，深度学习模型训练中的双重下降是一种现象。在这种现象中，具有少量参数的统计模型和具有大量参数的模型具有较小的误差，但参数数量与数量大致相同的模型用于训练模型的数据点的数量将具有很大的误差。误差先随着模型的增大而减小，然后随着模型开始过拟合而增大，但随着模型大小、数据大小或训练时间的增加，误差又会再次减小。

Ilya进一步指出，在大型模型训练过程中，直觉非常重要。很多人在测试模型性能时会提前停止（early stopping）。在双重下降的现象面前，当你训练模型并监控、测试、验证性能时，如果在某个时候验证性能开始变差，你应该说“好吧，让我们继续训练”，而不是停止训练，因为这可能是奇迹发生的时刻。

关于GPT1-3论文的比较和演进路径，本文不做专业解读，可以问问BingChat。

BingChat｜如何看GPT 1-3的演进
GPT-1、GPT-2和GPT-3是同一模型架构的不同版本，都是基于Transformer。它们之间的主要区别在于它们的大小，用它们拥有的参数数量来衡量。参数是模型在训练过程中学习到的权重，它们决定了模型如何处理和生成文本。
GPT-1 是第一个版本，于 2018 年发布。它有 1.17 亿个参数，并在 8,000 本书和维基百科文章1的语料库上进行了训练。GPT-1 可以使用一种称为微调的技术执行各种 NLP 任务，例如文本摘要、问题回答和情感分析。微调意味着通过使用少量任务特定数据更新其参数，使预训练模型适应特定任务。
GPT-2 是第二个版本，于 2019 年发布。它有 15 亿个参数，并在更大的 40 GB 互联网文本语料库上进行了训练2。GPT-2 可以执行与 GPT-1 相同的任务，但质量更好，数据更少。此外，GPT-2 还可以通过使用一种称为少样本学习的技术来执行某些任务而无需任何微调。Few-shot learning 意味着提供一些所需任务的示例作为输入的一部分，然后让模型推断其余部分。
GPT-3 是第三个版本，于 2020 年发布。它有 1750 亿个参数，并在来自各种来源的 570 GB 文本的更大语料库上进行了训练3。GPT-3 可以执行比 GPT-2 更多的任务，例如语言翻译、代码生成、图像字幕和常识推理，但示例更少或根本没有示例。GPT-3 还可以通过使用一种称为零样本学习的技术来适应不同风格和文本生成领域。零样本学习意味着仅提供所需任务的描述或提示作为输入的一部分，并让模型生成输出。
总而言之，GPT-3 比之前的版本更大更强大，可以在更少或没有监督的情况下处理更多样化和更复杂的任务。但是，与 GPT-1 和 GPT-2 不同，它尚未公开供普遍使用。

随着GPT-4的发布，我们回顾一下GPT系列的演进，目前GPT-3预训练模型已经具备了LLM智能体的所有特征，接下来需要进行RLHF微调和与人类意图积极对齐。

在本篇结束之前，我又向Bing Chat提出了问题，看看它的回答是什么：

论文BingChat解读｜你好，我是必应。我已经阅读了您提供的论文。
这篇论文是关于 GPT-3 的能力和局限性的，GPT-3 是一种大型语言模型 (LLM)，可以执行各种自然语言处理 (NLP) 任务，只需很少或没有示例。该论文表明，GPT-3 可以在许多 NLP 数据集上实现强大的性能，例如翻译、问答和完形填空任务，以及一些需要推理或领域自适应的任务，例如解读单词，使用新词写一句话，或进行算术运算。本文还指出了与 GPT-3 相关的一些挑战和问题，例如其泛化能力、对噪声和对抗性攻击的鲁棒性、其伦理和社会影响以及其可扩展性和效率。
至于这篇论文将为 LLM 和 AGI 领域带来什么，我认为有几个可能的含义：
该论文表明，扩大 LLM 可以提高它们与任务无关的、少样本的性能，这可能会激发更多的研究来开发更大、更强大的 LLM，以处理更多样化和更复杂的任务。
本文还揭示了 LLM 的一些局限性和缺点，例如缺乏可解释性、容易产生偏见和操纵、高昂的环境和经济成本，以及潜在的社会和伦理影响。这些挑战可能会激发更多关于提高 LLM 质量、可靠性、公平性、问责制和透明度的研究。
该论文表明，LLM 可以被视为通向人工通用智能 (AGI) 的垫脚石，AGI 是机器执行人类可以执行的任何智力任务的能力。然而，该论文也承认 LLM 距离实现 AGI 还很远，并且可能需要一种超越下一个词预测的新范式。这可能会引发更多关于 AGI 的定义、测量和可行性，以及实现它的可能途径和风险的辩论和探索。
该论文还表明，LLM 可以生成逼真且连贯的文本，从而可以愚弄人类评估人员。这可能对依赖文本生成或消费的各种领域和应用程序产生重大影响，例如新闻、教育、娱乐、通信和信息检索。这也可能引发关于生成文本的所有权、真实性、可信度和责任的新伦理和法律问题。这是我在阅读论文和查找相关资料的基础上的一些想法。我希望这可以帮助您更好地理解这篇论文。

▩2020年-现在，未完待续

阅读上篇：访谈系列·E01S01｜AI大神Ilya访谈揭秘GPT-4成功背后的关键，20年如一日的AGI坚守终惊艳世界

附录

💡 A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1～v4范式迭代简介

AI范儿A𝕀²·ℙarad𝕚g𝕞从V1到V4的迭代，是一种全新的尝试，基本是沿着：“从GPT现象·看Prompt本质·找创投应用方向“这样的路径，在“AI范儿”社区一众群友prompt下共创并逐步思考迭代的过程。当前v4.0版本涵盖如下内容：1*整体框架与范式路径：（human level）Intelligence as a Service整体框架，与炼丹、挖矿、化身、具生4原生商业范式迭代路径2*服务路径：模型原生（models native）服务路径与卖铲子（shovels selling）服务路径

3*智能发展路径：通用人工智能（AGI）发展路径、面向个人智能伴侣（PIA）发展路径以及硅基原生（Silicon Stack）智能发展路径

范式思维升级：v4版A𝕀²·ℙarad𝕚gm范式框架一个重大升级就是思维范式的变化，研究对象从GPT现象上升到智能现象，同时纳入了和人类及其组织智能对等的硅基原生智能及其生态，甚至在具有某种自主意识的AI智能体“具生”范式里，考虑在world of bits的纯数字世界里，和人类无关的agent形态。对等智能体分别为Human Intelligence Species（含群体组织）与 Silicon Native Entities（含群体生态），区别为human是否in loop。因此对等智能体之间的价值交互可分为：

AI对于人类智能的增强；
AI对于人类智能的替代；
AI智能本体的自主化。

四个GPT原生范式：及其对应的工程范式，版本迭代路径以及商业范式；并对每个原生范式的未来对应发展路径做了一一对应，具生范式是终极商业范式。

▩炼丹(pre-training) (v1. AIGC) - tokens as a service [～AGI/ASI]

▩挖矿(prompting) (v1. AIGC) - prompts as a service [～GPT agents]

▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service [～in-devices&on-premises agents]

▩具生(agents) (v3&v4. Promptless) - agents as a service [～world of atoms&bits | human in loop & Silicon Native Entities]

△附：A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1-v4范式迭代路径简介版

▩A𝕀²·ℙarad𝕚g𝕞整体框架示意图

说明：转发传播请注明出处，A𝕀²·ℙarad𝕚gm-Intelligence as a Service商业范式研究框架版权归AI平方范式智库所有。

△

“A𝕀²·ℙarad𝕚gm商业范式v4.0示意图”

进阶阅读

互为Prompt ｜大型语言模型的预训练·GPT智能到底意味着什么？

参考

说明：本文在公众号里标注为“原创”仅为防止未经许可的转发，本文引用内容的版权属于原作者和原媒体。

Microsoft 的 Bingchat
Anthropic 的 Claude+
https://youtu.be/SjhIlw3Iffs （ GPT-4 的创造者 Ilya Sutskever。@by Eye on AI）
https://youtu.be/ZZ0atq2yYJw （会议 JENSEN HUANG（NVIDIA）和ILYA SUTSKEVER（OPEN AI）-AI 今天和未来的愿景。@by Mind Cathedral）
https://youtu.be/13CZPWmke6A （ Ilya Sutskever: 深度学习 | Lex Fridman Podcast＃94 ）

END

扫码加群，

链接智库！

智能平方范式智库

那些prompt了我的，

是否也prompt了你...

继续滑动看下一个

AI2Paradigm

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

访谈系列·E02S01｜llya的AGI信念：为伊消得人憔悴，十年终迎GPT震撼崛起

-让机器学会思考与理解语言的关键

题记

系列解读二：GPT正篇（2017-2020）

▩2020年-现在，未完待续

进阶阅读

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

访谈系列·E02S01｜llya的AGI信念：为伊消得人憔悴，十年终迎GPT震撼崛起

-让机器学会思考与理解语言的关键

题记

系列解读二：GPT正篇（2017-2020）

▩2020年-现在，未完待续

进阶阅读

您可能也对以下帖子感兴趣