最近,ChatGPT大火了!推出之后,ChatGPT只用了两个月就积累了1亿用户,随着越来越多的人开始用ChatGPT,发现他能做的东西越来越多,写论文、写作业、写文案、写代码都不在话下。于是,各种稀奇古怪的问题、要求,也被突发奇想的人类推到了它面前……小异发现,竟然可以向ChatGPT询问《人工智能:现代方法(第4版)》书籍的推广提纲,并且它能够提供多个切入点和案例建议,实在是智能又方便!
正由于ChatGPT这种无所不包、什么都能干的特性,让许多人工智能领域的大佬都对其赞叹不已。不过,这样的称赞都提到了ChatGPT的一个共同特点,那就是ChatGPT具有“孩子”一样的心智。换句话说,虽然ChatGPT非常强大,但它就像一个正在成长中的孩子,能发挥多少本事,取决于你培养和训练。输入的提示词说得越清楚,需求给的越多、越明确,ChatGPT的答复才更接近人们理想中的答案。
然而,问题来了:像训练ChatGPT这样调教AI的方式,人类之前也不是没试过,为什么今天的ChatGPT能有如此突破性的进展呢?
其实,对于ChatGPT的种种厉害之处,早已有一本权威书籍做出了分析和预测,它就是堪称人工智能领域“大百科全书”的《人工智能:现代方法(第4版)》。
今天,小异就带大家一起来看下,这本巨著的精彩之处吧!本书的作者Stuart Russell,不仅是加利福尼亚大学伯克利分校计算机科学系的教授,也是人类兼容人工智能中心主任,同时还是计算机与思想奖的获奖人之一。在任教的40多年间,在人工智能领域发表了300多篇论文,妥妥的领域内大佬啊。
到现在,《人工智能:现代方法》已经出到第四版了,这本书英文版成书于2021年,而上一版第三版在2010年。
而这一版本,也是本书最为重要的更新。因为这十年间,人工智能领域实在发生太多大事了,无论是AlphaGo和李世石的对决,还是AlphaFold更是完成了蛋白质结构的预测,再到现在ChatGPT的问世,都标志着人工智能领域的重大进展。而这本书,则正好对这些关键进展背后的理论、技术进行了重要分析。比如,里面就提到了ChatGPT为何如此牛的原因。
在本书的第二章,作者就提到,其实ChatGPT如此过人的原因,是由于其采用了一种名为Transformer的架构,而这也是ChatGPT最核心的技术。
Transformer全称Generative Pre-trained Transformer(也是GPT名字的由来)系列是OpenAI发布的预训练语言模型,这种模型最大的特点,就是可以减少甚至消除人工监督和标记。
那这模型是怎么做到这一点的呢?
首先,海量的数据训练,对模型能力的提升总是立竿见影的。
但倘若只止步于此,那它和之前的循环神经网络也不会有太大不同,真正令Transformer拉开差距的,是它能够同时并行进行数据计算和模型训练的能力。之前的循环神经网络,虽然能更好地处理有先后顺序的数据(比如语言),但在处理较长序列的数据,例如长文章、书籍时,往往就拉胯了。因必须按顺序处理数据,这就无法同时并行训练,于是训练时间就被拉得很长,时间一长,模型就会不稳定,就会发生梯度消失之类的情况。所谓梯度消失,指的是在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了。而与之相比,Transformer不仅能够同时并行进行数据计算和模型训练,而且还克服了传统的神经网络技术用浅层的预训练网络来捕捉单词,并无法解决一词多义等问题缺陷。简单地说,就是Transformer让ChatGPT学会举一反三了!这使得它的学习效率非常高。
除了核心架构Transformer外,书中还对ChatGPT背后运转的独特机理进行了揭示。与BERT模型类似,ChatGPT或GPT-3.5都是根据输入语句,根据语言/语料概率来自动生成回答的每一个字(词语)。从数学或从机器学习的角度来看,语言模型是对词语序列的概率相关性分布的建模,即利用已经说过的语句(语句可以视为数学中的向量)作为输入条件,预测下一个时刻不同语句甚至语言集合出现的概率分布。ChatGPT 使用来自人类反馈的强化学习进行训练,这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。由于ChatGPT更强的性能和海量参数,它包含了更多的主题的数据,能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。
书中还提到,ChatGPT之所以进化得如此迅速,主要归功于这么几个学习算法:第一阶段:训练监督策略模型
GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,人类首先得用“填鸭教育”的方式,让 GPT-3.5模型知道什么是“标准答案”。
具体做法是:先在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型。如果这一阶段GPT 3.5被训练得不错,人类就会对其鼓鼓掌,并表示:这孩子真聪明,现在可以做些开放式命题了。第二阶段:训练奖励模型(Reward Mode,RM)
这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型
只是到了这时,问题不再有“标准答案”,而是对于每个问题,生成多个不同的回答。对于这些没有标准答案的“开放式问题”,人类标注者会对这些结果综合考虑给出排名顺序。接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。
PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,你可以把这个过程理解为从开卷考试到闭卷考试的转变。
不但不让“翻书”了,而且问题的随机性也大大增加。
通过在第二阶段训练好的奖励模型数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。除了上述内容外,小异发现书中还介绍了很多关于ChatGPT的技术点,其中就包括但不限于:—— 卷积网络、循环神经网络
——机器学习(数据科学)
——深度学习(人工神经网络)
——语言模型(词向量、语料库)
——人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)
——自监督学习
——GAN生成式对抗网络
甚至,怀有人文精神的作者,还在本书的第27章和第28章中,专门用两个章节的内容,来探讨了人工智能的哲学、伦理和安全性的问题。在这个AI技术日新月异的当下,ChatGPT背后强大学习算法,无疑代表了人工智能技术最闪亮的结晶,而本书正是对人工智能发展过程中,这些结晶的总结与分析。
从最初的图灵测试,一直到今天的强化学习算法,书中涵盖了人工智能发展过程中所涉及的数学、心理学、神经科学、计算机科学等多方面内容。其内容之丰富,就像一张隐藏了无数宝藏的藏宝图,在眼前徐徐展开。在这个瞬息万变的智能时代,倘若我们能对书中的理论、知识细细钻研,那么必将会使自己在即将到来的科技革命前获得更大优势。
文案:廖 编辑:fine. 审校:桐希、罗玉淇、单瑞婷2.《ChatGPT发展历程、原理、技术架构详解和产业未来》
抽奖赠书
本次福利将送出《人工智能:现代方法(第4版)》* 5本,超高中奖率(参与人少,多期中奖率超过90%)为避免撸羊毛的用户参与抽奖,让更多真实用户获得社区福利,现在把抽奖方式切换到 spring4all.com 网上通过积分参与。本次抽奖地址:http://spring4all.com/forum-post/2244.html还有一大波福利正在路上,一起来参与社区内容的建设,一起学习一起成长吧!