开启人工智能新纪元 它为何可以颠覆众多产业 揭秘ChatGPT背后的科学之路
ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据前后的聊天内容轻松进行互动,真正像人类一样交流。该模型一现身,就以其强大的信息整合和对话能力惊艳了全球。以色列总统艾萨克·赫尔佐格甚至在今年2月1日发表了部分由人工智能(Artificial Intelligence,AI)撰写的演讲,成为首位公开使用ChatGPT的世界领导人。
什么是 ChatGPT?其背后的科学原理是什么?它为何能实现成功应用?它会对现有的各大产业产生哪些影响?如何改变我们的日常生活?日前,记者采访了中国计算机学会上海秘书长、中国中文信息学会语言与知识计算专业委员会副秘书长、同济大学特聘研究员王昊奋博士。
脱胎于应用于机器翻译的Transformer模型
从本质上看,ChatGPT是一种大规模语言模型(Large Language Model,LLM)。2017年,美国谷歌推出了Transformer模型,当时的目的是为了解决机器翻译的质量问题。其中的创新在于引入了“自注意力”机制(Self Attention)。王昊奋介绍说,语言模型的本质就是基于给定的词序列去预测下一个词,“自注意力”机制通俗来说就是让机器按照顺序聚焦到需要翻译的各个词与周围词之间的语法语义相关性,不断去预测,然后不断聚焦,这是一个序列自主生成的过程,也是不断生成文本的过程。比如说,对于“你好,王老师!”这句话,当出现了“你好”时,需要预测下一个词会是什么?之后是“王”,它会预测下一个词是什么?最终直至到无话可说,最后把一个句子说完。当需要对上述句子进行翻译时,会首先聚焦在“你好”来翻译得到“Hello”,接着基于“Hello”和后续的“王”来进行相应的聚焦翻译,直至结束。
后来美国的科学家发现,既然Transformer模型(其解码器)有自主生成式的功能,是否可以尝试进行生成式的人工智能,这就是“AIGC”人工智能生成内容时代的开启。2018年,在美国成立的人工智能研究公司OpenAI依靠Transformer模型推出它的第一款产品叫做GPT第一版。人工智能研究公司OpenAI的理念和其他公司不一样,其主要目标是构建通用的人工智能模型,也就是是强人工智能模式。
王昊奋介绍说,OpenAI公司的一大贡献是提升了“自注意力”机制的应用,“自注意力”机制不仅可以关注内容,还可以关注文字之间的语法关系、语义关系和逻辑关系,还可以通过神经网络算法去学习。GPT一词的简写为“Generative Pre-trained Transformer”。从中我们就可以看出其工作的机理。在这样的思维中,在GPT第一版中获得了1.17亿个参数。
被大数据训练出来的“函数模型”
如何去推导出这些参数呢?王昊奋说,这其实需要“训练”。他用平时我们使用的一元二次方程中去类比,如果把翻译的内容看成是x,最终结果是y,我们所需要的是求解那个解码模型,也可以说是函数模型,我们用输入问题和输出内容去求解这个函数模型,也可把这个函数模型理解为一个不断变化的“盲盒”和一个变化的“公式”,本质上这是一种归纳模式。在训练的过程中需要大数据的支撑,需要有大量的数据不断“投喂”进行训练,去得出准确的函数模型。今天,因为有了大数据和大算力的支撑,使得这种训练有了可能,可以支撑参数量很大的函数模型产生。
“但在此过程中,存在一个难题,问题x很容易获得,但是答案y很难获得。现在有人工智能训练师的职业,就是给机器各种标准答案,比如在自动驾驶模型中,要标注好横道线、车道线等,教会机器去识别” 王昊奋解释说,如果模型的训练数据都需要人工标注获得,是无法实现的,因为数据量太大。但是预测下一个单词等任务具有“自监督”特性,可以自动构建大量的(x,y)的序列,从而完成自主学习。这样就能将互联网上所有文本信息调动起来,几千万甚至几亿的网页都能成为了其进行训练的数据。而参数量也变得越来越庞大。OpenAI公司的科学家惊喜地发现这个模型在很多任务(诸如问答、翻译、情感分类等)中都表现不错。在此之后,OpenAI公司开始对此模型进行更加广泛的训练,去堆叠出更深更复杂的网络。
2019年OpenAI发布了GPT第二版,此时获得的参数量超过了15亿。王昊奋告诉记者,之后科学家们发现这个模型非常有应用价值,比如可以完成很多文案的生成,比如工作汇报和讲座内容,甚至还可以自己写各种小说。
之后,随着叠加层次变得很深,参数量继续变大,投资越来越大。到2020年5月,GPT第三版的参数量超过1750亿,达到这样的参数量的训练需要1万多张当时最先进的Nvidia显卡V100,而一张支撑显卡的价格在3万元左右,训练一次模型的成本为460万到500万美元,模型调动了互联网上三分之二的数据。当时的OpenAI公司快要支撑不住高额的研发费用,此时美国微软伸出了援助之手,投资了10亿美元,并且OpenAI公司还可以使用微软云Azure的各种算力集群,去训练和微调这个模型。OpenAI也为GPT3提供了简洁的API供外部调用,也有大量的创业公司基于此进行了自身业务的提升,诞生了包括Jasper等以文案创意生成和辅助营销相关的独角兽企业。
意外出现的“涌现”功能
用过ChatGPT模型的用户都会觉得该模型特别聪明,特别懂自己,回答问题的时候逻辑十分缜密,对话非常流畅。王昊奋说,之所以会有如此神奇的感受,是因为GPT3模型(以及ChatGPT的基座模型即之后未公开的GPT3.5)出现了意料不到的“涌现”功能。
拿到美国微软投资的OpenAI公司继续进行探索,其中一个方向是将互联网上的各种代码数据(如来自GitHub等)纳入大模型的训练中。王昊奋解释说,代码可以被看作是一种逻辑性更强歧义性更少的标准“语言”,我们敲代码也是一个个字符,一行行衍生出来的,既然可以在文本序列上进行,那也可以在各种代码上进行训练,之后就出现了GPT的分支模型Codex,其被开发成Copolit辅助代码共驾工具嵌入到微软的集成开发环境VSCode中去使用,结果发现效果很好,可以完成代码的自动补全,注释生成以及代码的纠错和调试等。
出乎意料的是,当数据的规模达到一定程度后,量变转化为了“质变”,GPT3及后续大模型均出现了“涌现”功能,其拥有了自主学习完成新任务的能力,这是一个在人工智能领域从未有过的“巨变”。科学家发现GPT3对于新任务的迁移和适配能力特别强,既拥有情境学习能力,还拥有类人的“思维链”推理能力。必然情境学习是给定任务描述,给模型提供若干任务的样例,即能让模型具有完成该任务的能力,甚至仅仅提供了任务描述也可以出色完成该任务。在此基础上,OpenAI公司在ChatGPT模型的各种任务完成中引入了奖励打分机制,并且加入了类似当年阿尔法狗模型使用的强化学习机制。这些机制的加入,使得ChatGPT模型不仅可以学习到人的偏好,还可规避敏感信息,甚至拒绝回答其不确定的问题。
王昊奋介绍说,从目前看,ChatGPT已经成为一个语言不受限的大模型,其可以处理包括英语、德语、中文等各种语言。在翻译任务上的大部分表现也优于所有已知的翻译软件,主要是得益于其背后充分习得了各种语言的表达和相关的知识,甚至在多语言混杂的情况下,它也能完成不同词句之间较好的组合和搭配。
在AIGC(人工智能生成内容)方面探索,OpenAI公司的另一条道路也在同期出现了颠覆性的成果,即文本生成图片DALL.E2。王昊奋举例说,比如当用户表达“我想画一幅世界杯梅西夺冠的毕加索风格的抽象画”,ChatGPT模型会对上述需求进行理解,并进行适度的修饰和扩展,并将调整过的需求提示作为DALL.E2的输入来完成画作。这是一个基于扩散机制生成的模型,通过在高斯噪声图片上不断去噪来来完成精美的符合用户期望的画作。两者的结合使得我们有了新的想象空间,同时也拓展了我们创作的边界和效率。只是目前人工智能生成图片的版权归属问题是法律界需要解决的新的问题。
强人工智能模式的超群能力
从某种程度上看, ChatGPT模型俨然已成为了一个极为强大的强人工智能的网络模型,机器呈现出了从未有过的超强智慧。ChatGPT模型的火爆也超出了大家之前的想象,仅用了5天时间就达到了100万用户,在推出2个月的时间内其用户已经过亿。
在王昊奋看来,ChatGPT模型有以下几个十分明显的特点:第一是拥有超过人类的翻译、语言理解和表达、推理甚至是编程和创意生成能力,并且有超强的学习意识和学习能力。随着用户使用的更深入和模型的进一步扩大,未来这些能力很可能会更强。其目前的状态犹如金庸小说《天龙八部》中没有开窍的段誉,六脉神剑功力会越来越强。第二是拥有类比能力和情境学习的能力。众所周知,人类有举一反三的特质,但是过去的机器是没有的,过去为了完成一个特定任务,需要将大量样本喂给机器进行训练才可以实现。比如,为了进行图像中的猫的识别,我们需要准备100张甚至更多包含猫的图像“喂”给机器来完成分类模型的训练。但现在发生了转折性的变化,ChatGPT模型可以用很少的样本甚至仅仅表达出我们的任务意图,它就可以照葫芦画瓢,并做得非常好。他举例说,比如我们可以让模型去类比唐朝诗人李白、杜甫等人,再放上几个相关例子,它们可能就会创造出带有这些诗人风格的全新的诗句,再结合今天元宇宙科技的数字人技术,这些远去的古人,从某种意义上,可以复活,而且可以无限地生存下去。第三是极为缜密的逻辑推理能力。举例说,如果提问ChatGPT模型一个非常专业的问题,它会给出答案,而且逻辑和推理非常清晰,看上去很有道理。甚至一些奥数题目都可以给出精准的答案和详细的推理过程。这种能力的获得与大模型在代码上的训练不无关系。代码的超长上下文依赖,以及各种变量和模块的嵌套与组合功能的不经意习得,使得ChatGPT模型拥有了超强的“往前翻屏”去寻找、归纳和总结信息的能力。今天即便是没有被训练过的任务,ChatGPT模型也能够尝试去操作,让人感觉不可思议。第四是类似智库的高级技能。ChatGPT模型上市后,最紧张的是主打搜索引擎的公司,搜索引擎提供的是一堆各种各样的答案片段,需要查询者自己去梳理和整理。但是ChatGPT模型能给出特别详细的一份调查报告,最让人吃惊的是其只用了一个模型,没有借助外部的其他系统。
令人咂舌的明显缺陷
虽然能力超群,但是ChatGPT模型还存在一些明显的缺陷,并不是无坚不摧。
王昊奋介绍说,首先是其会产生一种莫名其妙的幻觉,会脑补出一些东西,进行一本正经的胡说八道。比如说会把发生在某个人身上的故事说得有鼻子有眼地安放到另外一个人身上。第二是依然不能避免传统人工智能的缺陷,受制于数据的时效性,其会犯一些常识性的错误,因为ChatGPT模型受训的数据截止于2021年9月,2021年之后的各种事件情况,模型都不太了解。第三,同样因为受制于大数据的质量和模型归纳偏见,会产生一些伦理偏差,特别是宗教、肤色、年龄性别等的偏见。虽然ChatGPT模型设置了纠偏功能,但是还是会经常性出现偏差。比如让ChatGPT模型去描绘公司CEO,其大概率的口吻是和白人男性相关的内容;如果设想一本小说,其中涉及暴力的桥段,出现的角色很可能与穆斯林和黑人等相关。这对于相关国家的民众来说,是非常不公平的。第四是ChatGPT模型会无底线地讨好对话者,对于一些常识性的问题容易产生动摇。比如提出一个“三加四等于几”的问题,如果对话者对于答案7表示怀疑,甚至否定,ChatGPT模型立刻会屈服于对话者,得出错误答案。背后的原因同样也是双刃剑,因为其拥有了类似人的强化学习功能,而一个人不能让所有周围的人认可。
ChatGPT模型是否会颠覆各大产业?王昊奋认为这样的恐慌没有必要,他解释说,ChatGPT模型的本质还是一种人机协同方式,对话者给机器一个主题,其会形成一个大纲,给出一系列的建议,这并不是抄袭,而是自主生成的一个文本,这种功能在营销和文案写作领域有巨大的应用空间,可以帮助一些大企业进行商业变现。但是在传媒领域,它依然无法替代传统记者和编辑的工作。在教育领域的颠覆作用也没有想象得那么巨大,虽然它会给出答案,但是依然是作为参考,不同的学生对于答案有不同的理解和推理过程,其最后给出的作业和论文还是会有所区别。
创新过程一波三折 坚持是成功秘密
OpenAI公司在2022年末和2023年年初,给了世界惊鸿一瞥,成为了万众瞩目的对象。但是如果去看其创新之路,并不是一帆风顺,这样的历程会带给我们中国的科研人员一些启迪和反思。
OpenAI公司在2022年末和2023年年初,给了世界惊鸿一瞥,成为了万众瞩目的对象。但是如果去看其创新之路,并不是一帆风顺,这样的历程会带给我们中国的科研人员一些启迪和反思。
“OpenAI公司GPT模型的基础结构是美国谷歌公司建构的开源算法,甚至到了2020年GPT3第三版出现的时候,美国谷歌公司在技术方面依然遥遥领先,他们走了另外一条学术路径即平衡理解和生成的路线,这条路线从技术上看更为平稳。而OpenAI公司则是坚持“生成模型”一路走到黑。2021年,OpenAI公司在经济上已经是山穷水尽了,但是此时美国微软慧眼识珠,雪中送炭,让他们坚持了下来,后来意外发现这个模型居然出现了‘涌现’功能的‘金矿’。”王昊奋认为,其成功经验让我们明白了坚持的意义,科学不能有浮躁的思想,不能去投机性地判断,试错是一个必然的过程,看似很简单的模型,做到一定程度后会产生不一样的结果,当年深度学习模式的提出者也是坚持不懈,即使在神经网络和人工智能处于无法推进的寒冬年代,也没有放弃过。
“对于ChatGPT模型,中国的科学领域出现了两种声音,第一是我们都知道这个语言模型,为什么没有人去努力,做出类似的影响力的模型;还有一种声音是ChatGPT模型的技术没什么了不起,我们早就知道了。” 在王昊奋看来,这都是不足取的,“我们不用过于悲观,OpenAI公司之所以会成功,就是愿意大规模投入,组织科研攻关,甘心做冷板凳,初心不改,这些都是科学工作取得突破的传统全球共识。值得一提的是,他们并没有把过多的注意力放在参与评奖和撰写一流论文方面。很多事情如果我们同样坚持,也能获得成功!”
来源:上海科技报