对话出门问问李志飞:GPT-3 是「暴力美学」的一次胜利
一项在科学家眼中超越 AlphaGo 的技术突破,让人类真切看到了通用语言智能的希望。
今年 6 月,特斯拉创始人 Elon Musk 创立的非盈利性 AI 科研机构 OpenAI 发布了一个名为 GPT-3 的语言模型,堪称具有划时代意义的重大科研突破。近日,OpenAI 开放了该模型的 API 申请通道,在外部 AI 研究者的参与下,该模型体现出的卓越性能迅速引爆全球,成为 AI 学术界及产业界的最热议题之一。
语言模型,顾名思义是能够理解人类语言的 AI 模型,在广泛应用的智能助手中,语言模型是其能够与人类交互的根本驱动因素之一,负责理解人类意图,并给出合适的回答。
在旧有的语言模型中,一直存在着通用性不高的问题,即一个模型往往只能在某一个特定领域发挥较好的效果。此次 OpenAI 发布的 GPT-3 在这一层面做出了突破,它是一个通用的语言模型,且在训练过程中更少地依赖人类,也即可以大量节省科研人员的工作。与此同时,GPT-3 的回答准确度并没有因此而下降,反而在某些任务上能够超过过去并不通用且需耗费繁琐精力的语言模型。
API 接口开放后,研发人员利用 GPT-3 构建了很多应用。比如有人做了一个前端页面编程器,在那里你可以给 GPT-3 出题,「制作一个红色的按钮」、「用黑色 100 号字写 WELCOME」......只需用自然语言描述,不用写代码,这个基于 GPT-3 的程序就能为你返回想要的样式。甚至,GPT-3 可以写简单的 AI 模型代码。
图为 GPT-3 写的图像分类模型
也有人用 GPT-3 开发了一个可以设计网站的应用,输入「一个长得像苹果官网的 Twitter 网站」,就可以直接看到页面。另外,GPT-3 还可以做数学题,做翻译,做问答。甚至有人问它「新冠疫情何时结束」,它回答「2023 年 12 月 31 日」,当然,这个答案的准确与否我们暂且无从判断。
图为学习过一段棋谱后,GPT-3 掌握了国际象棋技能
出门问问创始人兼 CEO 李志飞对这项技术突破感到激动,他认为这是一个重量级超过 AlphaGo 的技术突破,让人类真切看到了通往更加通用的语言智能的希望。李志飞在人工智能语音语义技术领域拥有近二十年的科研及产业经验,是美国约翰霍普金斯大学计算机系博士,前 Google 总部科学家。他认为,GPT-3 的出现饱含着「功能主义」的哲学意味,先求其然,再求其所以然,其背后是科研信念的支撑,是一种基于经验的直觉,也是最朴素的唯物主义世界观。
针对 GPT-3 的话题,极客公园与李志飞进行了深入交流。通过他的解读,你将能够理解为何 GPT-3 被称为「暴力美学」的胜利,以及 AI 模型如何以其独特的视角阐释「事物的发展均是由量变达到质变」。
GPT-3 的前世今生
——「GPT-3是语言模型中的全能学霸,他在无监督下的自主学习能力非常强」
无往不胜的 GPT-3,本质是一个语言模型,且是语言模型中一位实力卓然的学霸。李志飞生动地把他比喻为一位学生,从咿呀学语到精通各国文学,从为你写诗到谱曲读画,可以与人类自如对话,作文几乎通过图灵测试。
极客公园:GPT-3 本质是一个语言模型,对大众来说,如何理解什么是语言模型?
李志飞:如同物理模型是用来理解和描述这个物理世界的本质一样,语言模型用来理解和描述语言的本质是什么。人类有世界观,也有语言观,比如说语言是什么、构成语言的词或短语之间的关系又是什么。
简单抽象来说,语言模型主要用来做两件事。一是对自然语言做理解,比如给出两个句子,语言模型会判断哪个句子更像自然语言、句子里面的词或短语的依赖关系是什么;二是对自然语言做预测,比如只给出一句话的前几个字,语言模型根据语言规律来预测后面的字是什么。
极客公园:语言模型能用来做什么呢?
李志飞:传统意义的语言模型主要用在语音识别、机器翻译、OCR(光学字符识别,即针对印刷体字符,采用光学的方式将其转换为电子文本格式)等序列到序列任务里,对目标序列做预测和判断。
最常见的两种用途之一是,机器会将一句中文翻译成不同的英文,语言模型会对每句英文翻译进行打分,从而选择最优的翻译。另一种是,在语音识别中,仅说到「我们正在聊……」, 语言模型就会预测出, 你大概率要说的是「我们正在聊天」,即使没听到「天」的声音就能判断出你将要说什么话,而听到的声音则是这个信号的加强。
但是 GPT-3 代表着语言模型新的用法,不仅只是目标序列的预测或判断,而是可以把序列到序列这种涉及到两个序列的任务转换成一个单一序列的问题,这种转换的结果是模型非常通用,可以直接用来做语言生成、机器翻译、问题回答、文本摘要、数字计算、程序生成等多项任务,可以说是万能的。
极客公园:我们怎么训练出这个万能的语言模型?
李志飞:如果把训练一个模型类比成培养一个学生,我们一般遵从一种叫作「先预训练、后微调」的教学方法。具体来说,我们先给机器很多书本让他自己读,这就是所谓的无监督预训练(pre-training);然后给他很多有答案的题目让他做练习,这就是所谓的有监督的微调(fine-tuning)。经历这个学习过程,模型就训练出来了,接下来就可以对他进行各种考试了,比如说给他一句中文让他翻译成英文。但 GPT-3 模型是不需要微调的,所以是完全无监督的,是一个全靠自学成才的优等生。
极客公园:GPT-3 厉害在哪里?是因为聪明还是题海战术?
李志飞:GPT-3 的厉害之处可以用三个词来总结:多任务(multi-task)、无监督(unsupervised)、小样本动态学习(few-shot learning)。
具体来说,以前的模型一般只能处理单一的任务,对每一个应用场景都要单独训练模型。比如针对翻译考试要单独训练一个翻译模型,针对做数学题要单独训练一个数学模型。但是 GPT-3 可以在单一模型里处理多个任务,非常通用,而且每一个任务都处理得不错。如果将他比喻为一个学生的话,那他简直是一位科科都是高分的全才。另外,考试的时候,GPT-3 可以应对人类自由风格的综合面试,人们可以在自然的对话中随意出题,问题可以是天文、地理、历史、算术等穿插着进行。
更让人激动的是,这么一个优秀的学生在学习过程中居然是无监督、完全自主驱动的,也就是学习过程他不需要人们提供有答案的练习题来复习测验(微调模型),只要给他无限多的文本序列,就能自动从文本里学到各种知识。在他的学习成长经历里,就像从一个咿呀学语的小孩开始,仅需要教会他最基本的拼音识字(类似于 GPT 里的数据编码),然后给他《世界通史》《四大名著》《算数启蒙》等各类书籍,他就会开始主动地自学,也不需要向谁请教,通过一段时间的自学,就成为一个跨学科的厉害学霸了。
考试时,对于常见的任务,不需要给例子,GPT-3 就可以很好的答题了,比如说写作文,你出一个标题,他就自动有模有样的把文章给你写完。对于一些不那么常见或不简单的任务,只要给他几个例子,他也可以开始识别并完成新的任务。比如你对 GPT-3 说:这里有两个表示高兴的例子「我今天很开心」、「这真是激动人心」,你给我第三个表示开心的例子。GPT-3 也许就可以给出「我真是 high 到爆了」。正是因为 GPT-3 不预设任务的无监督学习特性,当考试拓展到编程、绘画、谱曲、翻译、算数等超越一般语言模型任务的题目时,他只需要小样本学习就能对答。这种对新任务举一反三过程,和人的学习有相通之处。
客观地说,我们还从来没见过这么优秀的、才华横溢的考生,而且他对自己几乎没有设限,无论输入和输出都是可以多模态的。
极客公园:从 GPT-3 的名字来看,好像不是这一系列的第一代模型?
李志飞:是的,他有两位哥哥 GPT-1 和 GPT-2,但是 GPT-3 青胜于蓝。
大哥 GPT-1 出生于 2018 年 6 月,应试成绩还不错,但是对于很多科目都需要监督式学习,东家 OpenAI 对此并不满意,成绩也没有在业界引起特别的反响,但 GPT-1 开创了「先预训练、后微调」的教学先河,反而让隔壁 Google 的 BERT 在业界大火特火。
于是 OpenAI 潜心研究,决定完全放弃监督式的微调过程,开启自学培养机制,半年后(2019 年 2 月),二哥 GPT-2 出生,考试中发挥不错,尤其是在自由写作(命题作文,给出开头,GPT-2 完成下文)表现亮眼,引起了较大轰动。但是由于数据量和模型还是不够大,对于更难的科目如翻译、问题回答等考得很糟糕。
OpenAI 继续苦心钻研无监督学习,并将数据和模型增至百倍,小弟 GPT-3 在这次考试中终于扬眉吐气、一举成名。
极客公园:GPT-3 的突破是如何产生的?
李志飞:GPT-3 的最基本假设是:如果序列数据规模足够大(比如说整个互联网内容),那么数据序列里自然就包含了人类日常生活中各种任务(如翻译、算数)的描述和例子;既然语言模型就是用来预测这些数据序列的,所以如果他规模足够大,他自然就应学习到怎么检测并执行这些任务。(这里逻辑有点嵌套拗口,得自己慢慢品)
比如说,你要去美国出差,找厕所是刚需,当你想问「附近有没有厕所」时,英文你可以说「where is the restroom」。你看,这里我们就给海量互联网数据贡献了一个中文到英文的翻译例子,只不过这个例子完全是隐含在自然语言序列里,而不是用一个特别死板的格式。GPT-3 特别厉害之处就是可以从海量的数据序列里自学到很多类似这样翻译的任务及例子。这样的想法本来也不新鲜,很多研究人员都有,但是很少人相信机器能用一个理论超级简单的语言模型就能自学成才,但是 OpenAI 相信并践行了这个简单想法。
极客公园:GPT-3 的学习样本和模型有多大,跟人类比呢?
李志飞:GTP-3 可以把整个互联网的浩瀚内容全部读完,他总共阅读了大约 5000 亿词,并从 5000 亿词里采样 3000 亿进行训练,模型大概有 1750 亿参数。系统可以上万个 CPU/GPU 在 24 小时不间断地「阅读」任何领域的信息,半个月即可读完整个互联网的内容,而人类即使终其一生手不释卷地阅读,其读书量也不过万册,GPT-3 在「努力」这一点上太有优势了。
另外,一般认为,人类大脑有 800 亿神经元,连接参数在 100 万亿到 1000 万亿之间。所以,虽然 GPT-3 读的内容量远超人类,但是他 1750 亿的参数规模离大脑还差几个数量级。当然,目前 GPT-3 只做语言相关的任务,而大脑还要处理运动、视觉、推理、规划、情感等更多任务。另外一个有趣的比较是,GPT-3 做文本生成时大概功耗是 400 瓦,而人脑一般认为是 20 瓦。
极客公园:听起来很「暴力」?
李志飞:对,就是一种「暴力美学」。
「暴力美学」的一次胜利
——「也许在工业界,人工智能的终极算法就是「暴力美学」」
拥有如此强大学习能力的 GPT-3,究竟抵达何种程度的边界体量。
今年 5 月,微软为 OpenAI 的模型训练提供了一台全球前五的超级计算机,它总共有 28.5 万个 CPU 核心、1 万个英伟达 V100 GPU 和每秒 400G 的网络。有人说,人工智能模型比卫星成本都贵。据专业测算,训练一个 GPT-3 模型的第一阶段需要「355 个 GPU 年」,仅这一阶段的训练费用高达 450 万美元。这一切看起来都只是暴力美学,但真的只是暴力即美吗?
大多数人,只看到了模型之暴力,鲜少人看到他技术上真正的难度和价值。
极客公园:GPT 的模型到底有多暴力?
李志飞:前面提到,GPT 模型到现在经历了三代,第一代是先做无监督的预训练后做有监督的微调,第二代和第三代彻底抛弃微调、完全是无监督的。三代之间模型本身基本没什么变化,都是基于 Google 的 Transformer 的从左到右 Decoder 模型。主要差异是模型规模,是训练数据、模型参数、任务数量的历代爆发式增长。
2018 年诞生的第一代 GPT-1 的训练数据包含几十亿词,有 1.25 亿参数;
2019 年诞生的 GPT-2 是对 GPT-1 模型的扩展,在超出 10 倍的数据量上进行训练,有 15 亿参数;
2020 年诞生的「后浪」GPT-3,训练数据量浩如烟海,多达 5000 亿词,参数量扩展至 116 倍,有 1750 亿参数, 实现对 GPT-2 两个数量级的增长,训练一次模型预计要花 450 多万美金,也因此得到了极其出色的性能表现,真是验证了钱多出奇迹。
GPT-1、GPT-2、GPT-3 的对比数据
极客公园:除了模型和数据暴力外,还有别的暴力吗?
李志飞:除了数据和模型暴力外,GPT-3 覆盖的任务多达 50 多个,论文的作者多达 31 个,这看起来也很暴力。这跟传统的学术研究有点不太一样,传统的学术研究是学校里一个教授带几个学生单兵作战,但 OpenAI 是兵团作战。传统研究涉及到多人协作时是比较松散的,但是 GPT-3 是几十人的有组织的系统性合作,有人出主意、有人搞数据、有人写代码、有人做实验、有人做评测。其实最近几年几个影响比较大的人工智能研究都是类似的模式,比如 Google 的神经机器翻译、BERT、Tensorflow 都是这种有组织的团队合作。
在论文里,还有一个很好玩的细节,在讲到防止测试数据存在于训练数据里而污染训练过程时,作者承认有一个程序 bug,但是由于重新训练模型实在太贵又经费不足就只能不管了,这在特别强调严谨性的学术界是匪夷所思的。
极客公园:暴力有技术含量吗?
李志飞:非常有。GPT 三代,数据量从几十亿词、到几百亿词、再到 5000 亿词,模型参数从 1.25 亿到 15 亿、再到 1750 亿,这本身就是巨大的工程挑战,需要那种既懂基础算法、又有超强的工程能力的科学家和工程师一起通力协作才有可能做成。比如说如果一个参数占 4 个字节,那 1750 亿参数的模型就需要 750G 内存,这远超单一 GPU 的最大显存,显然需要分布式的 CPU/GPU 异构训练系统。
这让我回想起在美国约翰霍普金斯读博士和谷歌研究院工作的两段经历。在学校读博士做机器翻译实验时,由于学校计算设施比较弱、自己单打独斗,经常需要半夜爬起来重启机器,或者拷贝数据到没有死的机器上重启训练。在谷歌做机器翻译时,由于良好的分布式计算框架以及组里几十位一流的工程师把算法框架做的非常通用可靠,做实验时只要在下午下班前提交训练任务,第二天早上邮箱里就会自动收到新模型的各种测试成绩,这实在是太轻松了,而且处理的数据量和语言种类都是学校的好几个数量级。这两段一线经历让我切身感受到了暴力规模化的难度和价值。
极客公园:所以一从工程角度看,「暴力」本身是一种美。
李志飞:暴力是不是美?这件事可以由艺术大师来阐释。但现实来看, 也许在工业界,人工智能的终极算法就是「暴力美学」。当把数据量、模型规模做到足够大时, 语言模型将会越来越通用,目前看来是可以通往更加通用 AI 的。
极客公园:「暴力美学」有尽头吗?下一步是什么?
李志飞:我相信还没有到尽头。
互联网的数据每个月都在不断增长,计算力也在不断增强;如果把人类大脑比做模型的终极目标,GPT-3 的参数规模跟人脑比还差好几个数量级;GPT-3 随着数据和参数规模增大而展现出的学习能力曲线目前也还没有要停止的意思。虽然 AI 的学习能力还没有达到大家公认的「摩尔定律」,但是过去几年确实看到模型每几个月就翻倍。可以预测到的是,GPT-4 参数又会增大至少 10 倍,而且处理的数据将会更加多模态(文字、图像、视觉、声音)。
极客公园:为什么 OpenAI 这么信仰「暴力美学」?
李志飞:OpenAI 的使命是创造更加通用的人工智能(AGI),并始终朝着这一使命努力奔赴着。关于如何实现 AGI,有两种流行的信念。一种认为现有算法原理足矣,问题只是如何规模化;另一种认为,现有的深度学习技术还不够,还需全新的算法范式。大多数研究人员都处于这两个极端之间,但 OpenAI 一直以来几乎都站在「规模化」这一极端,他们怀着对「暴力美学」的信仰,相信只要模型足够大,就能实现 AGI。过去,他们的大多数突破也都是建立在对大量计算和数据资源的投入上。
极客公园:那您信仰「暴力美学」吗?
李志飞:我以前特别反对暴力,觉得没有什么深度,研究也没有美感,不能让人内心愉悦。但是,最近的很多现实进展让我开始相信或者至少不再一味排斥「暴力美学」。我认识到,很多网络系统,它们的底层节点和节点之间交互规则非常简单,但是只要网络规模足够大、系统内节点间交互足够密集频繁,系统一层一层往上构建,假以时日就会展现出令人惊讶的「集体智能」行为。计算机、互联网、人类社会作为一个系统都是这种现象,谁说人脑就一定不是上帝的「暴力美学」呢?毕竟人脑的参数比 GPT-3 还大几个数量级呢。所以,很惭愧地说,对于「暴力美学」,我是因为看见而相信,而 OpenAI 是因为相信而看见。
坚守语言主权,做中文的 GPT-n
——「开放拥抱、先模仿再创新、与全世界共同迭代」
极客公园:GPT-3 的现实意义是什么? 将对 AI 技术带来怎样的改变?
李志飞:在我看来,GPT-3 的现实影响力可能会比 AlphaGo 更大。AlphaGo 更多是对人类心智的冲击,但他的应用层面是比较窄的,甚至没有直接可以工业应用的地方。而 GPT-3 可以应用的场景太多了,他基本是一个增强版的搜索引擎或 AI 助理, 可以回答问题、编程、写新闻稿、数学推理、做财务报表……而且一个模型就可以做所有事。这是具有巨大商业价值的一个事情,听说 OpenAI 就在考虑用户为使用语言模型而付费的这种闻所未闻的商业模式。
我相信,GPT-3 有潜力形成类似 TensorFlow/Android 上下游的生态系统,事实上,已经有很多开发者基于 GPT-3 的 API 开发了很多有意思的应用。
极客公园:GPT-3 完美吗?智能吗?
李志飞:当然不完美,现在很多拥抱 GPT-3 的早期用户,由于对技术和新鲜事物的热爱,他们的接受度比较大,所以存在一定的 hype。但是,一个新的技术要变成一个普适性的大众产品还有特别多的工程和产品细节需要打磨。
关于智能,一种观点认为,GPT-3 不具备人类的抽象和推理能力,它的表现只是对大数据的聪明记忆,无法超越数据本身;另一种观点认为,他拥有抽象理解和推理的能力。我认为目前的 GPT-3 介于这两种极端之间。
为什么呢?网上有一个例子很好的佐证这个观点。比如说 GPT-3 可以做加减法,如果是两位数,他获得 100 分,那么他是否完全「学会了」加法吗?答案是没有,因为五位数加减时只有 10% 的准确率。另外一方面,如果只是纯粹的记忆,就算记住这 10% 正确的五位数加减法,现有规模的数据里需要至少有 1% 的语言序列是关于五位数加减法的,显然互联网数据上不可能有这么高频的关于五位数加减法的语言序列,所以他不是纯粹的记忆。当然,我们确实也没有理解他到底抽象理解到了什么,这是未来很重要的研究主题。
极客公园:面对 GPT-3,我们该持什么样的态度?
李志飞:面对暴力算法,传统的学术研究很容易轻视怠慢,觉得只是数据和模型的规模更大而已。但我觉得不要因为他现有理论不够精深,或目前看起来仍有很多差错, 就急着去否定他。我认为,当你没有更加通用并且有效的方法, 我们应该从实用主义的态度上去拥抱、学习、改进它。至少目前看来,GPT-3 是有通往更加通用的人工智能的潜力。
极客公园:GPT-3 这么暴力,我们怎样去拥抱?感觉只有超级公司才能玩。
李志飞:不全是。很多模型或算法的难点在于没有实现前,我们不知道行不行。但现在 OpenAI 证明 GPT-3 是可行的。基于这个,还有很多工作可以展开。比如说,作为工程师和创业企业,可以开始用 GPT-3 的 API 去进一步验证他的强项和弱项。对于学术界,可以进行小规模可控制的实验去研究或拓展 GPT-3,也可以去做实验解释暴力为什么这么美,还可以多美?
当然,不可否认的是,我们首先得复制一个类似于 GPT-3 的系统。因为中文数据量级会比英文小很多,整个工程难度自然也会小不少,我们可以从复制一个中文 GPT-3 开始。有了这么一个基础系统后,我们才可以跟世界同步迭代、改进,并共同创新。
极客公园:出门问问会做中文的 GPT-3 吗?
李志飞:有可能,我们一直对更加通用的语言智能很有兴趣。
极客公园:GPT-3 诞生于美国,在目前的中美格局下, 中国该如何应对?
李志飞:据 OpenAI 的统计,让人类对 GPT-3 模型生成的约 500 词文章来判断这个文章到底是人类还是 GPT-3 撰写的,人类判断准确率仅仅只有 52%,即随机猜硬币正反的概率。基于这一点,我们可以预见,也许未来三五年,互联网上的大部分内容是类 GPT 模型生成或修改过的。某种程度上,因为 GPT 模型告诉你什么是更自然的语言、什么是更正确的答案,人类的语言习惯和知识体系都会被 GPT 模型大幅度影响。所以,人工智能的发展代表着语言主权的演进,且 GPT-3 将有潜力成为一种生态系统,我们必须加以重视,去创造和迭代中文的 GPT-3。
极客公园:面对 GPT-3 这个超级学霸,我们人类需要担心吗?
李志飞:需要,如果人类再不努力的话,也许明年,GPT 就比 99% 人类在语言方面更厉害了。当然,GPT-3 也只是机器迈向「智能」之峰的一级比较大的台阶,路漫漫其修远兮,AI 上下而求索。
图源:OpenAI、出门问问技术团队|责编:宋德胜