“这一次,机器与人的交流,是机器迁就人,而不是人迁就机器。”回顾当代人工智能领域近十年简史,从image net到NLP语言大模型,ChatGPT的“狂飙”,不仅为AI生态带来了全新的洗牌机会,爆火的AIGC赛道也迅速成为最炙手可热的投资和创业关键词。2月底,码脑发起「一起向未来」AIGC主题系列分享,特别邀请国内外技术大咖、行业创业者等,围绕“AIGC的概念与商业机会”“AIGC在美国的演进与发展”“AIGC的落地应用:难点和痛点”“AIGC的未来:聚焦AIGC的商业应用与机会”等热门话题展开分享和讨论。3月1日,我们邀请到了NLP资深架构师、Trend首席科学家、前科大讯飞AI研究院副院长李维博士,在硅谷跨越16个小时时差,线上为近200位码荟成员进行了《通天塔建成后的LLM的生态和应用》主题分享,话题涉及“ChatGPT代表人类语言通天塔已建成”“ChatGPT不是万全的知识库”等内容,为大家带来了一场干货满满又观点独到的知识盛宴!我们将李维博士演讲内容整理成文在此分享,此为第一篇,重点介绍ChatGPT 的影响,以及ChatGPT背后的LLM怎么炼成的。
自然语言处理(Natural Language Processing,NLP),是AI皇冠上的明珠。AI主要分为感知智能和认知智能,从感知智能到认知智能的飞跃,主要的标志就体现在NLP任务的完成能力上。人类语言是人类知识的载体,把语言搞定,是进入人类认知智能的一扇大门。千百年来,消除语言障碍一直是人类的梦想。《圣经》中的巴别塔指的就是人类语言的通天塔,但这被认为是一种空想,注定无法建成。我们NLP从业人员也一直在追求这个梦想,感觉真比登天还难。
但是,2022年11月30日,请记住这个日子,以美国人工智能企业OpenAI正式发布ChatGPT模型为标志,通天塔正式落成!它不仅成功消除了人类语言的障碍,还把人类和机器交互的桥梁也建立了起来。这个历史性时刻当时在国内没有引起大的反响,国内同胞不幸正处于疫情高峰期。两个月后等我们从疫情中走出来后,才发现人世间发生了如此巨变,一场ChatGPT海啸开始席卷海内外。为什么说ChatGPT就是人类语言的通天塔呢?因为它的语言能力其实比Native还要Native:native speakers难免有口误和表达不规范,而大模型做底的ChatGPT的生成却总是那么地道、合乎语言习惯。从输入端来看,它能听,就没有它听不懂的语言,理解能力特别好。从输出端来看,它能说,常常口若悬河。最让人震撼的是,从它的语言表现我们看到了背后的“思维链”和一定的逻辑推理能力,给人的印象是条理清晰。输入输出的背后是大家称为LLM(Large Language Model)的语言大模型,我们用户看它就是个深不见底的黑洞,里面有很多层的神经网络,内部表示是多维向量,俗称“劳碌命”,是它在那里劳碌,分析理解,组词成句。这个“劳碌命”的工作以ChatGPT的形式表现出来,就完美实现了人机的自然语言接口。我们看看ChatGPT背后的LLM怎么炼成的。这方面的技术性介绍已经汗牛充栋了,我们简述一下背后的原理。它的背后是GPT3,准确的说是被称作达芬奇的GPT3.5最新版作为基础。这个模型首先是规模超大,大力出奇迹。千亿级的tokens作为训练数据,形成千亿级参数的模型。研究表明,通用大模型到了一定规模以后会出现一种技能“涌现”现象,这些涌现技能稍加提示就可以在各种多任务中表现出色。以前笼统地归结为量变引起质变,基本上是把奇迹发生当成一个谜。就好像是说上帝的垂顾,现代版的愚公移山的故事:现代愚公大力不止,感动了上帝。现在看来并没有那么神秘:多任务能力的涌现必须以超大数据LLM为基础,这是因为没有LLM,就没有根据人类偏好来调教模型的空间。从语言序列学到的生成大模型,最大的特点就是能产性,给一个前文提示,后续有很多种“接龙”的可能性,但这些可能性中只有很小的一个比例是我们希望看到也感觉得益的,还有很多生成是肤浅的、空洞的,甚至有毒的。ChatGPT的突破就是在这最后一步的调教中,以强化学习为核心,找到了一条与人类偏好对齐的有效的方法。这就好比有一个巨大的水盆,里面装着1000个孩子在沐浴,现在想把洗澡水倒掉,有没有一个好的办法倒完洗澡水又不倒掉孩子呢?几乎不可能。但可以粗线条操控,结果是水是倒掉了,但也倒掉了900个孩子。人们知道的是它有效地留下了一批合格的孩子。能够这么做的前提是,盘子要大。能这么做,敢这么做,只有超大数据的模型。举个例子,正常的语料中,直接与翻译、问答技能相关的数据有多大比例?是个零头吧,数据规模不大的时候,从序列学习的模式中很难学到这些技能。但超大数据就不同了,小的比例乘以一个大数,就有了学习的条件和土壤,这时候如果模型足够大,这些技能就会被潜在地学到。在一个有几乎无限生成可能性的基础模型中,如果不做足后来的功夫,大概率生成的还是水货。于是“符合人类预期”就成为后期调教(fine tune)的最大目标。这个过程中,很多孩子也给倒掉了,文献中称为 alignment tax(指的是打造自然语言接口模型为与人类对齐必须缴的“税”)。不怕,因为人们看不见被倒掉的宝贝,只要看见的是好孩子就行。大模型有足够的冗余,不怕层层过滤和减枝。其实,不是大模型本身出奇迹,而是大模型为奇迹的出现准备了温床。ChatGPT和以前的大模型不同的地方是它精心筹划了一个人类反馈的强化学习。对于一个通用的开放系统,人类其实也讲不清楚好坏,但是至少可以说你这一轮跟我的对话回答得好还是不好。拿这种反馈去强化训练和微调大模型,ChatGPT突然就显得善解人意了。人机交互从以前的人迁就机器,不得不编写代码,变成了机器迁就人,听懂人话了。这是一个巨大的转变。强化学习在诸多学习算法中是很不好伺候的一种,因为链条长,而且对于最终目标的定义不是显式和直接的,而是间接以效果论英雄。调教说的是把原基础模型的大概率水货压下去,让隐藏在原模型中的小概率宝贝浮上来:孩子才是符合人类预期的强化目标,但并不是特定的孩子作为优化目标。反正这个世界没有唯一的答案形式,生成通常没有黄金标准,我们有的就是模模糊糊的人类基于偏好而给的反馈:这个回答好,那个是胡扯;这个对路,那个是歧视。能够较好利用这种终局反馈的典型方法正是强化学习。这个反馈回路一旦建立起来,模型可以不断强化和迭代, 表现自然越来越好。于是,强化到了公元2022年11月30号,帷幕揭开,这是人类见证奇迹的时刻。如实说,我一辈子从事NLP,从没想过在有生之年能够看到这样的奇迹。老祖宗说过,朝闻道夕死可矣。亲眼看到通天塔的建成对于我超过了朝闻道,感觉后去每一天就是赚着了。ChatGPT到现在已经过去3个月了,还是感觉像在做梦一样。有时看着ChatGPT的图标出神,反问自己,这难道就是通向新生态星辰大海的语言之门吗?不得不说,所有的迹象都表明,ChatGPT的背后有着无限的可能性。
我们后退一步,回顾一下人工智能黄金十年的当代简史。十年前,在ImageNet比赛中,深度学习第一次压倒性的碾压了所有其他路线的机器学习成绩,在图像领域掀起了一场标志性的神经网络革命。深度神经网络靠的是大数据的监督学习。从此,我们知道,只要数据足够大、有标注,深度学习就可以搞定。横扫了图像、语音和机器翻译之后,却遇到了NLP的拦路虎,因为很多NLP任务是没有大规模的语言带标数据的。五年前,NLP领域出现了语言大模型,LLM(以 BERT及GPT为代表)登上舞台。LLM从语言学语言,无需标注就可以直接把语言给“吃”下去,学界称为自监督学习。LLM标志着二次革命的到来,它一下子把NLP推向AI的中心,成为认知智能的核心引擎。AI摆脱了对于带标数据的依赖,克服了知识瓶颈,从感知跃升到认知。三个月前,ChatGPT诞生,建造了一个几乎完美的人机自然语言接口。从此,机器开始迁就人,用自然语言交互,而不是人去迁就机器,用电脑语言。这是划时代的改变。LLM一路下来直到ChatGPT的问世,才真正把它的语言才华与知识潜能外化了出来,让一般人也能体验。回顾一下,人机交互及其应用也做了很多年了,但在ChatGPT出来之前,一直没有真正搞定它。两年前推出GPT-3大模型的时候,我们业内人士就已经知道它有多大能耐了。你只要给它几个样例,它就能顺着样例来照猫画虎,这就是所谓few shots,不需要改动大模型,也不需要大规模标注数据。通过少数样例就能激发GPT3的潜力,实现各种NLP任务。这已经很惊艳了,它克服了监督学习的知识瓶颈。但了解LLM这些惊人表现的基本局限在玩家的一个小圈子里,它的大爆发还需要一个语言的桥梁。ChatGPT应运而上,它最大的特点就是所谓zero shot,也就是说连样例也不需要了,可以直接告诉它做什么。五年有监督,五年自监督,最终修成正果,建成ChatGPT牌通天塔,是为AI黄金十年的巅峰时刻。ChatGPT横空出世,有如海啸,“搅得周天寒彻”。借用主席的诗情:太平世界,环球从此狂热。
顺便一提,这里提到的“三截”都与LLM当前的短板或局限有关:第一是如何对接符号资源(例如数据库)与符号路线。第二是如何打破领域壁垒,落地场景创造价值,与领域对齐。最后一条是科学上的理论诉求:LLM 这些突破目前为止还是经验性的,理论上的机理研究还远远不够,对于很多表现,我们是知其然不知其所以然。从更远一点的视角看AI历史,30年前主要是用符号逻辑去解决NLP的任务。符号路线与机器学习是AI历史上20年河东,30年河西轮流坐庄的两条路线,像钟摆一样,但近30年来机器学习作为主流一路上扬,到最近10年的深度学习更是高潮迭起,钟摆没有回落的迹象。我是在符号逻辑规则系统当中一路走过来的,它不在主流但也不乏创新,有自己的差异化优势。值得一提的是,符号规则的模型也是拥抱了经验主义的数据驱动,依靠多层模块的串联,最终把语言结构搞定,我们叫做深层解析(deep parsing)。与LLM类似,深层解析也是先把语言给消化了,但序列符号解析为内部的图符号结构,而不是LLM的向量表示。殊途同归,深层解析用结构去赋能下游的NLP,大大提升NLP的效率。但在LLM面前还是小巫见大巫,因为LLM搞定的不仅仅是句法结构,它还搞定了上下文篇章以及计算风格,这些方向涉及很长的距离以及语言表达的细微差异,对主攻句子结构的解析器是很大的挑战。说这个历史是想告诉大家,AI一直有两条主线,除了机器学习还有传统的符号逻辑,上升到哲学高度,两条路线分属经验主义与理性主义。两条路线此消彼涨,30年来机器学习一路上扬,从传统的统计模型走向神经网络革命的深度学习,而另一条路线在主流舞台上已经不见踪影,虽然工业界从来就不曾放弃对它的使用。符号那边也有它的透明性和可解释性的优势,透明性直接转化为工程上定点纠错的便利,这与LLM形成对比:神经网络的内部向量总体上还是像个黑箱子,我们只能采用重新训练的方式宏观调控,或者采用微调或few shots帮助诱导。LLM无法像外科手术一样做定点纠错。LLM 的缺乏可解释性在落地应用的时候,也常常造成用户的担忧和困扰。或许在将来的某一天,两条路线汇合的地方,会有一个AI的新革命或突破。从人工智能的通用性视角,我们看到LLM之前的模型几乎全都是专项的,任务越窄,表现越好。一个例外就是解析器,它实际上是前LLM时代的“符号基础模型”,用结构赋能下游的NLP任务,与LLM异曲同工。15年前,我就是用它搞定了多语言社会媒体的舆情挖掘,把Netbase建成了美国NLP落地产业的 SAAS领跑者,站稳了市场,迄今还是该赛道的美国绝对老大。但解析器赋能门槛较高,最多可以做到低代码,类似于大模型的微调,还无法做到LLM那样的现场 few shots 或 zero shot搞定任务,规模化普及和渗透自然也落后于LLM。LLM的最终目标被定为AGI(Artificial General Intelligence),也就是通用型的人工智能。AGI一直是一个有争议的目标,我与其他许多学者一样,曾经怀疑甚至嘲笑过AGI的不切现实。现在回看,可以说,五年前LLM的出现,让AGI从乌托邦走向科学。高举AGI大旗的OpenAI 成为最耀眼的明星,在它缴出的令人炫目的成绩单上有一长串有影响的LLM通用模型,除了面向NLP的GPT系列,还有赋能编写和调试代码的Codex(最终用于微软提供的 Co-pilot服务),以及赋能图片生成的 DALL-E。以ChatGPT作为巅峰,直接用自然语言作为传达任务的指令,大模型包揽了NLP各项任务,不仅是NLP社区定义过的各种任务和赛道,也包括很多用户自定义的任务。它的NLP任务是完全开放的,跟语言和知识有关的任务,你都可以用任何语言尝试给它指示,往往招之即来,立竿见影,就是这么神奇。有人列举了它能完成的49项场景任务,其实远远不止如此,每时每刻都有人发现有新的场景任务它可以胜任。这是NLP历史上从未有过的盛况,业界称为技能“涌现”。可以考察一下它为什么如此多能,显得那么博学。总体而言,人类的有系统的知识基本上都是靠语言去表达的。人类知识是以语言文字的方式承载的,人造的数学公式可以看成是人类书面语言的延伸。从语言学角度,人类知识可以分为语言内知识与语言外知识。语言内知识包括词典、句法、词法、篇章、风格等知识,构成人类知识的基础。语言外的人类知识是一个很大的圈,边界则广得多。对于语言外知识,现在的语言大模型还远远没有搞定,它只是搞定了飘在上面的一些知识。就ChatGPT而言,可以说它搞定了语言内知识的全部,但语言外知识毛估估不过搞定了20%左右,包括常识、基本逻辑与百科知识。需要有更严肃的研究才能定量化,但大体上感觉也就是20%左右的知识,剩余的80%是还没有学到。那么,为什么它搞定了20%的人类知识就感觉它像个无所不知的渊博的教授呢?这是大数定律吧,所谓 80-20 rule,就是说,搞定了飘在上面20%的知识,实际上就搞定了80%的场景。正因为还有80%的知识空缺,所以它也常常闹笑话,不懂装懂。尽管如此,知其长短,善加利用,LLM 仍然可以改变生态和世界。如何判断它有没有学到,任务的完成度如何?在AI工作当中,任何一个任务都需要有测试集,测试集就需要样本。现在ChatGPT用的是Zero Shot,是随机给它定的一个任务,所以连测试集都没有,理论上是无法判断它的表现的。这种情况下,系统的内部测试阙如,只能间接采取外部的办法考察,例如客户问卷调查或利用我以前的公司Netbase 的服务(social listening)去收集网上的客户反馈,种种迹象 表明看来客户的满意度超过了80%,在各种任务的尝试,多数时候,客户的需求得到了满足,还有不少感觉惊喜和震撼。另一个相对客观的外部指标是用户的黏性与增长性,而ChatGPT在这方面创造了前所未有的记录,短短几个月就达到了上亿的用户量,这还不包括无数想使用而Open AI目前不支持的国内朋友。ChatGPT客户增长速度超出所有人的想象。ChatGPT 引起的LLM海啸呼啸而来,一点没有稍减的迹象。在中国,这个LLM的风暴晚了一两个月,等大家从疫情走出来以后,ChatGPT开始发酵,现在已经是无人不谈的话题了。几个月来的信息轰炸,连续不断的分享、座谈和演讲,也不见审美疲劳,这真是一个现象级的奇观。最近陆奇来硅谷做演讲,更是火上浇油。他把ChatGPT这场革命比作Web-1。众所周知,第一次网络大爆发的时候,标志性的东西是Netscape浏览器,虽然Netscape没有做大,但正是由它引起的那场互联网革命才造就了雅虎、谷歌、亚马逊等巨头。稍微往后一点,中国也发生了同样的革命,才有了百度、腾讯、阿里、头条这些世界级的大厂。陆奇认为,我们现在就处于这样一个时代。陆奇说,路线图是如此清晰,趋势是如此显然,他说在他心中没有丝毫犹疑。口气中带着先知般的自信和笃定。陆奇也是奇人,这个看上去一个典型亚裔码农形象的人,说话间有一种气场在辐射,那种高屋建瓴、纵览全局、预知未来的神态,同胞中不多见。总体上,我是认同他对科技趋势的看法的。ChatGPT标志着一个新时代的出现,有人说这是当代信息技术历史上的“iPhone时刻”或“安卓时刻”,必将引领全新的生态。感觉还是陆奇的比较更加有大局观,ChatGPT相当于引发第一次互联网革命的“Netscape浏览器”。不管如何比较,它都将是一个改变世界的存在。
ChatGPT标志着新时代出现的同时,也需要注意其存在着的短板和挑战。大家都感觉到的有所谓“一正胡八”(一本正经胡说八道),编造细节,张冠李戴。这是因为它虽然搞定了人类任何语言的形式,但仅仅只是撬开了认知智能的冰山一角。这个问题到底有没有希望把它彻底解决?沿着LLM的路线,我个人的看法是没有可能。
前面提过,ChatGPT现在也就搞定了20%的人类知识,LLM再扩大几个量级最多达到40%-50%吧,后面的50%是深海区,不可企及。因为后面的知识长尾是一种绝对的组合爆炸,这个级别的爆炸,到宇宙的边角都不一定能够得着,又怎么可能光靠语言的序列学习就能搞定呢。LLM的本性是不会藏拙,凡是他搞不定的知识,它会毫不犹豫编造细节,跟真的似的,这个很要命。这种长尾知识的精度缺陷,对于我们依托LLM创业的AI生态建设和应用服务,是一个躲不过去的硬伤。
除此之外,还有很多其他问题需要克服。例如,当大模型赋能下游的每一个领域场景的时候,该如何在调用大模型过程中保护客户的数据隐私和安全?这个问题现在还没有解决,但可以相信一定有人会找到一种比较好的隔离方法,大模型的供应商为了发展自己的生态,这是一个必须特别重视和解决的问题。再者就是复杂推理能力。从ChatGPT的对话中可以看到,现在的ChatGPT已经具备初步的推理能力,这个能力的主要来源说起来很有意思,主要得益于巨量的电脑代码的序列自学习。我们知道,ChatGPT所依托的GPT3.5不仅仅是在人类自然语言上做了训练,它还在GitHub中各种开源的不同计算机语言编写出来的程序代码上训练了一遍,而且这些代码大多带有自然语言的解释(comments)。由于电脑语言的代码比自然语言更加具有逻辑性,这就帮助练成了ChatGPT说话的条理性。据说,这是开发者本人也没有语料到的额外惊喜,电脑语言在LLM的语言技能训练上弥补了自然语言的不足。尽管如此,它在复杂推理逻辑里还是有欠缺的。好在复杂推理能力与无边无沿的知识网络不同,相对来说是一个逻辑封闭的集合,相信不远的将来是有希望搞定的(也许万众期待的GPT4就差不多能搞定它?)。最后介绍一下多模态的进展。LLM作为基础模型的威力,首先在NLP多任务上得到验证,大放异彩。在NLP取得突破以后,基础模型赋能下游任务的框架就开始向其他模态辐射,这个方向在多模态的学界业界非常活跃,不断给我们带来惊喜。一切还在进行中,多模态现在的状况比起语言LLM目前是慢了一个节拍,现在处于提示词工程(prompt engineering)的阶段,缺的就是一个自然语言的接口。在图像和音乐的生成大模型中玩 prompt(“咒语”)的人,已经知道基础模型的潜力和效果了,这与 ChatGPT之前大家玩 GPT-3 playground 的情形一摸一样。可以预见,不久的将来,一个丝滑的自然语言接口就会建成,那时候,用户就可以随心所欲描述自己想要的艺术作品,无论画作还是音乐。与人类品味对齐的工作也在进行中,到时候类似 ChatGPT的“ChatDalle”平面艺术大模型的自然语言到画作(NL2img)的命中率与满意度会不断提高。同样的趋势注定在自然语言到音乐(NL2music)中发生。我们正处于一个激动人心的人工智能辅助创作(AIGC, AI generated content)的新时代。另一个可以预见的图景是,从多模态LLM的趋势上来看,最后一定会有一个Unified的大模型出来,把各种模态及其关联知识统一在里面。多模态的打通与统一大模型的建设会为多模态新生态应用开辟更加广阔的道路。
作为创业者,如何利用LLM去赋能下游不同场景的应用?这里有一个领域壁垒。众所周知,无论是金融、法律还是医疗都各自拥有一个厚厚的长期积淀下来的知识体系,大模型作为序列学习的通用模型,喂它什么就学什么,它所学到的领域知识的厚度严重不足,而领域本身其实已经积累了丰富的结构化符号知识,通常表现在领域本体知识库或数据库里。但大模型的知识表示是向量,如何对接领域的符号数据库,面对的就是领域壁垒。但我现在的看法是,这个壁垒在今后两到三年一定会有突破。