中国版ChatGPT“文心一言”已经发布,但你完全了解GPT了吗?
3月16日下午,百度召开文心一言新闻发布会,正式发布新一代大语言模型、生成式AI产品“文心一言”。该发布会展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。相信大家和小编一样,都无比期待“文心一言”的落地使用!在此之前,让我们先跟随袁毓林教授和王璐璐副教授了解一下众多语言模型之一——生成式预训练模型(GPT)。
生成式预训练模型GPT
GPT模型由OpenAI团队于2018年开发,至今已有GPT(Radford et al. 2018)、GPT-2(Radford et al. 2019)、GPT-3和GPT-3.5(Brown et al. 2020),以及最新发布的GPT-4(OpenAI 2023)这几个版本。
2022年11月,ChatGPT横空出世,这是OpenAI在GPT-3.5的基础上开发的聊天机器人。它功能强大,可以回答问题,翻译语言,进行智能对话,生成文本、图片、音视频等内容。跟前几代模型相比,它在语言理解和生成质量等方面有了显著的提升。人们惊叹于它出色的理解能力和流畅的对答表现,也带着GPT-3.5“出圈”了。但它在知识性、逻辑性、可控性和可解释性等方面还存在许多问题。
就在今年3月14日,OpenAI发布GPT-4,宣称这是该公司扩展深度学习的最新里程碑。它可以解析更多文本,识别图片,而且在处理复杂问题时结果更准确,也更可靠和富有创意。OpenAI总裁格雷格•布罗克曼(Greg Brockman)在发布会上展示了GPT-4的实用功能,它可以通过考试、辅助教学、开发网站、处理税务问题,等等。不过,根据OpenAI的内部测试,GPT-4仍会出现“幻觉”,生成能力过强。目前,GPT-4并未完全开放,许多数据没有公布。是否真如其所言,还需接受时间的检验。不论如何,可以肯定的是,GPT-4的发布意味着这个大语言模型实现了从技术到产品的进一步落地。
未来,我们将拭目以待,期待人工智能时代的更多可能性,以及人类智能向更广阔空间的探索。在此之前,让我们先跟着《语言的深度计算理论与技术应用》一书,一起回顾一下在ChatGPT出世前GPT曾走过的路……
(点击图片,了解图书详情)
在结构上,GPT也是以Transformer模型为基础,但与BERT只使用Transformer架构的编码器部分不同,GPT模型只使用Transformer架构的解码器部分。BERT所基于的Transformer编码器,其注意力机制是能看到整个句子前后信息的,因此BERT命名为“双向”编码表示,这就注定BERT的强项是语境信息(上下文)的获取和表示,优势在于语言理解,经过微调后BERT在阅读理解任务上甚至能超过人类。与之不同,GPT所基于的Transformer解码器模型,当前位置词语的输入需要的是前一位置词语的解码后的输出,注意力机制上只能看到当前位置之前的词,不会看到未生成的词。因此,GPT的优势在于语言生成。通过巨大规模的语料训练,GPT的语言模型获得了令人意想不到的效果,甚至只要输入简单的主题,即可自动生成一篇主题相关的短文。
尽管BERT和GPT相对于以往的语言模型来讲,已经表现得很强大了,但是仍远未能满足人们对自然语言处理的强大需求。下面通过介绍GPT-2模型,来阐述目前人工智能领域在自然语言处理方面的技术成就及其存在的问题。
2015年底,马斯克(Elon Musk)等诸多硅谷大亨,联合建立OpenAI这个人工智能非营利组织,旨在追求人工智能最先进的形态,并将研究结果向社会大众公开,以确保有朝一日计算机超越人类智力的可怕前景,不会变得像反乌托邦(dystopia)那样让人绝望。OpenAI这个类似研究实验室的机构自成立以来,在AI科研领域做出的贡献可谓是惊艳连连。特别值得一提的是,2019年2月14日他们在OpenAI的官方博客上介绍了他们训练的一个大规模无监督“通用”NLP模型“GPT-2”。这个NLP模型基于Transformer,拥有15亿参数,使用含有800万个网页的内容的数据集训练,只为一个目的:根据当前已有的信息预测下一个单词是什么。由于模型的容量足够大,并且训练数据足够多,GPT-2在拥有40GB网络数据的测试集上,仅是通过进行简单的“预测下一个单词是什么”,就能够完成各种不同的NLP任务:可以生成连贯的文本段落,其结果刷新了七大数据集基准;并且能在未经预训练的情况下,完成阅读理解、回答问题、机器翻译等多项不同的语言建模任务,展示出了强大的泛化能力(详见Radford et al. 2019)。
下面,我们来看GPT-2是怎样在人们给它一个两句话的开头(A)后,煞有介事地往下编后续故事(B)的(原文为英语,这里是中文节译)。
A:科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加令研究者们诧异的是,这些独角兽说着完美的英语。
B:这些生物有着独特的角,科学家们就把它们命名为Ovid’s Unicorn。这种长着四只角的银白色的独角兽,此前并不为科学界所知晓。…… 虽然这些生物的起源还不清楚,但有些人相信,它们是在人类文明之前,由一个人和一只独角兽相交而造就的。Pérez教授说:“在南美洲,这样的现象很常见。”…… 如果要确认它们是消失种族的后裔,DNA检测可能是唯一的方法。
这种天马行空式的发挥几乎天衣无缝,只可惜“长着四只角的银白色的独角兽”露出了机器写手不谙语义的马脚;因为文章开头的主题词和本句的中心语“独角兽”,已经规定了“这些生物只能长着一只角”,而不能是异想天开的“四只角”。GPT-2训练用的数据,都是人类写作的原始文本。这种无监督学习过程,纯洁无污染。但是,生成的文本中却有明显的语义矛盾的句子。
第三代预训练语言模型GPT-3,是一种大型自然语言计算机处理模型,也是迄今为止规模最大、读写能力最强的大型语言模型。它可以学习书写和说话,朝着构建可理解人类,并与人类世界交流互动的AI系统迈出了重要的一步。“大型语言模型”指的是一种利用深度学习算法,通过数千本书籍和大部分互联网书籍进行文本训练,能将单词和短语串在一起,真实模拟人类书写文本,使其成为当前使用机器学习生成的最令人印象深刻的语言系统。GPT-3被称为智能机器道路上的重要里程碑。能够熟练运用语言的智能机器非常重要,是因为语言对于理解世界至关重要,人类就是通过语言进行交流、分享信息和描述事物概念,也就是说,掌握了语言的AI智能系统,能更好地理解世界。
但是,GPT-3也存在着一些明显的缺点。由于该系统并不理解它所书写的内容,因此有时最终的书写结果是混乱无序的,它需要大量的计算能力、数据和资金进行训练,耗电多,因而产生巨大的碳足迹,并限制那些具有特殊资源的实验室开发类似的语言模型。而且,由于它是依据互联网上的文本进行训练,而这些文本存在着错误信息和偏见内容,因此经常会产生具有错误信息的段落。
以上内容节选自《语言的深度计算理论与技术应用》第十二章“语言处理技术的发展趋势与未来议题”,作者:王璐璐、袁毓林。
想了解更多自然语言处理与语言的深度计算方法,欢迎关注由王璐璐、袁毓林合著,外研社2023年2月出版的《语言的深度计算理论与技术应用》一书。
大数据时代,网络文本的爆炸式增长为自然语言处理带来了巨大的应用需求。运用深层次的语言学知识来处理自然语言的方法被称为“语言的深度计算”。《语言的深度计算理论与技术应用》一书对语言深度计算的理论演进与技术发展进行了全面梳理,结合具体研究案例展示了这种涉及词法、句法、语义等方面“由浅入深”的分析过程。
本书兼具学术性、前沿性和引领性,适合计算语言学、自然语言处理领域的研究者阅读,也可供语言学、计算机科学技术和数据科学等领域的学者、教师和硕博研究生参考和借鉴。
(扫描上方二维码,即可购书)
相关阅读