冯志伟教授聊ChatGPT

Original 冯志伟中国科技术语 2023-03-01

收录于合集 #术语科普 79个

“长江后浪推前浪，ChatGPT将元宇宙拍在沙滩上。”2023年2月，ChatGPT火爆出圈，中新网发出了这样的感慨。面对时下最热的科技概念ChatGPT ，《中国科技术语》诚邀我国著名计算语言学家冯志伟先生，专门对此撰文，不仅对这种新的智能聊天工具进行了科普，还亲切地给它起了一个俗名：才语生。

ChatGPT是美国人工智能研究实验室OpenAI于2022年发布的一种人工智能技术驱动的自然语言处理工具，即聊天机器人程序，其全称为：Chat Generative Pre-trained Transformer ，能通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、代码，翻译，写论文等任务。

从技术方面来讲，OpenAI公司开发的是一种 “基于转换器的生成式预训练模型” （Generative Pre-trained Transformer，GPT），这是当前自然语言处理的核心技术。GPT利用转换器模型（Transformer）的编码器（encoder）和解码器（decoder），从语言大数据中获取丰富的词汇、语法和语义知识，因为其在语言生成任务上达到了相当的水平，自动生成的新闻甚至于能够以假乱真。GPT成为深度学习时代自然语言处理研究的最重要的神经网络模型。

自然语言生成（Natural Language Generation, NLG）是自然语言处理的一个重要研究领域，作文、新闻、散文、诗歌的自动写作都属于自然语言生成的领域，近年来得到人工智能学界的高度重视，其中的诗歌自动写作，特别是中国古典诗歌的自动写作，成为自然语言生成中的最引人瞩目的研究领域。

OpenAI公司开发的GPT拥有大量训练参数，2018年6月有1.17亿参数。2019年2月开发的GPT-2有15亿参数，实现了无监督的多任务学习，具有一定的自我纠偏能力。GPT-2开始训练的数据取自著名社交站点Reddit上的文章，累计有800万篇。2020年5月，GPT-3启动，有1750亿参数，开始了大规模的机器学习，把能获取到的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容，并形成了“基于人类反馈的强化学习方案”（Reinforcement Learning from Human Feedback，RLHF）。后来，又在此基础上开发出ChatGPT。这个时候的ChatGPT可以通过使用大量的训练数据来模拟人的语言行为，生成人类可以理解的文本，并能够根据上下文语境，提供恰当的回答，甚至还能做句法分析和语义分析，帮助用户调试计算机程序，写计算机程序代码，已经达到了很强的自然语言生成能力。

2022年11月30日，ChatGPT开放公众测试，真正实现了完全自主的“人工智能内容生成”（AI Generated Content，AIGC），包括文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等。

现在的ChatGPT是由效果比GPT3更强大的GPT-3.5系列模型提供支持的，这些模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。据说，GPT4 的参数将高达 100 万亿。这是真正的大语言模型。

交互式是ChatGPT的一大优点，用户可以自如地与ChatGPT对话，自然且流畅，ChatGPT的回答连续、稳定、一致，用户与ChatGPT对话，就像是与朋友聊天。

在GPT的前面加了Chat，即交互式聊天，因此ChatGPT全名应译为“基于转换器的交互式生成式预训练模型”，这应当是ChatGPT的中文名，具有科学性。可是，这个中文名太长，称说不便，建议可以给它取一个俗名，以便称说。我的意见可以管它叫“才语生”，“才”为 Chat的音译，也可以引申为“有才气”的意思；“语生”是“语言生成模型”的意思，“才语生”就是“很有才气的语言生成模型”，大致能体现ChatGPT的含义。不知大家以为然否？

当然，它还应当有个正式一些的名称，我建议用“聊天机器人”作为ChatGPT的正式名称。

ChatGPT也承认它确实存在一些不足。最近《时代周刊》的记者对ChatGPT做了一个专访。聊天记录如下：

记者问：我应该相信你刚才说的一切都是真的吗？

ChatGPT答：作为一个大型语言模型，我被设计成对各种各样的输入产生类似人类的反应。我尽我所能提供准确和有用的信息，但我不是一个完美的知识来源，可能不总是能够提供完整或正确的答案。此外，我不能浏览互联网或访问任何外部信息，所以我的反应仅限于我所得到的训练数据和算法。这意味着我的回答中可能有一些错误或不准确之处，你不应该把我所说的都认为是真实和准确的。在做任何重要决定或采取任何行动之前，运用自己的判断和常识，核实多方信息才是重要的。

ChatGPT由于不能像搜索引擎那样提供实时的信息，因此有时甚至会提供不符合事实的错误答案，或者一本正经的胡说八道，或者说一些永远正确的废话。ChatGPT实际上只是一个大规模的语言模型，它只能在大规模数据基础上对于人类的语言行为进行模仿，并没有真正理解聊天的内容。

人对于自然语言的理解除了依靠语言内部的各种关系知识之外，还须依靠外部物理世界、外部精神世界和外部社会历史世界等背景知识。自然语言文本中的每一个符号、每一个合乎规则结构的符号串，在人脑中都与外部的客观世界有着千丝万缕的联系。这些复杂联系不仅以语言数据中的符号形式表现出来，还具有更深入的心理感情表征以及社会文化背景。ChatGPT使用生成式预训练模型从大规模的语言数据中获取的各种参数，基本是基于自然语言数据的参数，还没有这些语言数据与外部客观世界千丝万缕的联系的参数，因此，ChatGPT只是处理自然语言本身的数据，并不能处理丰富多彩的语言外信息。所以，ChatGPT尽管已经取得了很大进步，已经具有强大的处理人类语言数据的能力，但是ChatGPT处理外在世界以及社会历史背景的能力还十分有限。从本质上说，ChatGPT具备的智能还不是完善的人类智能，只是初级阶段的人类智能，而语言是人类的高级智能活动，它不仅涉及语言内部的结构，还涉及语言外部的日常生活知识、社会知识、历史知识、文化背景知识、人的心理状态和情感愿望等极为复杂、丰富多彩的因素。自然语言是非常复杂的，要进一步提高自然语言处理的效果，让计算机真正地理解自然语言，仍然是一个极为困难而艰巨的任务。我们还要继续努力。

ChatGPT是使用自然语言与计算机聊天的系统，既然与自然语言有关，语言学家责无旁贷地应当对于ChatGPT的研制贡献自己的聪明才智。可惜的是，我们的语言学研究对于ChatGPT的开发似乎并没有起到什么作用。语言学有着自己的辉煌历史，对各种语言现象进行了科学的描写，总结出了大量规律，但是，这些描写和规律却与ChatGPT的研制基本上没有关系。我们的语言学研究是不是已经落后了？是不是已经赶不上数智时代前进的步伐了？这是值得我们语言学工作者深思的问题。

作者简介

冯志伟（1939—），男，计算语言学家，教育部语言文字应用研究所研究员，中国计算机学会高级会员。北京大学和中国科技大学研究生院两次研究生毕业。20世纪70年代首次测出汉字熵为9.65比特，为汉字多八位编码提供了语言学支持。法国留学时师从国际计算语言学学会第一任主席Vauquois，研制了世界上第一个把汉语译为多种外语的机器翻译系统，是首位出席国际计算语言学顶会COLING的中国学者。长期从事语言学和计算机科学的跨学科研究，曾在德国、韩国的大学担任教授，讲授自然语言处理课程，出版论著30多部，发表论文400多篇，主持研制国际标准1项、国家标准1项、国家规范3项，参与研制国家标准13项。曾任中国语文现代化学会副会长，现任中国人工智能学会理事、《中文信息学报》顾问、《中国科技术语》副主编。2006年获奥地利维斯特奖，2018年获中国计算机学会NLPCC 杰出贡献奖，2021年获中国中文信息学会会士称号，2022年获香港圣弗朗西斯科技人文奖。通信方式：zwfengde2010@163.com

END

RECOMMEND

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

冯志伟教授聊ChatGPT

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

冯志伟教授聊ChatGPT

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡