查看原文
其他

冯志伟教授聊ChatGPT

冯志伟 中国科技术语 2023-03-01

“长江后浪推前浪,ChatGPT将元宇宙拍在沙滩上。”2023年2月,ChatGPT火爆出圈,中新网发出了这样的感慨。面对时下最热的科技概念ChatGPT ,《中国科技术语》诚邀我国著名计算语言学家冯志伟先生,专门对此撰文,不仅对这种新的智能聊天工具进行了科普,还亲切地给它起了一个俗名:才语生。
ChatGPT是美国人工智能研究实验室OpenAI于2022年发布的一种人工智能技术驱动的自然语言处理工具,即聊天机器人程序,其全称为:Chat Generative Pre-trained Transformer ,能通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本文案代码翻译,写论文等任务。
从技术方面来讲,OpenAI公司开发的是一种 “基于转换器的生成式预训练模型” (Generative Pre-trained Transformer,GPT),这是当前自然语言处理的核心技术。GPT利用转换器模型(Transformer)的编码器(encoder)和解码器(decoder),从语言大数据中获取丰富的词汇、语法和语义知识,因为其在语言生成任务上达到了相当的水平,自动生成的新闻甚至于能够以假乱真。GPT成为深度学习时代自然语言处理研究的最重要的神经网络模型。
自然语言生成(Natural Language Generation, NLG)是自然语言处理的一个重要研究领域,作文、新闻、散文、诗歌的自动写作都属于自然语言生成的领域,近年来得到人工智能学界的高度重视,其中的诗歌自动写作,特别是中国古典诗歌的自动写作,成为自然语言生成中的最引人瞩目的研究领域。
OpenAI公司开发的GPT拥有大量训练参数,2018年6月有1.17亿参数。2019年2月开发的GPT-2有15亿参数,实现了无监督的多任务学习,具有一定的自我纠偏能力。GPT-2开始训练的数据取自著名社交站点Reddit上的文章,累计有800万篇。2020年5月,GPT-3启动,有1750亿参数,开始了大规模的机器学习,把能获取到的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容,并形成了“基于人类反馈的强化学习方案”(Reinforcement Learning from Human Feedback,RLHF)。后来,又在此基础上开发出ChatGPT。这个时候的ChatGPT可以通过使用大量的训练数据来模拟人的语言行为,生成人类可以理解的文本,并能够根据上下文语境,提供恰当的回答,甚至还能做句法分析和语义分析,帮助用户调试计算机程序,写计算机程序代码,已经达到了很强的自然语言生成能力。
2022年11月30日,ChatGPT开放公众测试,真正实现了完全自主的“人工智能内容生成”(AI Generated Content,AIGC),包括文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等。
现在的ChatGPT是由效果比GPT3更强大的GPT-3.5系列模型提供支持的,这些模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。据说,GPT4 的参数将高达 100 万亿。这是真正的大语言模型。
交互式是ChatGPT的一大优点,用户可以自如地与ChatGPT对话,自然且流畅,ChatGPT的回答连续、稳定、一致,用户与ChatGPT对话,就像是与朋友聊天。
在GPT的前面加了Chat,即交互式聊天,因此ChatGPT全名应译为“基于转换器的交互式生成式预训练模型”,这应当是ChatGPT的中文名,具有科学性。可是,这个中文名太长,称说不便,建议可以给它取一个俗名,以便称说。我的意见可以管它叫“才语生”,“才”为 Chat的音译,也可以引申为“有才气”的意思;“语生”是“语言生成模型”的意思,“才语生”就是“很有才气的语言生成模型”,大致能体现ChatGPT的含义。不知大家以为然否?
当然,它还应当有个正式一些的名称,我建议用“聊天机器人”作为ChatGPT的正式名称。
ChatGPT也承认它确实存在一些不足。最近《时代周刊》的记者对ChatGPT做了一个专访。聊天记录如下:
记者问:我应该相信你刚才说的一切都是真的吗?
ChatGPT答:作为一个大型语言模型,我被设计成对各种各样的输入产生类似人类的反应。我尽我所能提供准确和有用的信息,但我不是一个完美的知识来源,可能不总是能够提供完整或正确的答案。此外,我不能浏览互联网或访问任何外部信息,所以我的反应仅限于我所得到的训练数据和算法。这意味着我的回答中可能有一些错误或不准确之处,你不应该把我所说的都认为是真实和准确的。在做任何重要决定或采取任何行动之前,运用自己的判断和常识,核实多方信息才是重要的。
ChatGPT由于不能像搜索引擎那样提供实时的信息,因此有时甚至会提供不符合事实的错误答案,或者一本正经的胡说八道,或者说一些永远正确的废话。ChatGPT实际上只是一个大规模的语言模型,它只能在大规模数据基础上对于人类的语言行为进行模仿,并没有真正理解聊天的内容。
人对于自然语言的理解除了依靠语言内部的各种关系知识之外,还须依靠外部物理世界、外部精神世界和外部社会历史世界等背景知识。自然语言文本中的每一个符号、每一个合乎规则结构的符号串,在人脑中都与外部的客观世界有着千丝万缕的联系。这些复杂联系不仅以语言数据中的符号形式表现出来,还具有更深入的心理感情表征以及社会文化背景。ChatGPT使用生成式预训练模型从大规模的语言数据中获取的各种参数,基本是基于自然语言数据的参数,还没有这些语言数据与外部客观世界千丝万缕的联系的参数,因此,ChatGPT只是处理自然语言本身的数据,并不能处理丰富多彩的语言外信息。所以,ChatGPT尽管已经取得了很大进步,已经具有强大的处理人类语言数据的能力,但是ChatGPT处理外在世界以及社会历史背景的能力还十分有限。从本质上说,ChatGPT具备的智能还不是完善的人类智能,只是初级阶段的人类智能,而语言是人类的高级智能活动,它不仅涉及语言内部的结构,还涉及语言外部的日常生活知识、社会知识、历史知识、文化背景知识、人的心理状态和情感愿望等极为复杂、丰富多彩的因素。自然语言是非常复杂的,要进一步提高自然语言处理的效果,让计算机真正地理解自然语言,仍然是一个极为困难而艰巨的任务。我们还要继续努力。
ChatGPT是使用自然语言与计算机聊天的系统,既然与自然语言有关,语言学家责无旁贷地应当对于ChatGPT的研制贡献自己的聪明才智。可惜的是,我们的语言学研究对于ChatGPT的开发似乎并没有起到什么作用。语言学有着自己的辉煌历史,对各种语言现象进行了科学的描写,总结出了大量规律,但是,这些描写和规律却与ChatGPT的研制基本上没有关系。我们的语言学研究是不是已经落后了?是不是已经赶不上数智时代前进的步伐了?这是值得我们语言学工作者深思的问题。
作者简介


冯志伟(1939—),男,计算语言学家,教育部语言文字应用研究所研究员,中国计算机学会高级会员。北京大学和中国科技大学研究生院两次研究生毕业。20世纪70年代首次测出汉字熵为9.65比特,为汉字多八位编码提供了语言学支持。法国留学时师从国际计算语言学学会第一任主席Vauquois,研制了世界上第一个把汉语译为多种外语的机器翻译系统,是首位出席国际计算语言学顶会COLING的中国学者。长期从事语言学和计算机科学的跨学科研究,曾在德国、韩国的大学担任教授,讲授自然语言处理课程,出版论著30多部,发表论文400多篇,主持研制国际标准1项、国家标准1项、国家规范3项,参与研制国家标准13项。曾任中国语文现代化学会副会长,现任中国人工智能学会理事、《中文信息学报》顾问、《中国科技术语》副主编。2006年获奥地利维斯特奖,2018年获中国计算机学会NLPCC 杰出贡献奖,2021年获中国中文信息学会会士称号,2022年获香港圣弗朗西斯科技人文奖。通信方式:zwfengde2010@163.com


END


RECOMMEND
推荐阅读
推荐阅读新国标实施在即,学术论文中的科技术语该如何使用? 死亡?脑死亡?临床死亡? Metaverse译名探析 
点分享点收藏点点赞点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存