ChatGPT:潜力、前景和局限|复旦清华周杰、黄民烈、张军平等
Editor's Note
关于时下最热的人工智能模型ChatGPT,本文是目前技术层面最全面且理性的正式发表论文。
The following article is from 信息与电子工程前沿FITEE Author 周杰,张军平等
评论:
ChatGPT:潜力、前景和局限
周杰1,3,柯沛2,邱锡鹏1,3,黄民烈2,张军平‡1,3
1复旦大学计算机科学技术学院,中国上海市,200433
2清华大学计算机科学与技术系,中国北京市,100084
3上海市智能信息处理重点实验室,中国上海市,200433
01
绪论
最近,OpenAI发布了对话生成预训练模型Transformer(Chat Generative Pre-trained Transformer,ChatGPT)(Schulman et al., 2022)(https://chat.openai.com),其展现的能力令人印象深刻,吸引了工业界和学术界的广泛关注。这是首次在大型语言模型(large language model, LLM)内很好地解决如此多样的开放任务。为更好地理解ChatGPT,这里我们简要介绍其历史,讨论其优点和不足,指出几个潜在应用,最后分析它对可信赖人工智能、会话搜索引擎和通用人工智能(artificial general intelligence, AGI)发展的影响。
ChatGPT成为历史上增长最快的消费者应用程序,在发布后两个月内,吸引了1亿月度活跃访客(Hu,2023)。自发布以来,因其高超的对话能力,已引爆社会关注。它可以回答后续提问,拒绝不当请求,挑战错误前提,并承认自己错误(Schulman et al., 2022)。它获得许多涌现能力,如高质量对话、复杂推理、思维链(CoT)(Wei et al., 2022b)、零/少样本学习(语境学习)、跨任务泛化、代码理解/生成等等。
这些令人印象深刻的能力,ChatGPT是如何获得的?其主要得益于大型语言模型,它利用语言模型(LM)在大规模数据上训练巨大的神经网络模型,如Transformer(Vaswani et al., 2017)。语言模型旨在根据上文预测下一个词的概率,是文本中的自监督信号。互联网上存在大规模文本数据,所以通过语言模型对模型进行预训练是顺理成章的。现有研究表明,模型规模和数据量越大,性能越好。当模型和数据规模达到一定程度时,模型将获得涌现能力。不幸的是,训练一个大型语言模型费时又费力。例如,OpenAI发布的GPT-3(Brown et al., 2020)有1750亿个参数。它的预训练采用超级计算机(285 000个CPU,10 000个GPU)在45 TB文本数据上完成,训练费用高达1200万美元。它在零样本学习任务上实现了巨大性能提升,具有小模型所不具备的语境学习能力。随后,更多策略——如代码预训练(Chen et al., 2021)、指令微调(Wei et al., 2022a)和基于人类反馈的强化学习(reinforcement learning from human feedback,RLHF)(Stiennon et al., 2020)——被用于进一步提高推理能力、长距离建模和任务泛化。
大型语言模型提供了一种接近通用人工智能的可能方式。除OpenAI,还有许多组织在探索大型语言模型,从而促进人工智能蓬勃发展,如谷歌发布Switch-Transformer(Fedus et al., 2021)、百度发布ERNIE 3.0(Sun et al., 2021)、华为发布Pangu(Zeng et al., 2021)、智源发布CPM(Zhang et al., 2021),阿里发布PLUG。此外,谷歌在OpenAI之后发布了聊天机器人Bard。我们认为,可信的人工智能、对话式搜索引擎和通用人工智能是人工智能未来方向。接下来,我们将讨论ChatGPT的潜力、前景和局限。
02
潜力和前景
03
ChatGPT背景
如图1所示,ChatGPT是InstructGPT(Ouyang et al., 2022)的后续模型,起源于GPT-3(Brown et al., 2020)。与之前GPT模型相比,GPT-3中的参数基本增加到1750亿,构造了一些重要涌现能力,如语境学习(Brown et al., 2020)。具体而言,GPT-3可以按照输入中的范例完成各种自然语言处理(natural language processing, NLP)任务,而无需进一步训练。从图1和图2来看,有3种基本策略可以最终从GPT-3得出ChatGPT。在预训练阶段,采用代码预训练,将代码语料与文本语料结合进行预训练。然后,在微调阶段使用指令调整和基于人类反馈的强化学习来学习跨任务泛化,并与人类反馈相一致。这些技术帮助它知道更多,以及不知道更少的知道(如语义推理、常识性知识等)和不知道(如逻辑推理)。详情如下:
1. 代码预训练:除文本外,代码也被添加到预训练语料库中(Chen et al., 2021)。事实上,代码预训练是大型语言模型常用的策略,例如PaLM(Chowdhery et al., 2022)、Gopher(Rae et al., 2021)和Chinchilla(Hoffmann et al., 2022),它不仅可以提升代码理解和生成的能力,还可以提高长距离语境理解,并带来思维链推理的新兴能力(Wei et al., 2022b)。具体而言,该模型可通过一些示例生成推理过程本身,从而提高回答问题的准确性。代码预训练有助于模型获得这些能力的原因,有待通过更详细的实验来探索。
2. 指令调整:为使模型行为与人类意图一致,OpenAI研究人员收集了一组由人类所写的提示和期望的输出,并在该数据集上进行监督学习(Ouyang et al., 2022)。事实上,指令微调成为大型语言模型——如FLAN(Wei et al., 2022a)、T0(Sanh et al., 2022)和Self-Instruct(Wang et al., 2022)——的一项流行技术,因为它具有任务泛化的能力。请注意,指令模板的多样性至关重要,该特性有助于模型在不同任务中学习归纳。此外,指令微调导致模型一步一步思考问题,从而减少缩放法则问题。不同于传统微调范式(Devlin et al., 2019),指令微调可以在不改变模型参数的情况下被用于新任务。我们认为这是人工智能的巨大进步,可能影响机器学习的发展。
3. 基于人类反馈的强化学习:为进一步使模型行为与人类反馈保持一致,OpenAI研究人员收集人类对不同模型输出的偏好数据,训练一个有效的奖励模型(Ouyang et al., 2022)。这个奖励模型可以通过近似策略优化(PPO)来优化生成模型(在强化学习设置中也被称为策略模型)(Schulman et al., 2017))。现有研究也通过使用基于人类反馈的强化学习与人类保持一致,使模型产生信息丰富、有帮助、正确和无害的回答,并拒绝非法问题(Bai et al., 2022; Glaese et al., 2022)。除了训练技术,ChatGPT部署过程也很重要。为减少相关风险,其使用各种策略进行迭代部署。首先,开发人员在部署前进行安全评估来分析风险。然后,对少量用户进行Beta测试,并研究新产生的案例。最后,监督使用情况并进行回顾性审查。
图1 从GPT-3到ChatGPT的演变
04
限制
尽管具有强大的对话能力,ChatGPT仍有一些局限(如图3),举例如下。
1. 逻辑推理:ChatGPT的能力不足以准确处理逻辑问题,如对于数学或一阶逻辑,其时常给出错误答案,因这类问题答案是确定而非概率的。
2. 可靠性:ChatGPT仍会产生事实上不正确或有偏见的回答。虽然这是生成式人工智能模型的固有问题,但它在解决这一问题上表现一般。生成信息的真实性仍是这类生成式聊天机器人的主要基石。
3. 知识学习:ChatGPT不具备网站实时搜索功能,无法学习新知识并更新知识储备。此外,它很难重写并修正模型中的知识。从大规模语料库中习得的知识被存储在一个具有分布式表示的模型中,这些模型是黑盒,很难被操作或解释。
4. 稳健性:尽管ChatGPT在产生安全和无害的反应方面很强,但仍有一些方法可以攻击该系统,包括指令攻击(使模型遵循错误指令去做非法或不道德的事情)和提示注入。此外,它在英语和尊重美国文化方面做得不错,但对于其他语言和文化,有必要开发基于相关数据集背景的其它版本。
潜在应用
讨论和结论
贡献声明
作者简介
周杰,复旦大学计算机科学技术学院博士后,合作导师黄萱菁教授,于2021年在华东师范大学取得博士学位,导师贺樑教授。主要研究方向为自然语言处理,情感分析及可解释等。先后在AAAI、ACL、SIGIR、IJCAI、COLING等重要国际会议和学术期刊上发表论文30余篇,获得COLING 2022 Outstanding Paper Reward。多次在国际数据挖掘比赛(如KDD CUP,SemEval)获得冠亚军。担任多个重要国际会议以及期刊(包括EMNLP、ACL、AAAI、INS等)的审稿人,中国中文信息学会青年工作委员会委员,上海市计算机学会NLP专委委员,是2019年国际亚洲语言处理会议宣传主席。曾获得上海市超级博士后、全国最美大学生(中宣部,教育部)、上海市大学生年度人物等荣誉。
柯沛,清华大学计算机系博士后,合作导师黄民烈副教授。博士毕业于清华大学计算机系,师从朱小燕教授,研究方向是自然语言处理,主要包括自然语言生成和对话系统。在ACL、EMNLP、IJCAI等自然语言处理和人工智能领域的顶级学术会议上发表论文10余篇,曾获NLPCC 2020的最佳学生论文奖。担任ACL 2023的领域主席,以及自然语言处理和机器学习领域多个顶级会议(包括ACL、EMNLP、NeurIPS、ICML等)和期刊(包括IEEE TNNLS, IEEE TASLP, IEEE TKDE等)的审稿人。是中国中文信息学会自然语言生成与智能写作专委会的学生委员,曾参与CDial-GPT、EVA、OPD等一系列中文对话预训练模型的开源项目研发,GitHub的Star总数超过1.3K。
邱锡鹏,复旦大学计算机科学技术学院教授,在 ACL、EMNLP、AAAI、IJCAI 等计算机学会 A/B 类期刊、会议上发表 100 余篇学术论文。开源自然语言处理工具 FudanNLP 项目开发者,FastNLP项目负责人。
黄民烈,清华大学长聘副教授,国家杰青基金获得者,聆心智能创始人,自然语言生成与智能写作专委会副主任、CCF学术工委秘书长。研究领域为大规模语言模型、对话系统、语言生成,著有《现代自然语言生成》一书。曾获中国人工智能学会吴文俊人工智能科技进步奖一等奖(第一完成人),中文信息学会汉王青年创新奖等。在国际顶级会议和期刊发表论文150多篇,谷歌学术引用13000多次,h指数57;多次获得国际主流会议的最佳论文或提名(IJCAI、ACL、SIGDIAL等)。研发任务型对话系统平台ConvLab、ConvLab2,世界上最大的中文对话大模型EVA、OPD,智源中文大模型CPM的核心研发成员,在知识对话、情感对话上具有开创性成果。担任顶级期刊TNNLS、TACL、CL、TBD编委,多次担任自然语言处理领域顶级会议ACL/EMNLP资深领域主席。
张军平(本文通讯作者),复旦大学计算机科学技术学院教授,博士生导师,兼任中国自动化学会普及工作委员会主任,主要研究方向包括人工智能、机器学习、图像处理、生物认证、智能交通及气象预测。获得中国科协“典赞·2022科普中国”年度科普人物提名奖。至今发表论文 100 余篇,其中 IEEE Transactions 系列30余篇,包括 IEEE TPAMI, TNNLS, ToC, TITS, TAC, TIP 等。学术谷歌引用6500余次,h指数38。著有科普书《爱犯错的智能体》(该书获得2020年中国科普创作领域最高奖)和畅销书《高质量读研》。