专访OpenAI研发团队：曾对ChatGPT走红到困惑

Original Will D. Heaven DeepTech深科技 2023-03-07

2022 年 11 月底，当 OpenAI 免费推出 ChatGPT 时，这家总部位于美国旧金山的人工智能公司对它几乎没有什么特殊期待。显而易见的是，OpenAI 内部没有人准备好迎接如此大规模的轰动。从那以后，该公司一直在追赶用户的期望、解决用户发现的问题，并尝试让自己的成功利益最大化。

在 OpenAI 研究政策的（Sandhini Agarwal）说，ChatGPT 被内部视为一个“研究预览”，是一项两年前的技术的更好版本，更重要的是它试图通过收集公众的反馈来解决模型的一些缺陷。在 OpenAI 研究 ChatGPT 的科学家利亚姆·费杜斯（Liam Fedus）说：“我们不想把它作为一个巨大的技术进步来夸大它的水平。”

为了了解 ChatGPT 聊天机器人背后的故事——它是如何制作的，OpenAI 自发布以来如何更新它，以及它的开发者对其成功的看法——我采访了四个人，他们帮助构建了这款最受欢迎的互联网应用。除了阿加瓦尔和费德斯，我还采访了 OpenAI 的联合创始人约翰·舒尔曼（John Schulman）和 OpenAI 对齐团队（Alignment Team）的负责人简·莱克（Jan Leike），该团队致力于让人工智能只做用户想做的事情（并仅限于此）。（注：人工智能领域的对齐，指的是引导人工智能系统的行为，使其符合设计者的利益和预期目标。）

我的感觉是，OpenAI 仍然对其“研究预览”的成功感到困惑，但已经抓住这次机会推动这项技术更好地发展，观察数以百万计的人是如何使用它的，并试图解决最糟糕的问题。

（来源：STEPHANIE ARNETT/MITTR | ENVATO）

自 2022 年 11 月以来，OpenAI 已经多次更新了 ChatGPT。研究人员正在使用一种叫做对抗性训练的技术来阻止用户对 ChatGPT 的欺骗（这也被称为越狱）。这项工作让多个聊天机器人相互对抗：一个聊天机器人扮演坏人，通过生成文本来攻击另一个聊天机器人，迫使它突破常规约束，做出不应该做出的行为。成功的攻击会被添加到 ChatGPT 的训练数据中，希望下一代模型能够学会忽略它们。

OpenAI 还与微软签署了一项数十亿美元的协议，并宣布与全球管理咨询公司贝恩（Bain）合作。贝恩计划让可口可乐等客户使用 OpenAI 的生成式人工智能模型进行营销活动。除了 OpenAI 本身，关于 ChatGPT 的轰动还引发了新一轮围绕大型语言模型的热潮，全球各地的公司和投资者纷纷投身其中，生怕慢人一步。

短短三个月里，我们看到了很多报道。但 ChatGPT 是如何诞生的？OpenAI 采取了哪些步骤来确保它已经准备好向公众开放了？下一步又是什么？对此我们知之甚少。

为了便于阅读和理解，我们对采访内容进行了编辑。

简·莱克（Jan Leike）：老实说，现在的状况真是太棒了。这让我们很惊讶，我们一直在努力追赶公众的热情和期望。

约翰·舒尔曼（John Schulman）：在 ChatGPT 发布后的几天里，我经常查看推特，当时有一段非常疯狂的时期，推特上充斥着 ChatGPT 的截图。我之前期望它能符合用户的直觉，我也希望它能获得一群粉丝，但我并没期望它能达到现在这个流行程度。

（Sandhini Agarwal）：我认为这对我们所有人来说都绝对是一个惊喜。我们更多地关注这些模型本身，以至于我们忘记了公众会对它感到多么惊讶。

利亚姆·费德斯（Liam Fedus）：我们对它的反响感到非常惊讶。我们已经看到过许多通用聊天机器人，我们自己也知道它很难做好。然而，我们的内测给了我们信心，因为我们看到有些东西真的很棒。

简·莱克（Jan Leike）：我很想更好地理解是什么推动了这一切——是什么推动了它的疯狂传播和爆红。老实说，我们不理解，也不知道原因。让该团队感到困惑的部分原因在于，ChatGPT 背后的大部分技术并不新鲜。ChatGPT 是 GPT-3.5 的一个微调版本。GPT-3.5 是 OpenAI 在 ChatGPT 出现前几个月发布的大型语言模型家族。GPT-3.5 本身就是 GPT-3 的更新版本，后者诞生于 2020 年。该公司在其网站上提供了这些模型的 API 接口，这使得其他软件开发人员可以很容易地将模型插入到他们自己的代码中。OpenAI 还在 2022 年 1 月发布了另一款 GPT-3.5 微调版本，名为 InstructGPT。但公众并没有对之前这些版本如此痴迷。

利亚姆·费杜斯（Liam Fedus）：ChatGPT 模型与 InstructGPT 模型使用了相同的语言模型，但微调方法稍有不同。我们添加了一些对话数据，并调整了一些训练过程。所以我们不想把它当作一个巨大的技术进展，也没想夸大它。结果表明，对话数据对 ChatGPT 有很大的正面影响。

约翰·舒尔曼（John Schulman）：如果用标准基准来评估它的技术能力，两个模型之间其实并没有实质性的差异，但是 ChatGPT 更易上手和易用。

简·莱克（Jan Leike）：在某种意义上，你可以把 ChatGPT 理解为已经存在了一段时间的人工智能系统的另一个版本。本质上来说，这并不是一个比之前更强大的模型。在 ChatGPT 出现之前，同样的基础模型已经以 API 的形式使用了将近一年。但从另一种意义上说，我们使它更符合人类的需求，即用户想让它做什么。它可以与你对话，聊天界面使其很容易上手，它努力让自己提供帮助。这是一个惊人的进步，我认为这是人们开始意识到的一件事。

约翰·舒尔曼（John Schulman）：ChatGPT 更容易推断出用户的意图。用户可以通过不断调整提示来得到他们真正想要的东西。ChatGPT 的训练方式与 InstructGPT 非常相似，都使用了一种被称为“从人类反馈中强化学习（RLHF）”的技术。这是 ChatGPT 的成功秘诀。其基本想法是拿到一个会生成各种内容的大型语言模型，比如 GPT-3.5，然后通过教它人类用户真正喜欢什么样的回答来调整它。

简·莱克（Jan Leike）：我们安排了很多人阅读 ChatGPT 的提示和回答，然后判断一个回答是否比另一个回答更好。所有这些数据被合并到一次训练中。这和我们在 InstructGPT 上所做的是一样的。你希望它（生成的内容）是有帮助的、真实的、无害的。还有一些关于制作对话和成为一名虚拟助手的东西。比如，如果用户的问题不清楚，它就应该追问。它还应该澄清一下，自己是一个人工智能系统。它不应该假设自己是一个不应该拥有的身份，它不应该声称自己拥有它不拥有的能力，当用户要求它做一个它不应该做的任务时，它必须拒绝。在这次训练中出现的一句话是“作为一种由 OpenAI 训练的语言模型……”，之前它并没有明确地说出来，但这句话被人类评审员看得很重。

（Sandhini Agarwal）：是的，我想事情就是这样发生的。我们有一系列的、不同的标准，人类评分者必须对模型进行排名，比如真实性。但他们也会青睐于他们认为很好的做法，比如不要扮演一个它不应该扮演的角色。因为 ChatGPT 使用的技术与 OpenAI 之前所用的相同，所以团队在准备向公众发布这个模型时并没有做任何不同的事情。他们觉得，用以前模型所用的标准就足够了。当我们准备发布时，我们并不认为这个模型会带来全新的风险。GPT-3.5 已经存在于这个世界上了，我们已经知道它足够安全了。通过 ChatGPT 对人类偏好的训练，该模型只是自动学会了拒绝，它会拒绝很多请求。

简·莱克（Jan Leike）：我们确实为 ChatGPT 做了一些额外的“破坏性测试”，OpenAI 的每个人都坐下来试图打破它。我们也有外部团体在做同样的事情。我们还有一个开放给可信赖用户的早期访问程序，他们也会提供反馈。

（Sandhini Agarwal）：我们确实发现它产生了某些不必要的输出，但 GPT-3.5 也会产生类似的东西。所以就风险而言，作为一个研究预览——因为这是它最初的意图——它没什么问题。

约翰·舒尔曼（John Schulman）：你不能等到系统完美了才去发布它。我们已经对早期版本测试了几个月，测试人员对该产品有正面的反馈。我们最关心的是事实性，因为这个模型喜欢制造东西。但是 InstructGPT 和其他大型语言模型已经存在了，所以我们认为只要 ChatGPT 在事实性和其他安全问题方面比那些模型更好，就足够了。根据我们有限的评估，我们在发布之前确认了该模型确实比其他模型更真实和安全，所以我们才做出了发布的决定。OpenAI 一直在关注人们如何使用 ChatGPT。它第一次看到，一个大型语言模型被数千万用户以千奇百怪的方式使用，这些用户可能希望测试它的极限，发现它的缺陷。该团队试图抓住 ChatGPT 所能产生的问题最大的案例——从亵渎宗教的文字到窃取信用卡号码的恶意软件代码——并利用这些例子来调整该模型的未来版本。

（Sandhini Agarwal）：我们还有很长的路要走。我认为，ChatGPT 的病毒式传播已经让我们已知的很多问题浮出水面，并且变得至关重要——这些是我们想要尽快解决的问题。比如，我们知道这个模型仍然很有偏见。是的，ChatGPT 非常擅长拒绝不好的请求，但它也很容易被提示所误导，使它不去拒绝我们希望它拒绝的东西。

利亚姆·费杜斯（Liam Fedus）：看到用户的多样化和创造性，已经很令人兴奋了，但我们总是专注于需要改进的领域。我们认为，通过部署、获得反馈和改进的迭代过程，我们可以产生一致性最强、性能最强的技术。随着技术的发展，新的问题不可避免地会出现。

（Sandhini Agarwal）：在发布后的几周里，我们看到了人们讨论了一些最可怕的案例，即人们能看到的最糟糕的事情。我们评估了每一个问题，并讨论了我们应该如何解决它。我们发现的很多事情都与越狱有关，这绝对是一个我们需要解决的问题。但是因为用户必须尝试一些复杂的方法，才能让模型说出不好的事情，所以也不能说这被我们完全忽视了，而且这也不是让我们非常惊讶的事情。不过，这是我们现在正在积极努力改进的事情。当我们发现越狱的情况时，我们会将它添加到训练和测试数据中。我们看到的所有数据都将用来塑造未来的模型。

简·莱克（Jan Leike）：有时一些例子会在推特上疯传，但也会有一些人私下联系我们。每次我们有了一个更好的模型，我们都想把它放出来并测试它。我们非常乐观地认为，一些有针对性的对抗性训练可以大大改善越狱的情况。目前还不清楚这些问题是否会完全消失，但我们认为，我们可以让很多越狱工作变得更加困难。我想再强调一次，在模型被公布之前，我们就知道越狱是可能的。但我认为，一旦你部署了这些系统，就很难真正预测它们会出现哪些安全问题。所以我们非常关注人们使用这个系统去做什么，看看到底发生了什么，然后再对此做出反应。这并不是说，我们不应该在预测安全问题时主动弱化它的重要性。但是，当一个系统进入现实世界时，真的很难预见会发生什么。2023 年 1 月，微软发布了 ChatGPT 支持的必应搜索，这是一个以聊天机器人形式存在的搜索引擎，许多人认为它是 OpenAI 未发布的 GPT-4 的一个版本。因为 OpenAI 的原话是：“必应背后的驱动技术，是一个微软为搜索定制的、我们的下一代模型。它结合了来自 ChatGPT 和 GPT-3.5 的进步。”科技巨头开始用上了聊天机器人，这给那些负责构建底层模型的人带来了新的挑战。

（Sandhini Agarwal）：现在的风险肯定比六个月前要高得多，但仍低于一年后可能会达到的水平。显然，在这些模型中，真正重要的一点是它们被使用的上下文。对于谷歌和微软而言，模型会生成虚构的事实，这是一个很大的问题，因为它们本质上是搜索引擎，用户会期待正确的、真实的内容。搜索功能对大型语言模型的要求，远远不同于一个好玩的聊天机器人。我们需要弄清楚，我们如何在所有这些不同的用途之间游走，然后创造一些对人们有用的东西。在不同情景下，我们所期望的行为可能会有所不同。这增加了更多的压力。因为我们现在知道，我们正在以产品为目的去塑造这些模型。ChatGPT 是一个现在有了 API 的产品。我们正在构建这种通用技术，我们需要确保它在所有方面都能胜任。这是我们现在面临的关键挑战之一。

约翰·舒尔曼（John Schulman）：我低估了人们在政治话题上使用 ChatGPT 的兴趣。在收集训练数据时，我们本可以做出一些更好的决定，这样就可以减少由此引发的问题。我们现在正在努力解决它。

简·莱克（Jan Leike）：在我看来，ChatGPT 有很多失败之处——我们有很多的事情要做。我没觉得我们解决了所有这些问题。对我们自己和其他人而言，我们都必须传达清楚这项技术的局限性。我的意思是，语言模型已经存在一段时间了，但现在还处于早期阶段。我们知道它们所有的问题。我认为我们需要抢先用户一步，合理地管理期望，并明确表示这不是一个成品。

支持：Ren

原文：

https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号

专访OpenAI研发团队：曾对ChatGPT走红到困惑

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号

生成图片，分享到微信朋友圈

专访OpenAI研发团队：曾对ChatGPT走红到困惑

您可能也对以下帖子感兴趣