OpenAI o1 团队在线答疑:o1的o指OpenAI,强化后的推理有泛化能力,未来模型思考时间可控!
对于 OpenAI o1 的所有疑问和好奇,由推特的所有网友来提问,OpenAI 的全体技术人员来回答。数了下,一共有 12 位员工出现,这其中有各个方向的研究员和研究科学家,以及产品经理、产品主管。
至于提问,从模型命名、模型的大小和模态,到提示词、思维链、上下文长度,以及价格,可以说,大家关注的问题,基本都在里面了。
参与问答的 OpenAI 人员:
Ahmed El-Kishky:OpenAI 研究员
Łukasz Kondraciuk:草莓训练设施负责人,华沙大学计算机科学,ACM ICPC 2022 银牌
Shengjia Zhao:OpenAI 研究科学家,斯坦福大学博士
Romain Huet:GPT-4o、o1 开发者体验主管,曾任 Stripe、Twitter 产品主管
Hongyu Ren:OpenAI 研究科学家,斯坦福大学博士,曾就职 Apple、Google、Nvidia
Wenda Zhou:OpenAI 研究员
Max Schwarzer:OpenAI 研究员,曾就职 Apple、DeepMind
Nikunj Handa:OpenAI 产品经理
Hyung Won Chung:OpenAI 研究科学家,MIT 博士
Noam Brown:OpenAI 研究员,专攻推理方向
Jerry Tworek:OpenAI 研究员
Jason Wei:OpenAI 研究科学家
点击关注,每天更新深度 AI 行业洞察
01
o 代表 OpenAI,o1 是多模态
网友:除了已经发布的评估结果,在你们测试中,o1 最让人印象深刻的是什么?
Hyung Won Chung:模型在处理哲学问题时的思考过程非常有趣,比如「什么是生命?」还有我展示的韩语密文例子,也非常惊艳,因为我们并没有直接教它这种技能,它是通过泛化得出的。
Noam Brown:我告诉它「你是 OpenAI 的新模型」,然后让它解释自己的特点。在 CoT 过程中,它开始自问一些难题,试图评估自己的能力。虽然它表现得不太好,但它尝试的过程让我印象深刻。
Jerry Tworek:对我们 OpenAI 的工作确实很有帮助,这当然是最重要的。
Lorenz Kuhn(研究员):从质量上看,看到模型尝试用不同方法解决一个很棘手的问题,然后反复检查,最后得到正确答案,真的挺酷的。
网友:你认为新的推理计算方式能否在未来几代中带来像 GPT-2 到 GPT-4 那样的能力飞跃?
Wenda Zhou:我们还处于这个新范式的早期阶段。
网友:你们是怎么给 o1、o1-preview 和 o1-mini(或者 o1-mini-preview)起名的?
Romain Huet:因为这代表了 AI 能力的新阶段,所以我们决定从头开始,把这一系列称为 OpenAI o1。preview 是预览版,mini 是因为它体积更小!
网友:o 代表猎户座还是 OpenAI?
Romain Huet:OpenAI!
网友:o1 是多模态吗?想知道这是在构建多模态的基础设施,还是仅仅是文本问题?
Wenda Zhou:OpenAI o1 是多模态的,还在 MMMU 上实现了 SOTA!
网友:o1 是哪种 AI?是猫 AI 还是狗 AI?
Łukasz Kondraciuk:有人问 o1 时,o1 回答说:「我没有感情,也没有具体的形态,所以既不是猫也不是狗。不过如果打个比方,我是天生友好、乐于助人、反应灵敏的。」——这些通常是狗的特质。
网友:o1-preview 和 o1-mini,我很惊讶第二个模型不叫 o1-mini-preview,是不是因为 mini 不是预览模型,它会持续用一段时间?而 o1-preview 只是 o1 模型的预览,所以是临时的?
Shengjia Zhao:没错!o1-preview 是即将发布的 o1 模型的预览,而 o1-mini 不是未来模型的预览版。o1-mini 可能会在不久的将来更新,但不一定。
网友:为什么虽然 o1-mini 是「mini」,但在某些任务上表现比 o1-preview 还好?
Hongyu Ren:OpenAI o1-mini 针对 STEM 应用的各个训练和数据阶段进行了优化。
网友:o1 mini 能比 o1 Preview 生成更多的思维链吗?
Shengjia Zhao:是的。
网友:为什么答案生成速度比思考阶段快那么多?o1 是单模态还是多模态的?
o1-mini 和 o1-preview(还有 o1)与 gpt-4o 相比,参数是更大还是更小?
Hyung Won Chung:答案部分通常(但不一定总是)比思考阶段短。我们暂时不公开参数数量。思考阶段是对整个思维过程的总结,所以看起来慢一点。
o1 目前只支持单模态的文本。
02
相比 4o 提示词风格有变化
网友:o1 和之前的模型在提示词上有什么大不同?
Hyung Won Chung:虽然没有很明确的技术原因说明为什么 OpenAI o1 需要更多提示,但我们发现它能从一些提示中受益,比如展示边缘情况或潜在推理风格。这个模型在获取这些提示线索方面表现不错,因为它擅长推理!
网友:什么时候给 o1 用 few-shot 提示词比较合适?
Hyung Won Chung:展示边缘情况和潜在推理风格会对模型有帮助。OpenAI o1 擅长从给出的示例中推理出线索。
网友:o1 有什么新的提示词技巧吗?
Hyung Won Chung:虽然没有技术原因说明为什么 OpenAI o1 需要更多提示,但根据我们的经验,它能从展示边缘情况和潜在推理风格的提示中受益。模型在从这些提示中获取线索方面表现不错。
网友:o1 的输入 token 是怎么计算的?
Nikunj Handa:o1 的 token 计算方式跟 4o 是一样的,两者使用相同的分词器:https://github.com/openai/tiktoken/
网友:模型大小会不会限制推理能力的上限?
Jerry Tworek:目前还没发现模型大小对扩展有任何限制,到现在为止,我们只是把它推到了某个程度。
网友:你们打算在推理过程中进行函数调用吗?比如谷歌搜索、查询数据库、创建记忆。
Ahmed El-Kishky:目前还没有具体的时间表可以分享,但我们计划在推理时启用模型,支持函数调用和使用各种工具,比如代码执行和浏览功能。
网友:关于新 o1 模型,它们真的可以长时间生成内容吗?比如说,如果应用的上下文适合(少于 128k tokens),它能一次性重构整个 NextJS React 应用吗?还是还需要分块处理?
Max Schwarzer:
o1 肯定能完成比之前模型更复杂、更开放的任务,所以你不需要像 4o 那样分太多块。随着模型不断提升,任务切块的需求会越来越少。
网友:能解释一下文档里这句话吗?
「限制检索增强生成(RAG)中的附加上下文:提供附加上下文或文档时,最好只包含最相关的信息,避免模型响应过于复杂。」
我想了解该怎么平衡 RAG 和上下文。以前我是把所有东西都丢进去,现在不这么做了吗?
Nikunj Handa:我们早期测试发现,把太多不相关的内容塞进上下文会导致性能下降,推理时的 token 使用率也更高。未来我们可能会改进这个问题,但目前建议尽量用少且相关的内容。
03
未来会延长思考时间,甚至可以暂停
网友:能解释一下吗,o1 是在后台运行思维链,然后给我们答案,还是一个专门用于推理的模型,只是输出时隐藏了中间过程的 token,只显示最终答案?
Noam Brown:我不会把 o1 称「系统」。它是个模型,但和之前的模型不同,它会在给出最终答案前生成一条很长的思维链。
网友:
在 o1 模型的设计中,你有没有发现什么反向扩展(inverse scaling)的例子?分享一下应该会很有趣。
「不要只通过提示做 CoT,训练模型用强化学习来更好地处理 CoT」。希望能在你的基准测试中看到一些对比结果。
Jason Wei:
我还没遇到特别明显的反向扩展例子(也就是模型表现变差的情况),但我相信有人会找到一些!你可以在我们的博客里看到,在某些提示下,比如「个人写作」,OpenAI o1-preview 并不比 GPT-4o 表现好,甚至稍微差一点。https://openai.com/index/learning-to-reason-with-llms/…
我不确定如何进行最公平的对比,但我可以肯定地说,无论你怎么提示 GPT-4o,它大概率也拿不到 IOI 金牌!
网友:CoT 的过程被隐去了,如何保证最后生成的答案摘要是忠于推理过程的呢?你能提供一下你们是怎么写摘要器提示词的吗?
Noam Brown:虽然我们希望摘要模型尽可能忠实原文,但不能保证它完全准确。我强烈建议不要假设它对 CoT 忠实,也不要假设 CoT 对模型的推理完全忠实!
网友追问:有意思,在 ChatGPT 中,思考步骤是个摘要吗?
另一位网友:对,模型会生成 CoT 的总结——「在考虑了用户体验、竞争优势以及思维链监控的可能性后,我们决定不向用户展示原始思维链……在 o1 系列中,我们展示的是模型生成的思维链摘要。」
网友:未来 API 能不能让用户控制「思考时间」或推理时的计算量?
Noam Brown:我们希望将来能让用户对模型的思考时间有更多控制。
网友:有没有办法强制延长思考时间?
Max Schwarzer:现在还没有这个选项,但我们希望将来能提供更多控制思考时间的功能!
网友:未来有没有可能在 o1 的 CoT 推理过程中暂停,添加更多上下文后再继续推理?
Nikunj Handa:目前还不行。不过这是个好主意,我们会在未来的模型中探索这个可能性!
04
代码解释器在开发中了
网友:你们是否计划在下一次迭代中专注于 LLM 的非语言思维?语言的逻辑顺畅对人类来说更好理解,但生成语法正确的句子会浪费大量计算,FLOP 训练应该更关注信息生成。
Jerry Tworek:这是个有意思的研究方向。我们在尝试很多改进模型的方法,不过很难说哪种会是未来的最佳方案。
网友:下一步有什么计划?比如预览持续时间、基准测试中 o1 的可用性,还有缺少的功能/工具?
图像识别功能什么时候发布?API 什么时候会支持提示缓存?
Ahmed EI-Kishky:虽然预览持续时间还没确定,但我们计划逐步推出其他功能,包括代码解释器和浏览等工具功能。
网友:流式传输功能会通过 API 支持吗?会像 ChatGPT 应用中那样展示推理进度吗?我们以后可以围绕这个功能做界面吗?
Nikunj Handa:我们肯定会添加对流式传输的支持,并且正在考虑添加推理进度的功能。感谢你的反馈!
网友:我们可以在 API 请求中设置一个参数,限制推理过程中消耗的 token 数量吗?
Nikunj Handa:这是个不错的功能!目前的模型还不支持,但我们会考虑在未来模型中添加这个选项。
网友:你们是怎么用 o1 来研究代码的?HTML Snake 确实很酷,但我更想知道它在研究方面的应用。
Lukasz Kondraciuk:OpenAI 代码库里已经有好几个 PR 是 o1 独立完成的!
Wenda Zhou:我们有位研究员还开发了一个 Github 机器人,能自动 ping 对应的代码负责人来审核。
05
token 会降价,目前很缺人
网友:为什么现在的使用限制这么低?o1-preview 每周只有 30 次?以后会变成每日限制吗?Romain Huet:我们知道一开始的限制比较低,但很高兴看到大家都开始体验 o1。我们会努力逐步提高使用限制。
网友:为什么只有 T5 用户能用 o1?
Romain Huet:我们希望开发者能从一开始就体验 OpenAI o1。我们还在努力扩大访问权限和使用速率,但很快就会更广泛开放!
网友:T4 以下的用户什么时候可以用 o1?
Nikunj Handa:我们希望在接下来的几周内,扩展访问权限给更多用户。
网友:o1 的价格会像现在的 GPT-4o 一样便宜吗?
Nikunj Handa:很难准确预测 o1 和 4o 的未来价格,但我们相信 o1 某些模型的 token 价格会更低。
网友:什么时候价格会降到 0?
Shengjia Zhao:从历史数据来看,价格每 1-2 年就会下降 10 倍,这种趋势可能还会继续。
网友:o1 的微调什么时候上线?
Nikunj Handa:我们对此非常期待,已经在计划中了!不过目前还没有确切的时间表可以分享。
网友:
你们有考虑过更大输入 token 上下文的版本吗?
o1-mini 相比 o1-preview 和 o1 小多少?
o1 比 o1-preview 大还是小?
Max Schwarzer:
我们很快会支持更大的输入上下文!
我们不能透露具体尺寸,但 o1-mini 确实要小很多,速度也快得多,这也是我们能提供给所有免费用户的原因。
o1-preview 是 o1 的早期版本,尺寸和 o1 没什么区别。
网友:现在扩展 o1 的最大瓶颈是什么?
Łukasz Kondraciuk:最大的限制是研究和工程人才的短缺。虽然 OpenAI o1 很擅长编程,但它还不能自己做研究(至少现在还不行 :))。如果有兴趣加入我们的团队,可以在 OpenAI 官网查看我们的 JD。
大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍
20万周活,50%次月留存,做年轻人的AI产品,用户真的留下来了42个人,一年赚66亿美金,OnlyFans比全硅谷的AI创业公司都挣钱
离开OpenAI,独自创业之后,Karpathy对AI更乐观了转载原创文章请添加微信:founderparker