查看原文
其他

OpenAI 刚刚发布全新系列模型的第一款 OpenAI o1,AI也学会思考了,离'真正的智能'更近一步!

AI工作坊 AI深度研究员
2024-11-09

(关注公众号并设为🌟标,获取最新人工智能资讯和产品) 

全文2,000 字,阅读约需3分钟

OpenAI昨天发布了其最新AI模型系列的首款产品——OpenAI o1,也就是传说中的“草莓”模型。

这一突破性模型在复杂推理能力方面取得了显著进展,现已同时在ChatGPT平台和API接口上线。这一新型AI模型的发布,标志着人工智能在处理复杂认知任务方面迈出了重要一步,为科研、技术开发等领域带来了新的可能性。

o1模型最引人注目的特点是其卓越的推理能力,尤其在数学和编程领域表现出色。在国际数学奥林匹克竞赛(IMO)资格考试中,o1模型成功解决了83%的问题,远远超越了其前身GPT-4o的13%解题率。不仅如此,在Codeforces编程比赛中,o1的表现更是超越了89%的参赛选手,展现出其在复杂问题解决方面的强大实力。

目前,ChatGPT Plus和Team用户已可在平台上体验o1模型的魅力。用户可以手动选择o1-preview和o1-mini两个版本,分别有每周30条和50条的消息限制。对于API用户,只有达到Tier 5级别才能使用这两个模型,且需遵守每分钟20次请求(20 RPM)的速率限制。

值得一提的是,o1作为一个早期模型,目前主要聚焦于推理能力的提升。虽然网络搜索、多模态等功能尚未支持,但OpenAI建议将其与GPT-4o配合使用,以获得更全面的AI辅助体验。

o1模型的核心特点包括:

  • 强化思考过程:o1能够投入更多时间进行深度思考,不断完善其推理过程,并在遇到障碍时灵活尝试不同策略。更重要的是,它具备自我纠错能力,能够识别并修正自身的错误。

  • 多步工作流构建:o1擅长构建和执行复杂的多步骤工作流程,为解决繁琐任务提供了强大支持。

  • 广泛的应用前景:o1特别适用于需要深度思考和复杂推理的领域,如科学研究、高级编程和数学分析等。

一、o1系列的核心成员

与此同时OpenAI今日重磅发布全新AI模型系列o1,并通过四篇详尽的文章全面介绍了该系列的核心成员。这些文章分别聚焦于:

成员1:OpenAI o1:系列旗舰模型

成员2:OpenAI o1-preview:早期预览版本

成员3:OpenAI o1-mini:专注STEM领域的轻量级模型

成员4:OpenAI o1 System Card:系统安全与性能评估报告

这套全面的发布材料深入探讨了o1系列的技术创新、应用潜力和安全考量。以下是对这些关键信息的梳理与分析:

1、新模型系列概览:

  • OpenAI推出新的o1系列模型,包括o1(全功能版)、o1-preview(预览版)和o1-mini(STEM/代码专用版)。

  • o1是通过大规模强化学习训练的新型大语言模型,使用思维链进行推理。

  • o1-preview是o1的早期版本,o1-mini则针对STEM和代码领域进行了优化。

2、性能对比:

  • 在复杂推理领域,o1系列模型比GPT-4o更受欢迎。

  • 在语言为中心的任务中,GPT-4o仍然更胜一筹。

  • o1-mini在数学和编程方面可作为o1的经济高效替代品。

3、o1的核心特点:

  • 展现了AI推理能力的新高度,能够完成复杂推理任务。

  • 采用长思维链解决问题,可将复杂问题分解为简单任务序列。

  • 在复杂推理测试和代码生成方面表现优异。

  • 思维链提高了安全性和协调性,但仅向用户展示摘要。

4、安全性与访问限制:

  • 总体风险评级为"中",被认为可以安全部署。

  • 提出了新的安全训练方法,加强了管理与合作。

  • 对不同用户群体(如ChatGPT Plus、Team、Enterprise等)设置了不同的访问限制。

5、o1-preview与o1-mini的特点:

  • o1-preview作为早期模型,功能有限,不支持联网和文件上传等。

  • o1-mini速度快、成本低,专注于STEM推理,对话速度比o1-preview快3-5倍。

6、应用领域:

  • o1适用于科学研究、编程、数学等复杂推理领域。

  • o1-mini适合需要推理但不需要广泛世界知识的场景,主要用于STEM相关任务。

二、推理测试案例

推理测试1、

小时候有么有做过一些逻辑智力题,类似于:"当公主的年龄是王子过去年龄的两倍时,公主的年龄等于她当前年龄与王子当前年龄之和的一半。公主和王子的年龄分别是多少?"

看看 GPT o1 能不能做出来!

推理测试2、

量子物理学家马里奥•克莱恩(Mario Krenn)向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,之前的模型,比如 GPT-4 很可能无法很好地完成这个任务。但是,与 GPT-4 的回答相比,o1 模型的回答提供了非常详细的数学推导,并且结果是正确的。

推理测试3、

记得以前吴恩达老师讲大语言模型时,专门举了个例子说大语言模型不会数单词“strawberry”中字母“R”的个数,因为模型的处理单位是 Token 而不是单词或者字符,所以它无法正确数对有多少个“R”,大语言模型的设计目标是处理文本,而不是字符或单词。 而新的 o1 模型是一个推理模型,内置推理能力的模型能在给出答案之前会先思考避免错误。

推理测试4、

OpenAI 最新的 o1 模型写代码能力的演示,演示的是编写一个可视化 Transformer 中自注意力机制的交互效果网页,但最近看多了炫酷的代码演示,这个真的算不上效果多好。


三、API调用价格

1、API Tier 5

1)API 用户要求是 API 上花费超过 $1,000 并且付费超过 1 个月:

https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five

2)在这里可以查你是 Tier 几的 API 用户:

https://platform.openai.com/settings/organization/limits


2、看看 API 的价格,


3、最后,必须补充一下,这个价格并不是表面上看到的价格,o1 模型引入了推理 Token。

模型使用这些推理 Token 进行“思考”,通过分解对提示词的理解并考虑多种回应方法。生成推理 Token 后,模型会生成可见的完成 Token 作为回答,并从上下文中丢弃推理 Token。

以下是用户和助手之间多步对话的示例。每一步的输入和输出 Token 都会被保留,而推理 Token 则被丢弃。



原文链接:

 https://openai.com/index/learning-to-reason-with-llms/

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/openai-o1-system-card/

https://cdn.openai.com/o1-system-card.pdf

素材来源官方媒体/网络新闻


对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你的观点和看法!

往期回顾

[1、谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍

[2、英国著名艺术家眼中的一致性:解读米哈游前CEO蔡浩宇的AI言论‘99%开发者将被淘汰,只是时间问题

[3、站在9000位创始人肩膀上看AI,创业界最火孵化器YC发布重磅播客:人工智能,是一场炒作还是革命?


我们旨在将先进科技与创新想法完美融合!

想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮

告别昂贵服务和缺人烦恼,再见漫长交付周期

无限创意,分分钟生成专业级产品

感受 AI 带来的全新工作体验!

欢迎各大品牌方、媒体、企业和个人等

请联系负责人微信:Milo-1101

--END--

继续滑动看下一个
AI深度研究员
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存