OpenAI 刚刚发布全新系列模型的第一款 OpenAI o1,AI也学会思考了,离'真正的智能'更近一步!
(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文2,000 字,阅读约需3分钟
OpenAI昨天发布了其最新AI模型系列的首款产品——OpenAI o1,也就是传说中的“草莓”模型。
这一突破性模型在复杂推理能力方面取得了显著进展,现已同时在ChatGPT平台和API接口上线。这一新型AI模型的发布,标志着人工智能在处理复杂认知任务方面迈出了重要一步,为科研、技术开发等领域带来了新的可能性。
o1模型最引人注目的特点是其卓越的推理能力,尤其在数学和编程领域表现出色。在国际数学奥林匹克竞赛(IMO)资格考试中,o1模型成功解决了83%的问题,远远超越了其前身GPT-4o的13%解题率。不仅如此,在Codeforces编程比赛中,o1的表现更是超越了89%的参赛选手,展现出其在复杂问题解决方面的强大实力。
目前,ChatGPT Plus和Team用户已可在平台上体验o1模型的魅力。用户可以手动选择o1-preview和o1-mini两个版本,分别有每周30条和50条的消息限制。对于API用户,只有达到Tier 5级别才能使用这两个模型,且需遵守每分钟20次请求(20 RPM)的速率限制。
值得一提的是,o1作为一个早期模型,目前主要聚焦于推理能力的提升。虽然网络搜索、多模态等功能尚未支持,但OpenAI建议将其与GPT-4o配合使用,以获得更全面的AI辅助体验。
o1模型的核心特点包括:
强化思考过程:o1能够投入更多时间进行深度思考,不断完善其推理过程,并在遇到障碍时灵活尝试不同策略。更重要的是,它具备自我纠错能力,能够识别并修正自身的错误。
多步工作流构建:o1擅长构建和执行复杂的多步骤工作流程,为解决繁琐任务提供了强大支持。
广泛的应用前景:o1特别适用于需要深度思考和复杂推理的领域,如科学研究、高级编程和数学分析等。
一、o1系列的核心成员
与此同时OpenAI今日重磅发布全新AI模型系列o1,并通过四篇详尽的文章全面介绍了该系列的核心成员。这些文章分别聚焦于:
成员1:OpenAI o1:系列旗舰模型
成员2:OpenAI o1-preview:早期预览版本
成员3:OpenAI o1-mini:专注STEM领域的轻量级模型
成员4:OpenAI o1 System Card:系统安全与性能评估报告
这套全面的发布材料深入探讨了o1系列的技术创新、应用潜力和安全考量。以下是对这些关键信息的梳理与分析:
1、新模型系列概览:
OpenAI推出新的o1系列模型,包括o1(全功能版)、o1-preview(预览版)和o1-mini(STEM/代码专用版)。
o1是通过大规模强化学习训练的新型大语言模型,使用思维链进行推理。
o1-preview是o1的早期版本,o1-mini则针对STEM和代码领域进行了优化。
2、性能对比:
在复杂推理领域,o1系列模型比GPT-4o更受欢迎。
在语言为中心的任务中,GPT-4o仍然更胜一筹。
o1-mini在数学和编程方面可作为o1的经济高效替代品。
3、o1的核心特点:
展现了AI推理能力的新高度,能够完成复杂推理任务。
采用长思维链解决问题,可将复杂问题分解为简单任务序列。
在复杂推理测试和代码生成方面表现优异。
思维链提高了安全性和协调性,但仅向用户展示摘要。
4、安全性与访问限制:
总体风险评级为"中",被认为可以安全部署。
提出了新的安全训练方法,加强了管理与合作。
对不同用户群体(如ChatGPT Plus、Team、Enterprise等)设置了不同的访问限制。
5、o1-preview与o1-mini的特点:
o1-preview作为早期模型,功能有限,不支持联网和文件上传等。
o1-mini速度快、成本低,专注于STEM推理,对话速度比o1-preview快3-5倍。
6、应用领域:
o1适用于科学研究、编程、数学等复杂推理领域。
o1-mini适合需要推理但不需要广泛世界知识的场景,主要用于STEM相关任务。
二、推理测试案例
推理测试1、
小时候有么有做过一些逻辑智力题,类似于:"当公主的年龄是王子过去年龄的两倍时,公主的年龄等于她当前年龄与王子当前年龄之和的一半。公主和王子的年龄分别是多少?"
看看 GPT o1 能不能做出来!
推理测试2、
量子物理学家马里奥•克莱恩(Mario Krenn)向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,之前的模型,比如 GPT-4 很可能无法很好地完成这个任务。但是,与 GPT-4 的回答相比,o1 模型的回答提供了非常详细的数学推导,并且结果是正确的。
推理测试3、
记得以前吴恩达老师讲大语言模型时,专门举了个例子说大语言模型不会数单词“strawberry”中字母“R”的个数,因为模型的处理单位是 Token 而不是单词或者字符,所以它无法正确数对有多少个“R”,大语言模型的设计目标是处理文本,而不是字符或单词。 而新的 o1 模型是一个推理模型,内置推理能力的模型能在给出答案之前会先思考避免错误。
推理测试4、
OpenAI 最新的 o1 模型写代码能力的演示,演示的是编写一个可视化 Transformer 中自注意力机制的交互效果网页,但最近看多了炫酷的代码演示,这个真的算不上效果多好。
三、API调用价格
1、API Tier 5
1)API 用户要求是 API 上花费超过 $1,000 并且付费超过 1 个月:
https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five
2)在这里可以查你是 Tier 几的 API 用户:
https://platform.openai.com/settings/organization/limits
2、看看 API 的价格,
3、最后,必须补充一下,这个价格并不是表面上看到的价格,o1 模型引入了推理 Token。
模型使用这些推理 Token 进行“思考”,通过分解对提示词的理解并考虑多种回应方法。生成推理 Token 后,模型会生成可见的完成 Token 作为回答,并从上下文中丢弃推理 Token。
以下是用户和助手之间多步对话的示例。每一步的输入和输出 Token 都会被保留,而推理 Token 则被丢弃。
原文链接:
https://openai.com/index/learning-to-reason-with-llms/
https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
https://openai.com/index/openai-o1-system-card/
https://cdn.openai.com/o1-system-card.pdf
素材来源官方媒体/网络新闻
对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你的观点和看法!
往期回顾
[1、谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍
[2、英国著名艺术家眼中的一致性:解读米哈游前CEO蔡浩宇的AI言论‘99%开发者将被淘汰,只是时间问题
[3、站在9000位创始人肩膀上看AI,创业界最火孵化器YC发布重磅播客:人工智能,是一场炒作还是革命?
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--