Open AI再次开启了AI领域的新时代,开发者大会详细内容汇总
Open AI昨晚的开发者大会就像去年12月Chat GPT发不一样将我们和AI领域带入了一个新的时代,这是顶着发困的脑袋写下的内容总结。希望可以尽快体验到这些新能力。
简介
在 OpenAI 的 DevDay 大会上,公司宣布了几项新产品和更新。
首先是GPTs它可以让不动编程的用户通过可视化界面和自然语言创建属于自己的AI程序。同时可以将这些程序发布的Open AI的应用商店里面。
另外已有的模型能力都得到了提升,价格也下降了。GPT-4更是发布了128K上下文的版本。多模态内容的API也会开放。
GPTs
这是一个划时代的东西,Open AI真正的把Agents这个东西变得可以使用了,而且在LLM的加持下构建门槛地的令人发指,人人都是程序员和产品经理的时代真的来了。
GPTs是 ChatGPT 的自定义版本。GPT 是一种新方式,任何人都可以创建 ChatGPT 的定制版本,以便在日常生活、特定任务、工作或家庭中更有帮助,然后与其他人分享该创作。
例如,GPT 可以帮助你学习任何棋盘游戏的规则、帮助教你的孩子数学或设计贴纸。
任何人都可以轻松构建自己的 GPT——无需编码。可以为自己制作它们,仅供公司内部使用,或为每个人制作。创建一个就像开始对话一样简单,给它指令和额外的知识,然后选择它能做什么,比如搜索网络、制作图像或分析数据。
示例用的 GPTs 昨晚已经供 ChatGPT Plus 和企业用户试用(写稿子的时候还不行),包括 Canva 和 Zapier AI Actions。
这里面不止介入了Open AI自己的内容还接入了Canva和Zapier,你用自然语言就可以调用他们本身的能力,比如帮你做个宣传海报。
其他用户应该会在未来几天获得权限。
GPT 允许你为特定目的自定义 ChatGPT
Open AI在 7 月推出了自定义指令,可让用户设置一些首选项,但不断有人要求更多控制。许多高级用户都会维护一份精心设计的提示和指令集列表,并将它们手动复制到 ChatGPT 中。GPT 现在可以自动完成所有这些工作。
你还可以把你创建的GPTs分享给别人或者出售,本月晚些时候,Open AI将推出 GPT 商店,其中包含经过验证的构建者的作品。一旦进入商店,GPT 就可以被搜索到,并且可能会登上排行榜。
他们还将重点关注在生产力、教育和“只是为了好玩”等类别中遇到的最有用和最令人愉快的 GPT。在接下来的几个月中,你还可以根据使用您的 GPT 的人数来赚钱。
开发者可以将GPT连接到现实世界
除了使用内置功能之外,还可以通过向 GPT 提供一个或多个 API 来定义自定义操作。与插件一样,操作允许 GPT 集成外部数据或与现实世界交互。将 GPT 连接到数据库、将其插入电子邮件或使它们成为购物助手。例如,可以集成旅行列表数据库、连接用户的电子邮件收件箱或促进电子商务订单。
企业客户可以部署仅供内部使用的 GPT
GPTs 通过允许您为特定用例、部门或专有数据集创建 ChatGPT 版本来响应这一号召。Amgen、Bain 和 Square 等早期客户已经在利用内部 GPT 来做一些事情,例如制作体现其品牌的营销材料、帮助支持人员回答客户问题或帮助新软件工程师入职。
企业可以在周三开始使用 GPTs。现在可以授权公司内部的用户无需代码即可设计仅供内部使用的 GPTs,并将其安全地发布到工作区。管理控制台允许您选择如何共享 GPT 以及是否可以在企业内部使用外部 GPT。与 ChatGPT Enterprise 上的所有使用一样,Open AI 表示不会使用你与 GPTs 的对话来改进模型。
ChatGPT的其他改进
最后,ChatGPT Plus 现在包含截至 2023 年 4 月的最新信息。
从今天开始,不再在型号之间跳来跳去;需要的一切都集中在一处。无需切换即可访问DALL·E、网络浏览和数据分析。
还可以附加文件,让 ChatGPT 搜索 PDF 和其他文档类型。
开发人员相关
针对开发人员和API也有很多内容,包括新的GPT-4模型价格降低等。
全新的GPT-4 Turbo型号更加强大、更便宜,并支持128K的上下文窗口。
新的Assistants API使开发人员更容易构建自己的辅助AI应用程序,这些应用程序具有目标并可以调用模型和工具。
平台中的新多模态功能,包括视觉、图像生成(DALL·E 3)和文本转语音(TTS)
这些新的能力将会从北京时间5点开始向开发者推送。
128K上下文的GPT-4 Turbo
GPT-4 Turbo更强大,了解截至2023年4月的世界事件。它具有128k的上下文窗口,因此可以在一个提示中容纳相当于300多页的文本。我们还优化了其性能,因此我们能够以比GPT-4更便宜的价格提供GPT-4 Turbo的输入Token,价格降低了3倍,并且输出Token的价格降低了2倍。
GPT-4 Turbo现已对所有付费开发者开放试用,通过API中的gpt-4-1106-preview进行访问。计划在未来几周内发布稳定的生产就绪模型。
函数调用更新
函数调用允许你将应用程序或外部API的函数描述给模型,并使模型智能地选择输出一个包含调用这些函数参数的JSON对象。
今天发布了几项改进,包括在单个消息中调用多个函数的能力:用户可以发送一条消息请求多个操作,例如“打开车窗并关闭空调”,这在以前需要与模型进行多次往返。还改进了函数调用的准确性:GPT-4 Turbo更有可能返回正确的函数参数。
改进的指令跟随和JSON模式
GPT-4 Turbo在需要仔细遵循指示的任务上表现比我们之前的模型更好,例如生成特定格式(例如,“始终以XML格式回复”)。
它还支持我们的新JSON模式,确保模型会以有效的JSON格式回复。新的API参数response_format使模型能够限制其输出,生成一个语法正确的JSON对象。JSON模式对于在聊天完成API中生成JSON的开发人员而言非常有用,而不是在函数调用中。
可重复的输出和对数概率
新的种子参数通过使模型返回一致的完成结果,大部分时间能够实现可重现的输出。这个测试版功能对于重放请求进行调试、编写更全面的单元测试以及对模型行为具有更高程度的控制等使用场景非常有用。
还将在接下来的几周内推出一个功能,用于返回由GPT-4 Turbo和GPT-3.5 Turbo生成的最可能输出令牌的对数概率,这对于构建搜索体验中的自动完成等功能非常有用。
更新的GPT-3.5 Turbo
除了GPT-4 Turbo之外,还发布了GPT-3.5 Turbo的新版本,该版本默认支持16K上下文窗口。
新的3.5 Turbo支持改进的指令跟随、JSON模式和并行函数调用。例如,内部评估显示,在生成JSON、XML和YAML等格式跟随任务方面,性能提升了38%。
开发人员可以通过调用API中的gpt-3.5-turbo-1106来访问这个新模型。使用gpt-3.5-turbo名称的应用程序将在2021年12月11日自动升级到新模型。
Assistants API、检索和代码解释器
发布了Assistants API,这是帮助开发者在自己的应用程序中构建类似代理的体验的第一步。
Assistants 是一种专门设计的人工智能,具有特定的指令,利用额外的知识,并可以调用模型和工具来执行任务。新的Assistants API 提供了新的功能,如代码解释器和检索,以及函数调用,以处理以前必须自己完成的大部分繁重工作,并使你能够构建高质量的人工智能应用程序。
现场还演示制作了一个旅行应用。并且制作了一个语音操作的代理给现场所有人发了500美元的充值。
这个API的设计非常灵活,使用场景可以是基于自然语言的数据分析应用、编码助手、AI驱动的度假规划器、语音控制的DJ、智能可视化画布等等。Assistants API基于与Open AI的GPTs产品相同的能力构建:自定义指令和工具,如代码解释器、检索和函数调用。
这个API引入的一个关键变化是持久且无限长的线程,它允许开发者将线程状态管理交给OpenAI,并绕过上下文窗口的限制。使用助Assistants API,只需将每条新消息添加到现有的线程中即可。
Assistants 还可以根据需要使用新的工具,包括:
代码解释器:在受限执行环境中编写和运行Python代码,并能生成图表、处理具有多样化数据和格式的文件。它允许您的助手迭代运行代码,解决具有挑战性的代码和数学问题,等等。
检索:通过从我们的模型之外获取知识,例如专有领域数据、产品信息或用户提供的文档,来增强助手的功能。这意味着您无需计算和存储文档的嵌入向量,也无需实现分块和搜索算法。助手API根据我们在ChatGPT中构建知识检索的经验,优化使用哪种检索技术。
函数调用:使助手能够调用您定义的函数,并将函数的响应融入到他们的消息中。
Assistants API目前处于测试阶段,从今天开始对所有开发者开放。
你可以在这里查看Assistants API的详细使用方法:
https://platform.openai.com/docs/assistants/overview[1]
API中的新模式
GPT-4 Turbo 具备视觉功能
GPT-4 Turbo可以在Chat Completions API中接受图像作为输入,从而实现生成标题、详细分析现实世界图像以及阅读带有图表的文档等用途。例如,BeMyEyes利用这项技术帮助盲人或视力低下的人们完成日常任务,如识别产品或导航商店。开发人员可以通过在API中使用gpt-4-vision-preview来访问此功能。我们计划在稳定版本中将视觉支持推出到主要的GPT-4 Turbo模型中。定价取决于输入图像的大小。例如,将一个1080×1080像素的图像传递给GPT-4 Turbo的费用为0.00765美元。
DALL·E 3
开发者可以通过我们的Images API将我们最近推出的DALL·E 3直接集成到他们的应用程序和产品中,该功能仅适用于ChatGPT Plus和企业用户。通过指定dall-e-3作为模型,Snap、Coca-Cola和Shutterstock等公司已经使用DALL·E 3为他们的客户和活动自动生成图像和设计。与之前版本的DALL·E类似,API内置了内容审核功能,帮助开发者保护应用程序免受滥用。我们提供不同的格式和质量选项,价格从每生成一张图像0.04美元起。
文本转语音(TTS)
开发者现在可以通过文本转语音API生成高质量的语音。我们的新TTS模型提供了六种预设的语音选择,以及两种模型变体,tts-1和tts-1-hd。tts针对实时应用进行了优化,而tts-1-hd则针对质量进行了优化。定价从每1,000个字符的输入开始,价格为0.015美元。
模型定制
正在为GPT-4的微调创建一个实验性的访问计划。
初步结果表明,与GPT-3.5的微调相比,GPT-4的微调需要更多的工作才能实现有意义的改进。随着GPT-4微调的质量和安全性的提高,正在积极使用GPT-3.5微调的开发人员将有机会在其微调控制台中申请加入GPT-4计划。
对于需要比微调更多定制化的组织(尤其适用于具有极大专有数据集的领域——至少数十亿个标记),我们还将推出定制模型计划,为选定的组织提供与一组专门的OpenAI研究人员合作的机会,以训练定制的GPT-4,以适应其特定领域。这包括修改模型训练过程的每一步,从进行额外的领域特定预训练,到运行针对特定领域的定制强化学习后训练过程。组织将独享其定制模型。根据我们现有的企业隐私政策,定制模型不会提供给其他客户使用,也不会用于训练其他模型。
更低的价格和更高的速率限制
正在降低平台上的几个价格,以将节省的费用传递给开发者(以下所有价格均以每1,000个令牌表示)
GPT-4 Turbo的输入令牌比GPT-4便宜3倍,价格为0.01美元,输出令牌则便宜2倍,价格为0.03美元。
GPT-3.5 Turbo的输入标记比之前的16K模型便宜3倍,价格为$0.001,输出标记便宜2倍,价格为$0.002。之前使用GPT-3.5 Turbo 4K的开发者在输入标记上享受到了33%的降价,价格为$0.001。这些更低的价格仅适用于今天推出的新版GPT-3.5 Turbo。
GPT-3.5 Turbo 4K模型的输入标记减少了4倍,价格为$0.003,输出标记降低了2.7倍,价格为$0.006。通过微调,新的GPT-3.5 Turbo模型支持与4K相同价格的16K上下文。这些新价格也适用于经过微调的gpt-3.5-turbo-0613模型。
更高的速率限制
为了帮助用户扩展应用程序,将为所有付费的GPT-4客户将每分钟的令牌限制翻倍。可以在速率限制页面查看您的新速率限制。还发布了确定自动速率限制增加的使用层级,以便了解你的使用限制将如何自动扩展。现在可以从您的账户设置中请求增加使用限制。
Whisper v3和一致性解码器
正在发布Whisper large-v3,这是开源的自动语音识别模型(ASR)的下一个版本,它在多种语言上的性能得到了改进。
感谢Open AI还随手救了Stable Diffusion一把。开源了一个新的一致性解码器,可以替代SD里面的VAE解码器。这个解码器可以对所有SD1.0+模型生效,改善人脸、线条和文本的表现。这个就是DALL-E3的解码器。
毫无疑问GPTs可以让什么都不懂的普通人都可以非常快速的创建自己的应用,新的时代来临了。这波操作给普通人带来了非常多新的机会,也给了很多创业公司当头一棒。
我们生活在人工智能革命的起步阶段,它将给我们带来一个超乎我们最疯狂梦想的黄金时代。
感谢各位,更新不易,如果觉得有用的话欢迎点赞或者转发给需要的朋友。
参考资料
https://platform.openai.com/docs/assistants/overview: https://platform.openai.com/docs/assistants/overview
2023-11-06
2023-11-04
2023-11-02