来自现场:OpenAI 把实时交互,卷到了新高度
参加了 OpenAI 的今日发布
OpenAI Dev Day
在新加坡,大概 200 人
好些熟面孔
在第一排,带来更好、更新的内容
发布之前
先是在今天凌晨,4o 模型来了一波小的更新,版本号 gpt-4o-2024-11-20。主要对写作进行了加强,让其产出的内容更自然、易读(减少所谓 G 味)。在大模型竞技场 LMSYS 中,甚至击败了 o1,成了榜一大哥。
会前闲聊时,OAI 的朋友还夸了下 DeepSeek:
DeepSeek is really solid(原话)
前情提要:《DeepSeek 推理模型预览版上线,解密 o1 推理过程》
以及...
- “我们不聊 Future Product“
- “那聊聊 Sora 吧”
本次发布
这次发布会,OAI 先整了些花活,比如用 o1 做了个无人机控制程序,然后现场遥控无人机。
对于 o1,之后将支持以下内容:
Function Calling / 函数调用
Developer Message / 开发者消息
Structured Outtputs / 结构化输出
Image Understanding / 图片理解
额外的,在研究了下 api 细节后,我发现接下来 语音理解 应该也会上。
之后是关于 Realtime API 的演示,并带来了更强大的实时语音交互,甚至支持多种语言的混合输入,以及混合输出(没录上,哭了,比 whisper 效果好很多很多),然后情绪、语气非常到位的进行混合输出。现场效果很炸裂。
主讲人用多种语言讲述的,并让 AI 用多种语言回应
以及,Realtime 的语音 API 也迎来了 Cache 调价,输出部分打了 2 折。简单算了下,对于大量相近内容的客服场景,调用成本大概是 50 人民币/小时,和人工队相比,开始有了竞争力(毕竟 AI 很容易规模化)。
输入的 cache 价格,从 $100 降到了 $20
另一个演示,是让 AI 来点单(还是很逼真的):在过程中,AI 进行了全自动点餐,包括确认需求,以及... 调整价格。
还有个有趣的,演讲者让 Realtime API based demo 从 0 开始输出,慢慢的:
于是 One...Two...Three...F- [打断]
问:现在你数到几了?
回答:Four
对于 Function Call,Realtime API 也获得了更新。这使得之后的实时语音,不局限于对话了,而是可以进行如操作电脑、联网、查找资料等功能。在发布会现场,演示人展示了如何「言出法随」操作天体。
做成声控的动态幻灯片,效果很惊艳
业务实践
主场发布之后,OpenAI 的朋友还做了 3 个主题分享,涵盖三个关键方向:
通过结构化输出来提升模型响应的准确性和可靠性
利用模型蒸馏技术来平衡性能与成本
以及运用实时 API 来实现更自然的人机交互体验。
Structured Outputs/ 结构化输出
包括原理和实践,如何通过严格遵循 JSON 格式规范,提升输出结果的可靠性和一致性,让数据更易于处理和集成。
结构化输出介绍过:看完这篇,你也能做 AI 搜索:论「结构化输出」
这次提到了一个有趣的点:OpenAI 的接口,首次进行结构化输出的时候,会稍慢一点,之后会快,其原因是... 进行了 cache。
从实现的角度,这里并非「prefill + tag + 正则」(Claude CookBook 做法),而是另辟蹊径,也解决了持续输出"\n\n\n..." 问题
相关阅读:
https://platform.openai.com/docs/guides/structured-outputs
Distillation/ 蒸馏
包括原理和实践,如何将大型模型的智能特性迁移到更小巧的模型中,在保持核心功能的同时,显著降低运营成本,提升系统扩展性。
这里的核心,是使用更强的模型,比如 4o 特定任务,预先输出批量的答案,大几百~几千条,再这些问答对来训练 4o-mini 之类的小模型。如此做完,可以保证在特定任务下,用很低的成本,达到不错的效果。
为此,OpenAI 还提供了完整的工具链。
另外要知道,蒸馏并不适合「需要精准输出的通用任务」。相关阅读:
https://platform.openai.com/docs/guides/distillation
Realtime API/ 实时 API
包括原理和实践,如何集成 Realtime API 的语音和文本处理能力,打造流畅自然的语音交互体验,让应用更智能、更人性化。
额外讲了如何用 Realtime API 配合 Funciton Calling 来使用。这里 Function Calling 的 Schema 和 4o 的格式一致,无缝迁移就行了。
相关阅读:
https://platform.openai.com/docs/guides/realtime
同行交流
除了 OpenAI 的人外,还有几个开发者,也登台分享他们的经验。
Supabase 团队:如何使用他们的产品,通过 AI 能力,无痛搭建数据库。
Grab 团队:如何通过 AI 视觉,解决地图定位问题的精准度问题。
SWYX:深入剖析 AI Agent 的工程化实践,探索如何构建可靠、高效的智能代理系统。
SWYX 老哥的 PPT 是公开的
可以在他的个人网站上找到
https://www.swyx.io/
当然
公众号回复 「SWYX」,也可获得
不出意外
写到这行时,发布会结束
按日程,大家一起去酒吧下半场
搞 AI 的都是酒懵子,这很合理
正如橘子所说,AI 和精酿有两个共通点:
都有幻觉
都是泡沫
我的域名,还有升值空间
www.agi.bar