OpenAI 凌晨发布:Realtime 实时多模态 API,及其他
中国时间凌晨 1 点多,OpenAI 召开了本年的开发者大会(旧金山场)。顺道说一下,今年开发者大会一共 3 场:10月1号旧金山;10月30号伦敦,以及11月21日新加坡
本次的发布,大体是常规更新,包括:
【新东西】Realtime API
可以理解为就是 GPT-4o 带 advanced voice 的那套,支持 API 了
可以在 playground 里先玩玩
价格很贵很贵,音频的话:
输入价格:100刀 每百万 token
输出价格:200刀 每百万 token
视觉模型微调
对于支持图像的模型,比如 4o 或者 4o-mini,现在可以用图片进行微调了
利好工业/医疗等场景
看了下文档,方法挺友好的,价格也会贵一些:以 4o-0806 为例子,微调价格为 25 刀/百万 token;之后调用是 $3.75 输入,$15 输出
缓存折扣
如果命中缓存,5折,目前支持:gpt-4o,gpt-4o-mini,o1-preview 和 o1-mini 这四个模型
具体可以看这里:https://platform.openai.com/docs/guides/prompt-caching
不如 DeepSeek 的缓存打一折:《DeepSeek API 创新采用硬盘缓存,价格再降一个数量级》
其他发布
模型层面,带来了蒸馏服务:这确实是独一份的,用来生产高质量语料。不过这东西,对普通开发者,应该用处不大
调试方面,迭代了很多 playground 中的工具链和交互方式,比如 system prompt 的自动优化
在 api 层面,支持了如 zod,pydantic 这样的工具,方便更好的结构化输出(疑惑:之前不就支持了?我一直在用啊)
其他...
重点说说
Realtime API
这个东西,可以理解为是 4o 搭配了 advanced voice 的背后 api。
在以往,常规的带语音的 AI 模型,在处理对话的时候,是遵循以下步骤:
将语音转换成文字(比如使用 whisper 模型)
将文字传输给大模型,并获得文字返回
用 tts 工具,将文字读出来
在很多情况下,这么做是没问题的,但总会觉得别扭,比如我给大模型说
wò caò
wò caǒ
wǒ caò
wǒ caǒ
...
很显然,这几个意思是不一样的。如果我通过「语音 - 文字 - 语音」的方法,并不能准确识别,还可能被认为我手里拿了个草「握草」。但如果是语音 end-end 的做法,则可以准确识别。
同时,也可以发现,这里还有一个可行的项目方向:用语音 end - end 的方式,进行语言训练,比如矫正口音。
另需要注意的是,这个模型...很贵。让他说一分钟的话,需要人民币大概 1.7 元:
这个模型的调用方法,和 gpt 系列不太一样,也不用 openai sdk。具体不展开了,有兴趣的可以看这:
https://platform.openai.com/docs/guides/realtime
官方还配了个例子(我是第4个点赞的,ahhhhh):
https://github.com/openai/openai-realtime-api-beta
另一个(console):https://github.com/openai/openai-realtime-console
最后再吐槽下...截止到成稿的时候,这个 api 都没有真实上线。
再来谈谈
视觉模型微调
这个是有用的,尤其是在工业领域,比如:
医疗领域:拿 CT 影像数据来微调,获得一个看片 bot
安防领域:代替部分的传统 CV 方案,判定实时风险
工业领域:让 AI 通过一定量的样本学习,在流水线或者类似场景中,自动检出残次品/报警
微调的方法极其简单,和聊天发图片差不多。支持 url 或者 base64 传递图片,看这就行了:https://platform.openai.com/docs/guides/fine-tuning/vision
这里有些限制,两个方面:
技术限制:最多 5 万组训练数据,每组最多 10 张图,每张图最大 10 M
合规限制:不允许用人像、人脸以及验证码(CAPTCHAs),以及其他可能违规的数据进行训练
众所周知,微调贵一截,这里是价目表:
以及,这里还有一个限时活动:
GPT-4o:每天前 1M 的微调免费,后续 $25.00/1M tokens.
GPT-4o-mini:每天前 2M 的微调免费,后续 $3.00/1M tokens.
至于...
缓存折扣
说白了,就之前(几分钟~1小时)内问过的问题,再问一遍类似的,重复部分半价。不过,优惠力度不够大,毕竟 Gemini 是输入 2 折;DeepSeek 是输入 1折:《DeepSeek API 创新采用硬盘缓存,价格再降一个数量级》
至于原理和步骤,大概是这样:
启用缓存:如果 prompt 长度超过 1024 tokens,系统会自动启用缓存,并检查 prompt 前部分是否已存储在缓存中
如命中:如找到匹配,则会使用缓存的结果,以降低延迟并减少成本
未命中:如没找到,系统会正常处理,然后缓存当前请求,以便将来使用。
需注意:
缓存启用:无需主动声明,自动启用
缓存时间:通常是 5~10 分钟,高峰时段可能是 1 小时(不可控)
缓存管理:同一组织下,缓存共享,且无法主动清理
内容生成:缓存不会影响 API 生成的最终响应,每次生成是独立的
折扣互斥:Batch API 不享受缓存折扣
其他
本场发布会的主要更新,还是传统开发者 - 拿着 API 或者模型整活的。
Realtime API 等马上(可能就是1天内)上线后,可以多试试,找找感觉,应该有不少场景。
另外的,11 月 21 号的新加坡场作为 OpenAI 的本年度最后一场活动,应该会有一些新东西。到时候我也会去现场,带来第一手的实时报道。