OpenAI发布GPT-4o全能模型：支持实时语音视频交互、速度比GPT-4 Turbo快2倍

OSC开源社区 2024-05-28

OpenAI“春季功能更新”发布会发布会要点
新的 GPT-4o 模型：跨文本、音频和图像的输入，相互之间可以直接生成，无需中间转换
GPT-4o 语音延迟大幅降低，能在 232 毫秒内回应音频输入，平均为 320 毫秒，这与对话中人类的响应时间相似。
GPT-4 向所有用户免费开放
GPT-4o API，比 GPT4-turbo 快 2 倍，价格便宜 50%
惊艳的实时语音助手演示：对话更像人、能实时翻译，识别表情，可以通过摄像头识别画面写代码分析图表
ChatGPT 新 UI，更简洁
一个新的 ChatGPT 桌面应用程序，适用于 macOS，Windows 版本今年晚些时候推出

OpenAI今天在“春季功能更新”发布会上正式推出最新旗舰模型GPT-4o，能够跨音频、视觉和文本进行实时推理。

GPT-4o（"o" 即 "omni 全能"）可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。

Omni是拉丁语词根，意为 "全体"、"所有" 或 "全面的"。
omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。

GPT-4o 的强大之处是能够实时响应用户的需求，并通过语音来实时回答，用户也可以随时打断它。GPT-4o 据称可在最短232毫秒内响应音频输入，平均响应时间320毫秒，与人类在对话中的反应时间类似——这是实现更自然人机交互的重大进步。

GPT-4o 还具有视觉能力，能识别物体并根据视觉做出快速的响应和回答，具有非常强的逻辑推理能力。它的速度比 GPT4-turbo 快 2 倍，价格便宜 50%。

在GPT-4o之前，人们可以使用语音模式与ChatGPT交谈，平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为此语音模式集成了三个独立模型：一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型再将文本转换回音频。这一过程意味着GPT-4可能丢失大量信息——它无法直接理解语调、多个说话者的声音或背景噪音，也无法输出笑声、歌唱或表达情感。

现在，OpenAI端到端训练的新模型GPT-4o覆盖了文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是第一个结合所有这些模态的模型，所以团队对模型能力和局限性仍在探索中。

官方表示，ChatGPT 免费用户使用 GPT-4o 可以体验以下功能：

体验 GPT-4 级别的智能
从模型和网络获取响应
分析数据并创建图表
聊一聊你拍的照片
上传文件以获取摘要、写作或分析帮助
使用 GPTs 和 GPT Store
通过 Memory 构建更加有帮助的体验

开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。

不少开发者表示已经可以体验了~

Reference

https://www.pingwest.com/a/294889
https://www.ifanr.com/1585169

END

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

OpenAI发布GPT-4o全能模型：支持实时语音视频交互、速度比GPT-4 Turbo快2倍

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

生成图片，分享到微信朋友圈

OpenAI发布GPT-4o全能模型：支持实时语音视频交互、速度比GPT-4 Turbo快2倍

您可能也对以下帖子感兴趣