OpenAI发布GPT-4o全能模型:支持实时语音视频交互、速度比GPT-4 Turbo快2倍
OpenAI“春季功能更新”发布会发布会要点
新的 GPT-4o 模型:跨文本、音频和图像的输入,相互之间可以直接生成,无需中间转换
GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。
GPT-4 向所有用户免费开放
GPT-4o API,比 GPT4-turbo 快 2 倍,价格便宜 50%
惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表
ChatGPT 新 UI,更简洁
一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出
OpenAI今天在“春季功能更新”发布会上正式推出最新旗舰模型GPT-4o,能够跨音频、视觉和文本进行实时推理。
GPT-4o("o" 即 "omni 全能")可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。
omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。
GPT-4o 的强大之处是能够实时响应用户的需求,并通过语音来实时回答,用户也可以随时打断它。GPT-4o 据称可在最短232毫秒内响应音频输入,平均响应时间320毫秒,与人类在对话中的反应时间类似——这是实现更自然人机交互的重大进步。
GPT-4o 还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo 快 2 倍,价格便宜 50%。
在GPT-4o之前,人们可以使用语音模式与ChatGPT交谈,平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为此语音模式集成了三个独立模型:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型再将文本转换回音频。这一过程意味着GPT-4可能丢失大量信息——它无法直接理解语调、多个说话者的声音或背景噪音,也无法输出笑声、歌唱或表达情感。
现在,OpenAI端到端训练的新模型GPT-4o覆盖了文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是第一个结合所有这些模态的模型,所以团队对模型能力和局限性仍在探索中。
官方表示,ChatGPT 免费用户使用 GPT-4o 可以体验以下功能:
体验 GPT-4 级别的智能
从模型和网络获取响应
分析数据并创建图表
聊一聊你拍的照片
上传文件以获取摘要、写作或分析帮助
使用 GPTs 和 GPT Store
通过 Memory 构建更加有帮助的体验
开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。
不少开发者表示已经可以体验了~
Reference
https://www.pingwest.com/a/294889
https://www.ifanr.com/1585169
END
热门文章
- 90后程序员辞职搞灰产:开发视频搬运软件、不到一年获利超700万,结局很刑!
- 15年前被钉在“FFmpeg耻辱柱”,今天他却得谢谢咱——腾讯QQ影音一雪前耻?
- VS Code劲敌、Atom原作者主导、Rust编写的“最好”编辑器——Zed开始支持Linux