查看原文
其他

OpenAI发布GPT-4o全能模型:支持实时语音视频交互、速度比GPT-4 Turbo快2倍

OpenAI“春季功能更新”发布会布会要点
  1. 新的 GPT-4o 模型:跨文本、音频和图像的输入,相互之间可以直接生成,无需中间转换

  2. GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。

  3.  GPT-4 向所有用户免费开放

  4. GPT-4o API,比 GPT4-turbo 快 2 倍,价格便宜 50%

  5. 惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表

  6. ChatGPT 新 UI,更简洁

  7. 一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出

OpenAI今天在“春季功能更新”发布会上正式出最新旗舰模型GPT-4o,能够跨音频、视觉和文本进行实时推理

GPT-4o("o" 即 "omni 全能")可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。

Omni是拉丁语词根,意为 "全体"、"所有" 或 "全面的"。
omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。

GPT-4o 的强大之处是能够实时响应用户的需求,并通过语音来实时回答,用户也可以随时打断它。GPT-4o 据称最短232毫秒内响应音频输入,平均响应时间320毫秒,与人类在对话中的反应时间类似——这是实现更自然人机交互的重大进步。

GPT-4o 还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo 快 2 倍,价格便宜 50%。

在GPT-4o之前,人们可以使用语音模式与ChatGPT交谈,平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为此语音模式集成了三个独立模型:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型再将文本转换回音频。这一过程意味着GPT-4可能丢失大量信息——它无法直接理解语调、多个说话者的声音或背景噪音,也无法输出笑声、歌唱或表达情感。

现在,OpenAI端到端训练的新模型GPT-4o覆盖了文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是第一个结合所有这些模态的模型,所以团队对模型能力和局限性仍在探索中。

官方表示,ChatGPT 免费用户使用 GPT-4o 可以体验以下功能:

  • 体验 GPT-4 级别的智能

  • 从模型和网络获取响应

  • 分析数据并创建图表

  • 聊一聊你拍的照片

  • 上传文件以获取摘要、写作或分析帮助

  • 使用 GPTs 和 GPT Store

  • 通过 Memory 构建更加有帮助的体验

开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。

不少开发者表示已经可以体验了~

Reference

https://www.pingwest.com/a/294889
https://www.ifanr.com/1585169

END


热门文章

90后程序员辞职搞灰产:开发视频搬运软件、不到一年获利超700万,结局很刑!

15年前被钉在“FFmpeg耻辱柱”,今天他却得谢谢咱——腾讯QQ影音一雪前耻?

VS Code劲敌、Atom原作者主导、Rust编写的“最好”编辑器——Zed开始支持Linux

搞了3年开源,年收入超200万,什么水平?

华为立大功、为中国工业软件里程碑贡献全部开源代码


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存