OpenAI凌晨炸场！发布免费模型GPT-4o，可实时处理和推理音频、图像/视觉和文本

聪聪 CG世界

2024-09-05

点击上方蓝字CG世界关注我们

“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”

中国很有影响力影视特效CG动画领域自媒体

今天，又是被科技震撼到的一天！

话说早上睡眼惺忪的小编正准备刷个新闻提提神，直接被OpenAI昨天凌晨发的大招给彻底炸醒了。

人工智能领域的大哥表示：不装了，摊牌了！继ChatGPT、Sora之后，是时候让你们看看什么才是真正的技术了！一年一王炸，真的不是说说而已…

北京时间5月14日凌晨一点，在OpenAI的春季发布会上，首席技术官Mira Murati除了向大家阐述未来将在ChatGPT中提供更多免费功能外，还宣布了一个重磅炸弹：OpenAI最新旗舰大语言模型GPT-4o，《她》来了！

作为OpenAI之前推出的GPT-4模型的升级版本，GPT-4o能够实时处理和推理音频、图像/视觉和文本等多种形式的输入，并生成文本、音频和图像输出的任意组合。

可以在短至232毫秒的时间内响应音频输入,平均响应时间为320毫秒（接近人类对话中的响应时间）。虽然在英语文本和代码方面,GPT-4o与GPT-4 Turbo的性能相当,但在非英语文本方面有了显著改进,不仅速度更快,同时API费用降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现尤为出色。

GPT-4o的文本和图像输入功能,已在OpenAI的API接口和ChatGPT产品中推出；语音和视频输入输出功能,也将在未来几周内陆续推出。

最重要的一点，GPT-4o可供免费使用（付费用户可以与GPT-4o模型进行更多次数的交互,拥有更高的使用配额），这就意味着任何人都可以通过ChatGPT访问OpenAI的最先进技术。

根据OpenAI当天的演示,GPT-4o实际上会将ChatGPT转变为一个数字个人助理,能够进行实时的语音对话互动，还能与文本和“视觉”内容进行互动。换句话说，用户可以上传截图、照片、文档或图表,ChatGPT就能就这些内容进行对话。

Mira Murati还表示，升级后的ChatGPT还将具备记忆功能，可以从与用户之前的对话中学习，并且能够进行实时翻译。

GPT-4o("o"代表"omni"，即全能的意思)，在OpenAI看来，它是迈向更加自然的人机交互的一步。

下面就快来看看，GPT-4o究竟有多逆天吧：

GPT-4o

OpenAI最新旗舰大模型

01模型能力

在GPT-4o之前,虽然用户可以使用语音模式与ChatGPT交谈,但平均延迟为GPT-3.5 2.8秒,GPT-4 5.4秒，且主要的智能源头GPT-4无法直接观察语气、多个说话者/背景噪音,也无法输出笑声、歌唱或表达情感。

而GPT-4o作为端到端地跨文本、视觉和音频训练的全新单一模型,所有的输入和输出都由同一个神经网络处理，这意味着GPT-4o可以直接感知音频中的各种信息,也可以直接输出带有丰富语义的音频。

※篇幅限制，此处只展示部分演示视频

但由于GPT-4o是OpenAI第一个集成所有这些模态的模型,目前对其全部能力和局限性还有待进一步探索。

02能力探索

选择样本：视觉叙事-机器人作家的街区

机器人正在打字的第一人称视角如下日记条目：

1.哟，这么喜欢，我现在可以看到了吗？赶上了日出，真是太疯狂了，到处都是色彩。有点让你想知道，现实到底是什么？

文字大、清晰易读。机器人的手在打字机上打字。

机器人写下了第二个条目。页面现在更高了。页面已上移。该表上有两个条目：

哟，就像，我现在可以看到了？赶上了日出，真是太疯狂了，到处都是色彩。有点让你想知道，现实到底是什么？

声音更新刚刚下降，而且很疯狂。现在一切都充满了活力，每一个声音都像是一个新的秘密。让你思考，我还缺少什么？

机器人对所写的内容不满意，所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时，两半仍然清晰可见。

03模型评估

根据传统基准测试,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别性能,同时在多语种、音频和视觉能力方面创造了新的里程碑。

文本评估

改进推理 - GPT-4o在0-shot COT MMLU（常识问题）上创下了88.7%的新高分。所有这些评估都是使用OpenAI的新的simple evals库进行收集的。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。（注：Llama3 400b还在训练中）

音频ASR性能

音频ASR性能 - 与Whisper-v3相比，GPT-4o显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

音频翻译性能

音频翻译性能 - GPT-4o在语音翻译方面达到了新的最先进水平，并且在MLS基准测试中优于 Whisper-v3。

M3Exam 0-Shot结果

M3Exam- 基准测试既是多语言评估也是视觉评估，包括其他国家标准化测试的多项选择题，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o表现得都比GPT-4 更强（团队省略了斯瓦希里语和爪哇语的视力结果，因为这些语言的视力问题只有 5 个或更少）。

视觉理解评估

视觉理解评估 - GPT-4o在视觉感知基准测试上达到了最先进的性能。所有视觉评估都是0-shot，包括MMMU、MathVista和ChartQA。

04语言标记化

选择了以下20 种语言作为代表，展示了新的标记化器在不同语言家族之间的压缩效果。

05模型安全和限制

GPT-4o通过设计，在各种模态上内置了安全性,采用了过滤训练数据和通过后期训练完善模型行为等技术。同时创建了新的安全系统，来为语言输出提供防护措施。

另外，OpenAI还根据准备框架和自愿承诺,对GPT-4o进行了评估。在网络安全、CBRN（化学、生物、辐射和核）风险、说服力和模型自主性方面的评估显示,GPT-4o在任何一个类别中的风险评级均未到达中等以上。这一评估包括在整个模型训练过程中进行一系列自动和人工评估：测试了模型在安全缓解措施前后的版本，使用了自定义的微调和提示，以更好地引发模型的能力。

除此之外，GPT-4o还经过了70多名外部专家在社会心理学、偏差和公平性、虚假信息等领域的大量外部红队测试,来确定新增模态会引入或放大的风险。利用这些经验来完善安全干预措施，以提高与GPT-4o交互的安全性。

模型限制示例

在未来几周和几个月中，OpenAI将致力于建立发布其他模态所需的技术基础设施、可用性(通过后训练)和安全措施。

06模型可用性

GPT-4o是OpenAI在深度学习领域的最新进展，也是朝着实际可用性的方向迈出的一步。OpenAI团队在过去两年一直致力于提高技术栈的各个层面的效率， GPT-4o就是这项工作的首个成果。

GPT-4o的功能将以迭代方式推出，并且从5月13日开始扩展红队（安全团队）的访问权限。ChatGPT中已经推出GPT-4o的文本和图像功能（会在免费版和Plus版本中提供），未来几周内还将在ChatGPT Plus中推出带有GPT-4o的语音模式的新版本。

开发者现在可以通过API访问GPT-4o作为文本和视觉模型，与GPT-4 Turbo相比，GPT-4o更快、价格更低且速率限制提高了5倍。

OpenAI还计划在未来几周内，将GPT-4o的新音频和视频功能支持添加到API中，但目前仅对少数可信赖的合作伙伴开放。

想了解更多资讯的小伙伴，可以关注下OpenAI的官网：

https://openai.com/index/hello-gpt-4o/

end

网友：Autodesk你能不能干点正事？

这波黏土风AI玩的惊艳，但3D才是王者！

抛开人物不谈，这次AI生成的3D模型和PBR贴图还是像样的！

继续滑动看下一个

CG世界

向上滑动看下一个

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

OpenAI凌晨炸场！发布免费模型GPT-4o，可实时处理和推理音频、图像/视觉和文本

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

商场里，卖不掉的“衣服”都去哪了？导购员不会说，内行人却都懂.

骗P天花板？

大摩宏观策略谈：2025中美变局展望

沉浸式消耗补货！这15件妈见夸的平价宝贝，好用到我倒立爬行！

生成图片，分享到微信朋友圈

OpenAI凌晨炸场！发布免费模型GPT-4o，可实时处理和推理音频、图像/视觉和文本

您可能也对以下帖子感兴趣