OpenAI凌晨炸场!发布免费模型GPT-4o,可实时处理和推理音频、图像/视觉和文本
点击上方蓝字CG世界关注我们
今天,又是被科技震撼到的一天!
话说早上睡眼惺忪的小编正准备刷个新闻提提神,直接被OpenAI昨天凌晨发的大招给彻底炸醒了。
人工智能领域的大哥表示:不装了,摊牌了!继ChatGPT、Sora之后,是时候让你们看看什么才是真正的技术了!一年一王炸,真的不是说说而已
北京时间5月14日凌晨一点,在OpenAI的春季发布会上,首席技术官Mira Murati除了向大家阐述未来将在ChatGPT中提供更多免费功能外,还宣布了一个重磅炸弹:OpenAI最新旗舰大语言模型GPT-4o,《她》来了!
作为OpenAI之前推出的GPT-4模型的升级版本,GPT-4o能够实时处理和推理音频、图像/视觉和文本等多种形式的输入,并生成文本、音频和图像输出的任意组合。
可以在短至232毫秒的时间内响应音频输入,平均响应时间为320毫秒(接近人类对话中的响应时间)。虽然在英语文本和代码方面,GPT-4o与GPT-4 Turbo的性能相当,但在非英语文本方面有了显著改进,不仅速度更快,同时API费用降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现尤为出色。
GPT-4o的文本和图像输入功能,已在OpenAI的API接口和ChatGPT产品中推出;语音和视频输入输出功能,也将在未来几周内陆续推出。
最重要的一点,GPT-4o可供免费使用(付费用户可以与GPT-4o模型进行更多次数的交互,拥有更高的使用配额),这就意味着任何人都可以通过ChatGPT访问OpenAI的最先进技术。
根据OpenAI当天的演示,GPT-4o实际上会将ChatGPT转变为一个数字个人助理,能够进行实时的语音对话互动,还能与文本和“视觉”内容进行互动。换句话说,用户可以上传截图、照片、文档或图表,ChatGPT就能就这些内容进行对话。
Mira Murati还表示,升级后的ChatGPT还将具备记忆功能,可以从与用户之前的对话中学习,并且能够进行实时翻译。
GPT-4o("o"代表"omni",即全能的意思),在OpenAI看来,它是迈向更加自然的人机交互的一步 。
GPT-4o
OpenAI最新旗舰大模型
在GPT-4o之前,虽然用户可以使用语音模式与ChatGPT交谈,但平均延迟为GPT-3.5 2.8秒,GPT-4 5.4秒,且主要的智能源头GPT-4无法直接观察语气、多个说话者/背景噪音,也无法输出笑声、歌唱或表达情感。
而GPT-4o作为端到端地跨文本、视觉和音频训练的全新单一模型,所有的输入和输出都由同一个神经网络处理,这意味着GPT-4o可以直接感知音频中的各种信息,也可以直接输出带有丰富语义的音频。
但由于GPT-4o是OpenAI第一个集成所有这些模态的模型,目前对其全部能力和局限性还有待进一步探索。
选择样本:视觉叙事-机器人作家的街区
文字大、清晰易读。机器人的手在打字机上打字。
声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?
根据传统基准测试,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别性能,同时在多语种、音频和视觉能力方面创造了新的里程碑。
改进推理 - GPT-4o在0-shot COT MMLU(常识问题)上创下了88.7%的新高分。所有这些评估都是使用OpenAI的新的simple evals库进行收集的。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b还在训练中)
音频ASR性能 - 与Whisper-v3相比,GPT-4o显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译性能 - GPT-4o在语音翻译方面达到了新的最先进水平,并且在MLS基准测试中优于 Whisper-v3。
M3Exam- 基准测试既是多语言评估也是视觉评估,包括其他国家标准化测试的多项选择题,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o表现得都比GPT-4 更强(团队省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少)。
选择了以下20 种语言作为代表,展示了新的标记化器在不同语言家族之间的压缩效果。
另外,OpenAI还根据准备框架和自愿承诺,对GPT-4o进行了评估。在网络安全、CBRN(化学、生物、辐射和核)风险、说服力和模型自主性方面的评估显示,GPT-4o在任何一个类别中的风险评级均未到达中等以上。这一评估包括在整个模型训练过程中进行一系列自动和人工评估:测试了模型在安全缓解措施前后的版本,使用了自定义的微调和提示,以更好地引发模型的能力。
除此之外,GPT-4o还经过了70多名外部专家在社会心理学、偏差和公平性、虚假信息等领域的大量外部红队测试,来确定新增模态会引入或放大的风险。利用这些经验来完善安全干预措施,以提高与GPT-4o交互的安全性。
模型限制示例
GPT-4o是OpenAI在深度学习领域的最新进展,也是朝着实际可用性的方向迈出的一步。OpenAI团队在过去两年一直致力于提高技术栈的各个层面的效率, GPT-4o就是这项工作的首个成果。
GPT-4o的功能将以迭代方式推出,并且从5月13日开始扩展红队(安全团队)的访问权限。ChatGPT中已经推出GPT-4o的文本和图像功能(会在免费版和Plus版本中提供),未来几周内还将在ChatGPT Plus中推出带有GPT-4o的语音模式的新版本。
开发者现在可以通过API访问GPT-4o作为文本和视觉模型,与GPT-4 Turbo相比,GPT-4o更快、价格更低且速率限制提高了5倍。
OpenAI还计划在未来几周内,将GPT-4o的新音频和视频功能支持添加到API中,但目前仅对少数可信赖的合作伙伴开放。
想了解更多资讯的小伙伴,可以关注下OpenAI的官网:
https://openai.com/index/hello-gpt-4o/
end
网友:Autodesk你能不能干点正事?
这波黏土风AI玩的惊艳,但3D才是王者!