【加更】OpenAI 发布会彩蛋!GPT-4o这么多大招都没演示,不放出来等过年吗?
关注卡尔的AI沃茨并设为“星标“第一时间接收最新AI资讯✨
作者:祝豪 & 卡尔
动手学AI 教程知识库 👉 learnprompt.pro 你想学的都在这里🎉
不知道熬夜追OpenAI的发布会家人们和回看发布会的家人们,在看完这仅有二十几分钟的简短发布会是否有点意犹未尽的感觉呢?
当我翻开OpenAI的官方发布文档之后,发现原来不是这次更新的内容少,而是彩蛋都在blog里啊!接下来我就和大家一起来看一下到底还有多少令人震撼的功能没有展示!!!
我们先给大家送个小彩蛋,《一键跳过灰度,直接使用GPT4o》。方式很简单,使用油猴脚本强开GPT4o,
https://github.com/0x676e67/js-fuck?tab=readme-ov-file
当然这个方法上手有点难度|大家如果需求多的话,不妨评论一下催更,我们会将脚本打包成插件,让大家可以直接安装使用🎉
一句话总结GPT-4o
“GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。
它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于人类响应时间。
在对话中。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。”
Blog开篇的一句话就将这次发布GPT-4o的所有新特性都概括了,但其中语音和视觉所打造了多模态能力,是需要生活中的实际例子才能体验到GPT-4o
给显示生活中所带来的冲击!!!
所以OpenAI用几个视频的例子解释了,生活中使用GPT-o的场景。
语音能力场景展示
这里展示很多场景,包括石头剪刀布等趣味场景,在这里我挑选了几个令我印象深刻的与大家分享,感兴趣的可以去OpenAI官网看下视频!
AI相互对话
在视频中Greg 用两个ChatGPT让两个AI对话甚至是唱歌,那么接下来AI小镇不仅仅是文字形式了?!可以真实的对话了!
面试准备
面试准备,现在具有的视觉和语音功能之后,AI的面试官,考官扮演能力,得到了大大的增强,他能看到你的表情判读你是否紧张,可以听到你的回答,能听出你的情绪,现在提示词中的Role(角色扮演)部分,能让用户真真切切的感受到了。
学习辅导
之前还苦于ChatGPT无法识别图片中的内容,现在甚至可以用他开启摄像头实时求解几何问题!
不仅仅是数学,强大的语音功能让他在语言学习方面也更加的具有优势!
这也可能是今天Duolingo 股票大跌的原因!
充当”你的眼睛“
这个场景应该算是最让我印象深刻的一个,这次OpenAI真的完成了他之前所说的为视力障碍人士提供了帮助,GPT-4o可以扮演”眼睛“,来为盲人描述当前的环境和打车,
充当语音客服
当GPT-4o在结合知识库和RAG能力之后,是否真的能代替人工客服呢?就让我们拭目以待!
更强大的视觉场景
视觉叙事
GPT-4o现在具有强大的视觉能力,他可以在图片中正确的显示文字,还可以根据故事生成对应的画面,同时画面之间具有连贯性!
第二个快递员的例子更加的直接
首先先用GPT-4o 生成一个快递员形象。
接下来就可以用这个快递员结合提示词生成连环画了!
如果GPT 3.5 开创了AI生成小说的玩法,那么GPT-4o 将开启AI漫画的创作,我已经开始期待AI创作的漫画产品出现了!
海报创作
这次的海报创作可不仅仅只是创造一个海报,而是结合输入的人物照片。
首先输入两个人物形象
这个效果真的惊艳到我了!!!
3D形象创作(最惊艳!!!)
GPT-4o用六张不同视角的图片就能生成一个3D形象
思路打开,我们可以利用GPT-4o能创作人物形象的能力, 先创造出一个人物形象的不同视角的图片,再利用3D建模能力一个3D形象就创建成功了!!!(强到可怕!!!)
(重磅!)演讲总结——语音和视频能力的结合
看到这个能力的时候,我真的被这个GPT-4o完全的震撼到了!!!
对比GPT 3.5还只能对文字总结,现在GPT-4o已经下个Level 了!真的强到可怕!!!
官网还有更多的视觉创作例子,大家可以自行去探索,真的离AGI又近了一步!
最新领先的模型
虽然GPT-4o没有加入大模型排行榜,但是作为GPT-4o 测试版的gpt2-chatbots 测试结果吊打了所有的大模型!!
以领先50 Elo的成绩登顶榜首!!!成为最强的大模型!
置信区间图表 — 与以前的前 5 个模型存在巨大差距。
在更具挑战性的 Coding Arena 中,我们看到了更大的差距(~100 Elo)!
与所有其他模型相比,胜率明显更高。例如,在非平局战中,~80% 的胜率对阵 GPT-4
最新的知识
GPT-4o的知识已经更新到今年5月了
两种关于GPT-4o关键评估的角度
人兴奋的新模型吗?它本应是GPT-4的巨大飞跃。不!它不是
事实上,这证明了LLM正在趋于稳定,MMLU 中每多加一分都很难实现。OpenAI 选择将其命名为 GPT-4o说明了一切!
这是基于基准的最佳模型之一吗?
他们发布的MMLU 和 Human Eval看起来比他们目前最好的模型要好。我怀疑Llama-3400B 可以击败或匹敌它,但它还没有发布。所以,从技术上讲,GPT-40 是世界上最好的模型。
写在最后
目前ChatGPT 桌面版只更新了MacOS版本
诈骗链接四处流传。这是唯一合法的下载链接:
https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg
它将在接下来的几周内向 ChatGPT+ 和免费用户推出。
最后,未来的市场会不会属于AI眼镜呢?
最后,谢谢你看到了这里👏 想要第一时间接收到我们的推送,可以点个星标 ⭐ 如果喜欢这篇文章,不妨随手来个 点赞、在看、转发 一键三连👍 你的支持将是我们更新的最大动力!
没有看过发布会总结的可以查看上一篇:OpenAI春季发布会全记录|全才GPT-4o,拳打Siri,脚踢谷歌Gemini
如果对GPT4o的性能感兴趣,可以查看我们的十项性能对比:
【首发】一手测评GPT-4o十项能力 - 中文场景下轻松超过GPT4
OpenAI科技春晚
快来加入我们的直播讨论群吧!OpenAI科技春晚将会是一个围绕OpenAI为核心,OpenAI的技术更新以及追赶它的closed LLM和open LLM将会是我们主要更新的内容~