查看原文
其他

科普 | GPT-4o中的“o”究竟是什么意思?

爱分享的 语言服务
2024-09-04
点击上方“语言服务” 可以订阅


不开玩笑,电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。

现场直播的效果更是炸裂:

它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。

GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致

这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放!

(新语音模式几周内先对Plus用户开放)

在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。

在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot

无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。

而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!

追直播的网友已经在设想可能的应用,可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。

总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果,OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。

发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。

而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。

这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)

Brockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。

接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。

只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事,小N也感到很有趣。

接下来就是小O和小N相互对白的时间了,TA们依然是从Brockman的衣着开始聊起,小O不断提出新的问题,小N都一一解答。

接着,他们又谈论了房间的风格、布置和光线,甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。

如果你看了这段视频就会发现,画面中出现了一个女人在Brockman身后做了些恶搞的手势。

这可不是乱入,是Brockman和女人串通好,专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候,Brockman选择加入,直接问有没有看到什么不正常的地方。

结果是小N直接识破了Brockman的小伎俩,直接复述出了女人在他身后做小动作的场景,小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。

Brockman把这句话当成了夸赞,并对小O表示了感谢,还愉快地加入了TA们的对话。

之后是最后也是最精彩的部分,在Brockman的指挥下,小O和小N根据刚才聊天的内容,直接开启了对唱模式。

只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。

最后视频以Brockman唱出的一句Thank you结束,在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

端到端训练,一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样,那么它是如何做到的呢?

非常抱歉,这次非但没有论文,连技术报告也不发了,只在官网Blog里有一段简短的说明。

在GPT-4o之前,ChatGPT语音模式由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音

我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。

这样一来,整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。

GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理

在语音翻译任务上,强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。

在视觉理解上,也再次反超Gemini 1.0 Ultra与对家Claude Opus

虽然技术方面这次透露的消息就这么多了,不过也有学者评价。

一个成功的演示相当于1000篇论文。

“o”是包罗万象的o

据OpenAI表示,GPT-4o是一个“原生多模态”模型,它的命名来源于“omni”,即包罗万象之意。

比起此前要么是图文模式要么是语音模式的GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。

升级后的GPT-4o回答速度更快了

另外根据网友推测,GPT-4o这么强,全都免费开放了,这是劝大家不续订ChatGPT Plus了的意思吗?

那肯定不是啊~

鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把,明天OpenAI还有新活也说不定呢?

直播回放
https://www.youtube.com/watch?v=DQacCB9tDaw

参考链接:
[1]
https://openai.com/index/hello-gpt-4o/

本文来源:量子位


老规矩

觉得长知识的

点赞为敬



科普


科普 | 男导师的妻子叫“师母”,那么女导师的丈夫怎么称呼?科普 | 为什么可以说“我爸爸”“我妈妈”,却不能说“我狗”?科普 | “爸爸”称谓的演变史:不是每一个父亲都叫“爸爸”科普 | 为什么世界大多数语言“妈妈”的发音都差不多?
科普 | 为什么大人和儿童交流总是喜欢叠词词?
科普 | “躺平”是什么梗?如何看待年轻人“躺平”的现象?科普 | 语言学专业学生心碎的十六个瞬间科普 | 语言学专业学生的25种“怪癖”,哪一个戳中了你?科普 | 25个让你意想不到的语言小知识科普 | 语言学家达成一致意见的83个问题
科普 | 只有语言学内行人才能看懂的11张图科普 | 如何向理工科男朋友介绍语言学专业是干啥的?科普 | 凡尔赛一下语言学那些“不明觉厉”的用处科普 | 招牌背后的语言学:为什么你会被招牌吸引?科普 | 如何用语言学知识分析“小偷偷偷偷东西”并对下联?网友的答案秀出了天际!科普 | 粤方言的“嘉禾望岗”为什么好听?
科普 | 为什么很多人发完语音后要再听一遍?
科普 | “好哒”“好滴”,是礼貌还是“文字讨好”?
科普 | 费翔的“商务殷语”火了!这门魔性的语言是啥原理?
科普 | 最近经常刷到的“猫meme”究竟是什么梗?
科普 | “偷感很重”是什么梗?用英语怎么说?
科普 | “拿来吧你”是什么梗?让我们用语言学知识分析一下
科普 | 最近刷屏的“显眼包”是什么梗?可不是eye pack哦!

科普 | “确诊式”文学是什么梗?网友:正式被确诊为浣碧

科普 | “尔滨”是什么梗?“哈尔滨”原本是什么意思?
科普 | “南方小土豆”是什么梗?是歧视、自嘲还是爱称?
科普 | “小砂糖橘”是什么梗,用英语怎么说?
科普 | “普通话羞耻症”是什么梗?

科普 | “i人”“e人”“j人”“p人”分别是什么梗?

科普 | 飑线过境,一秒入夜!飑线究竟是啥,怎么读?

科普 | 语言学家解读《繁花》腔调:三代上海话“同中有异”
科普 | 北京野生动物园的声明为啥火了?我们用语言学知识分析一下

科普 | 思聪真的是舔狗吗?让我们用语言学分析一下

科普 | 潮流语言的终级迷惑:“yyds”为什么从去年火到今年?科普 | 什么是语言学?语言学就是学语文的?语言学有何用武之地?科普 | 语言学等于学语言吗?为什么要学语言学?科普 | 为什么有的人更擅长学习多种语言?科普 | 为什么很多人总把“然后然后”挂在嘴边?
科普 | 语言学是一门科学吗?科普 | 为什么要学语言学?科普 | 如何阅读语言学论文?科普 | Hilpert:为什么要学习语言学?科普 | 世界语言谱系及语种全览科普 | 汉语在世界上到底有多少“亲戚”?科普 | 哪种语言最难学?外媒做了个排名,高居榜首的是……科普 | 为什么微信语音里自己的声音很难听?科普 | 为什么其他国家大多用拼音文字而非方块字?科普 | 为什么可以“水一篇论文”,而不能“菜一篇论文”?
科普 | 为什么现在很多人微信聊天时不爱用标点符号?
科普 | 为什么现在管谁都叫“老师”?科普 | 年轻人为什么喜欢在聊天时加上空括号?
科普 | 电影《周处除三害》中的“处”怎么读?

科普 | “牛轧糖”的“轧”到底读“gᔓzhá”还是“yà”?

科普 | 车厘子的“J级”“JJ级”,“J”到底是哪个单词?
科普 | “No.”并不是Number的缩写,而是这个词科普 | “别cue我”的cue在英语里到底是什么意思?科普 | 老外聊天时最后发的“X”是什么意思?理解错了很尴尬!
科普 | 圣诞节为什么拼写成Xmas?圣诞快乐可以说成Happy Christmas吗?
科普 | 麦当劳“McDonald's”前面的“Mc”是什么意思?
科普 | Excuse me是“不好意思”,那Excuse you是啥意思科普 | “You are an old dog”可不是骂你,理解错误就尴尬了!
科普 | 老外对你说“I eat no fish”是啥意思?可不是“我不吃鱼”!科普 | “you are a noodle”是什么意思?可不是“你是个面条”
科普 | “dog eat dog”是啥意思?可不是“狗咬狗”......
科普 | “blue moon”是啥意思?可不是“蓝月亮”!
科普 | “dog days”是啥意思?可不是“狗日子”!
科普 | “懂了”到底是“Get it”还是“Got it”?
科普 | “中国龙”翻译成Dragon还是Loong?网友吵开了
科普 | “what's cooking”是啥意思?可不是问在做什么饭
科普 | “年前冷静期”是什么梗?
科普 | 冲上热搜!“大学生德华”是什么梗?
科普 | 老外说“Pig-headed”可不是骂你“猪头”,真正的意思是……
科普 | donkey是驴,work是工作,那么donkey work是啥意思?
科普 | water是水,work是工作,waterworks是啥意思?
科普 | kiss是亲亲,away是离开,但kiss away可不是吻别的意思
科普 | 歪果仁发消息说“sorry, WC”是啥意思?千万别误会了!
科普 | 中国人喊“扎心了”,歪果仁喊什么词?
科普 | “You're a fat cat ”是啥意思?很多人都理解错了!
科普 | “You excel me”是啥意思?可别翻译成“你表格我”!科普 | 为什么睡觉用“zzz”表示?
科普 | 今夕中秋:“月亮”的英语竟然不是moon!
科普 | “he is a zero”是什么意思?可不是“他是0”
科普 | bus是“公共汽车”,boy是“男孩”,那么busboy是什么意思?
科普 | walk是走,egg是鸡蛋,那么walk on eggs是啥意思?科普 | dog是狗,body是身体,dogsbody竟然是这种人?科普 | 为什么“蝴蝶”叫butterfly,而“蜻蜓”叫dragonfly?
科普 | smoke-free到底是“允许吸烟”还是“禁止吸烟”?
科普 | 二维码“QR Code”中的“QR”到底是什么意思?
科普 | “shanghai”可不是“上海”!千万别搞混了
科普 | “John”为何译成“约翰”?为什么中英文的发音差异这么大?科普 | 高铁的座位编号有ABCDF,为何唯独没有E?
科普 | iPhone为什么只有P大写?
科普 | 歪果仁常说的“ditto”是什么意思?不只是歌名哦!
科普 | 机场里的T1、T2、T3是什么意思?T又是什么?
科普 | 单词书上第一个词为啥总是abandon?
科普 | 热搜新梗“为i做e”“遇e则i”是什么意思?科普 | 不再emo!这届年轻人的新情绪emoha又是什么梗?
科普 | App,Emoji,YouTube……这些词我们一直都读错了?科普 | Add oil = 加油 ?这些 “中式英语”居然是正确的!科普 | 一图搞懂equality(平等)和equity(公平)的区别
科普 | 大脑为什么要删除你两岁前的记忆?
科普 | 可以说“感谢聆听”“谢谢欣赏”吗?
科普 | 微信聊天要打句号吗?
科普 | 嗯?“嗯”的拼音竟然不是“en”?!科普 | “怂”不读“sóng”,“认怂”写错了?正确的读音和写法是啥?
科普 | 为什么是“冻成了狗”,而不是“冻成了猫”?
科普 | 想要表达真正开心地笑,得用几个“哈”?科普 | 我们分析了3447个地铁站,发现了中国城市地名的秘密科普 | 除了“六安”,还有哪些一读就错的地名?科普 | “街”:我国最奇特的一个字,3000年间都是一个读音科普 | 中国古代才女班昭的尊称“曹大家”,你真的会读吗?科普 | 中国最难懂的十大方言排行,有你的家乡话吗?科普 | 全国各地普通话标准程度排行榜,你的家乡属于第几档?科普 | 汉字到底有多少个?科普 | 为什么有些语言这么难学?科学家发现关键基因科普 | 儿童语言中的可爱语法科普 | 婴儿是天才的语言学习者科普 | 语言学家的迷惑例句:关于性别问题的严肃讨论科普 | 语言进化编年史:我们的语言如何进化,将来如何发展?科普 | 我们为什么要学习一门外语?科普 | 英语专八相当于什么水平?科普 | 学习双语有什么好处?能让大脑更健康,更持久年轻!科普 | 脑洞大开!古汉语原来是这样发音的科普 | Mojito译成“莫吉托”是标准的中式翻译错误科普 | 惨绿少年、酒店猛狗……这些“令人喷饭”的词,居然都是成语科普 | 万万没想到,这些词居然来自方言科普 | 《三十而已》《二十不惑》爆火!剧名为何这样翻译?科普 | 乘风破浪的姐姐们A爆了!这里的“A”是什么意思?科普 | 《红楼梦》中的生僻字词,你认识几个?科普 | 7-ELEVEn,n 为什么是小写?科普 | “PK”“VS”“K.O”分别是哪些单词的缩写科普 | 为什么奥运会裁判报分时把1∶0称为one love?科普 | 英文也是象形文字?万万没想到!科普 | 写公文时,为什么要用仿宋GB2312字体?
科普 | 第20届国际语言学奥林匹克竞赛(IOL)中文版试题科普 | 为什么一看书就想睡觉,小视频却越刷越清醒?科普 | “仚屳屲冚”竟然是一个成语,它是什么意思呢?科普 | 我们好不容易记住的字,为啥就不那么念了?科普 | 东北话的传染性到底有多强?
科普 | 为什么只有中国人有看字幕的习惯?
科普 | 为什么越来越多的年轻人一张嘴就词穷?
科普 | 能不能别写那么多“进行”?
科普 | 刻在中国人DNA里的“中国红”,竟有这么多浪漫的名字!
科普 | 原来,“年”的别称有这么多!

语言服务资源共享



学术资讯分享

学术资源共享

学术交流共进

还有实用干货和更多福利

尽在语言服务资源共享群

欢迎加入


在【语言服务】公众号对话框

回复“资源共享

获取进群方式


语言服务

20万+语言学人已关注

ID:Language-service

投稿邮箱:yuyanfuwu@yeah.net

投稿交流、商务合作、著作出版

请联系语服君

微信号:yuyanfuwu2023

点击阅读原文

获取更多科普趣文


今天有“在看”我吗?
继续滑动看下一个
语言服务
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存