GPT-4o震撼登场：AI已成第一生产力？

Original 科睿科技观察科睿研究院

2024-08-30

科睿科技观察

这是科睿研究院第177篇原创内容。

字数5807字，阅读全文大约需要12分钟。

在科技领域的各大公司还在紧锣密鼓地追赶大模型多模态能力，努力把总结文本、P图等功能塞入手机时，OpenAI已经一马当先，亮出了惊艳世界的大招。

5月14日凌晨，在万众瞩目的首次“春季新品发布会”上，OpenAI推出了新一代旗舰生成模型GPT-4o、桌面App，并带来了一系列震撼的新功能。这一次，OpenAI用技术彻底颠覆了产品形态，给全球科技公司上了一堂生动的课。

免费！

发布会的主持人是OpenAI的首席技术官Mira Murati，她满怀激情地宣布了三大亮点。

首先，OpenAI决定走免费优先的产品路线，让更多人能够轻松体验到这些前沿科技。

其次，为了满足广大用户的需求，OpenAI发布了桌面版本程序和更新后的UI界面，使用更加便捷，体验更加自然。

最后，也是最令人期待的，那就是GPT-4之后的全新大模型GPT-4o的诞生。

GPT-4o的特别之处在于，它以一种近乎完美的交互方式，为每位用户带来了GPT-4级别的智能体验，即使是免费用户也不例外。ChatGPT的这次更新，使得大模型可以接收文本、音频和图像的任意组合作为输入，并实时生成同样丰富的输出组合——这无疑是未来交互方式的典范。

此外，ChatGPT的使用门槛大大降低，无需繁琐的注册流程，即可轻松体验。

GPT-4o作为未来人机交互的全新范式，其强大之处不仅仅在于文本处理，更拥有语音和图像三种模态的理解能力。它的反应速度之快，让人惊叹，而且更难得的是，它还能够理解并表达人类的情感，真正做到了通人性。

在OpenAI的展示现场，工程师们用iPhone向大家演示了GPT-4o的几大核心功能。其中，实时语音对话尤为引人注目。当Mark Chen略带紧张地表示这是他第一次参与直播发布会时，ChatGPT体贴地建议他深呼吸。而令人捧腹的是，当Mark尝试深呼吸后，ChatGPT竟然调侃他“喘得也太大了”，这样的互动让人忍俊不禁。

除了语音对话，GPT-4o的视觉能力也令人印象深刻。工程师在纸上写下复杂的数学方程，GPT-4o不仅能够解释解题步骤，还仿佛成为了一位贴心的数学老师，随时准备为我们答疑解惑。

ChatGPT 说，每当你为数学焦头烂额的时候，我就在你身边。

当然，GPT-4o的代码能力同样不容小觑。无论是解释代码功能，还是回答关于代码的各种问题，它都能应对自如。它甚至能够根据代码输出结果，用一句话回答关于温度曲线图的各种问题，如最热的月份、Y轴的单位等。

在发布会现场，OpenAI还实时回答了X/Twitter上网友们提出的问题。其中，关于实时语音翻译和表情识别的功能，展示了GPT-4o在实时视频理解方面的强大能力。

OpenAI今天发布的GPT-4o无疑是一颗重磅炸弹，它凭借出色的文本、语音和图像理解能力，以及人性化的互动方式，正在改变我们与AI的交互方式，让AI真正成为了我们生活中的得力助手。

全能模型 GPT-4o到底有多厉害？

GPT-4o，其中的“o”代表着Omnimodel（全能模型）的崭新篇章。GPT-4o的诞生，首次将所有模态完美融合于一个模型中，极大地提升了大型模型的实用性。

OpenAI的CTO Muri Murat表示，GPT-4o不仅继承了GPT-4水准的智能，更在文本、视觉和音频等多个方面实现了显著的提升。这一全能模型将在未来几周内逐步融入OpenAI的各类产品中，为我们带来前所未有的全新体验。

Muri Murati进一步阐释道：“GPT-4o的出色之处跨越了语音、文本和视觉三大领域。虽然模型日益复杂，但我们始终致力于让交互体验变得更加自然、更加便捷。GPT-4o将让你无需关注繁琐的用户界面，只需专注于与GPT的默契协作。”

GPT-4o在英语文本和代码上的性能与GPT-4 Turbo旗鼓相当，同时，它在非英语文本处理上展现出了更高的实力。GPT-4o的API速度飞快，成本还降低了50%，真可谓性价比十足。

而在视觉和音频理解方面，GPT-4o更是展现出了惊人的实力。它最快可在232毫秒内响应音频输入，平均响应时长仅为320毫秒，几乎与人类反应速度相媲美。相较于之前体验过ChatGPT语音对话能力的用户所感知到的平均延迟（GPT-3.5为2.8秒，GPT-4为5.4秒），GPT-4o无疑为我们带来了质的飞跃。

值得一提的是，GPT-4o的实现方式也颇具创新。OpenAI跨文本、视觉和音频三个领域，端到端地训练了一个全新的模型。这意味着所有输入和输出都由同一个神经网络处理，彻底改变了以往通过多个独立模型组成的pipeline进行处理的方式。

英伟达科学家Jim Fan对GPT-4o给予了高度评价，他表示：“从技术角度来看，OpenAI已经成功找到了一种将音频直接映射为音频作为一级模态的方法，并实现了视频实时传输到transformer的突破。虽然这需要对token化和架构进行一些新的研究，但总体来说，这更多的是一个数据和系统优化问题。GPT-4o的出现，无疑为人工智能领域注入了新的活力，让我们对未来充满期待。”

GPT-4o以其强大的能力，实现了跨文本、音频和视频领域的实时推理，这无疑是我们迈向更加自然、流畅的人机交互（乃至人-机器-机器交互）的关键一跃。它不仅能够理解并回应我们的文字输入，更能捕捉音频中的微妙情感，甚至解析视频中的复杂信息，使得人与机器的交流变得更加自然、生动。

GPT-4o 在图像理解和生成方面的能力卓越非凡，远超越目前市面上所有的同类模型。以往那些看似遥不可及、充满挑战的任务，在它的面前都仿佛变得轻而易举，如同信手拈来一般。

举个例子，只需轻轻一点，你就可以请GPT-4o助你一臂之力，将OpenAI的logo巧妙地印刻在精致的杯垫上，让每一个细节都尽善尽美。

这是一首诗，GPT-4o 可以将其排版为手写样式：

更复杂的也能搞定：

下面的一些操作让一些平面设计师感到惊奇。

下面是一张由两张生活照演变而来的风格化海报。

OpenAI技术团队的成员在X平台上披露：曾在LMSYS Chatbot Arena掀起热烈讨论的神秘模型「im-also-a-good-gpt2-chatbot」其实就是GPT-4o的一个精彩版本。

特别是在面对复杂的prompt挑战时——特别是编码方面的难题，GPT-4o展现出了相较于OpenAI以往最佳模型的显著提升，令人瞩目。

在多项基准测试中，GPT-4o不仅在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能，还在多语言、音频和视觉功能上取得了前所未有的突破。在推理方面，GPT-4o在5-shot MMLU（常识问题）测试中，创造了令人惊叹的87.2%的高分记录。

推理提升：GPT-4o 在 5-shot MMLU（常识问题）上创下了 87.2% 的新高分。（注：Llama3 400b 还在训练中）

GPT-4o在音频ASR性能上的表现同样惊艳。相比Whisper-v3，GPT-4o显著提升了所有语言的语音识别性能，尤其在对资源匮乏的语言支持上更显优势。在语音翻译方面，GPT-4o更是达到了新的SOTA水平，并在MLS基准测试中超越了Whisper-v3。

音频 ASR 性能：GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

在M3Exam基准测试中，这一既包含多语言评估也包含视觉评估的综合性测试里，GPT-4o同样展现出了卓越的能力，其表现在所有语言基准测试中均超越了GPT-4。

M3Exam 基准测试既是多语言评估基准也是视觉评估基准，由来自多个国家 / 地区的标准化测试多项选择题组成，并包括图形、图表。在所有语言基准测试中，GPT-4o 都比 GPT-4 更强。

未来GPT-4o的能力提升将为用户带来更加自然、实时的语音对话体验，并能够通过实时视频与ChatGPT进行深度互动。想象一下，用户可以向ChatGPT展示一场激烈的体育比赛，并要求它即时解释规则，这样的交互方式无疑将为用户带来前所未有的便利和乐趣。

ChatGPT用户将免费获得GPT-4o的更多高级功能。现在，每周都有超过一亿人使用ChatGPT，而GPT-4o的文本和图像功能已经免费在ChatGPT中推出，为Plus用户提供了高达5倍的消息上限。无论是分析数据、创建图表，还是与拍摄的照片对话，上传文件获取总结、写作或分析方面的帮助，GPT-4o都能轻松应对。

当然，作为一款仍在不断完善的模型，GPT-4o在某些方面仍存在局限性。但OpenAI团队正致力于不断改进，并通过多重安全机制确保GPT-4o在跨模态设计中的安全性。

你们开源，我们免费

在GPT-4o发布的风潮中，OpenAI的CEO山姆·奥特曼终于再度发声，深入分享了推动GPT-4o诞生过程中的心路历程。

奥特曼自豪地宣布：我们在ChatGPT中免费提供世界顶尖的模型，没有任何广告或附加条件。这一举措正是OpenAI使命的核心，旨在让强大的人工智能工具惠及广大民众，让他们能够免费或以优惠的价格享受到前沿技术的红利。当我们回顾OpenAI的初创愿景时，曾设想创造人工智能并利用它为世界带来诸多益处。如今，这一愿景已然成真，我们创造的人工智能正在激发着无数人的创造力，引领着各行各业迈向更美好的未来。

除了免费的人工智能服务，奥特曼还盛赞了GPT-4o版本中全新的语音和视频模式。他坦言，这种交互界面简直就像是电影中的科幻场景一般，令人难以置信。这一创新不仅实现了人类水平的响应速度和表达能力，更让与计算机的交互变得如此自然、智能和有趣。想象一下，未来我们将能够借助这种强大的交互界面，实现更多前所未有的可能。

当然，奥特曼也没有忘记向辛勤付出的团队表示衷心的感谢。正是他们的努力，才让我们能够见证GPT-4o这一里程碑式的成果。

此外，他还提到了实现“全民免费计算”的愿景。在未来，每个人都可以免费获得GPT的算力，无论是使用、转售还是捐赠。这种全新的价值体系将让我们重新审视金钱与生产力的关系，让更多人享受到科技发展的红利。

值得一提的是，OpenAI在博客中展示的“Guessing May 13th’s announcement.”视频，与谷歌明天的I/O大会预热视频形成了巧妙的呼应。

这无疑是对谷歌的一次有力挑战，也让人们不禁思考：在这场人工智能的竞赛中，谁将笑到最后？

中国产品落地，

人工智能发展的两条道路

毫无疑问，在ai领域，美国似乎是领头羊。相比之下，当我们浏览新闻头条时，很少会看到中国企业在人工智能领域的蓬勃发展。

然而，就在这份表面的平静之下，中国企业的竞争早已如同暗涌一般，汹涌澎湃，蓄势待发。

一直以来，相关进展之所以鲜少被公众所了解，其实是因为它们更多地在应用领域中默默发光。想象一下，那些由人工智能驱动的视频广告，它们早已在我们的生活中频繁出现；而在招聘领域，AI虚拟面试官正代替真人，进行高效精准的筛选；更有AI虚拟销售员，他们仿佛真人一般，能够熟练地进行直播带货，带给消费者全新的购物体验。甚至，智能化技术已经渗透到无人飞机、椅子、牙刷等工业品中，为我们的生活带来前所未有的便利。

然而，这一切的进展之所以显得低调，其实是因为中美两国AI技术的发展动力有着截然不同的特点。一条路线是由金融资本驱动的，它追求的是企业的高估值和技术上的飞跃式突破；而另一条路线则是由消费市场驱动的，它更加注重技术的实际应用和市场的快速反馈。

这两种路线各有千秋。金融资本驱动的路线或许更能吸引眼球，因为它常常带来令人惊叹的技术变革。但消费市场驱动的路线，虽然看似平凡，却每一步都脚踏实地，紧密贴合市场需求，不容易出现泡沫。

当然，如果这一轮人工智能技术的发展迟迟无法取得突破，那么那些被金融资本吹捧起来的估值泡沫就有可能面临破裂的风险。届时，那些曾经风光无限的硅谷精英们，他们奉行的金融驱动路线也将面临前所未有的考验。

2024年3月，美国一家曾风光无限的AI独角兽公司，遭遇了创业以来的重大挫折。两位核心创始人及其技术团队选择离开，这一变动让这家估值一度超过40亿美元的科技巨头陷入困境。去年6月，公司还曾吸引比尔盖茨等顶级投资者注入约13亿美元的风投资金，计划携手英伟达打造全球最大的人工智能运算集群，并研发一款名为派的人工智能聊天软件，与OpenAI一较高下。然而，这个雄心勃勃的项目如今已被搁置，公司转而探索更为商业化的道路，为客户定制和调试AI模型。

创始团队的离去，意味着那项曾吸引无数投资人眼球的研发计划彻底流产。它所面临的问题并非孤例，而是美国AI企业普遍面临的困境：缺乏市场应用的有力支撑，盈利前景遥不可及。

事实上，OpenAI同样面临着巨大的经济压力。其首席执行官透露，GPT4的研发成本已高达1亿美元，而GPT5和GPT6的研发费用更将飙升至数十亿乃至数百亿美元。更糟糕的是，全球高质量在线文本的供应预计在2026年将耗尽，即便OpenAI这样的巨头也面临着营收不足以支撑巨额研发成本的困境，不得不依赖资本市场的输血来维持运营。

在这场AI浪潮中，英伟达成为了少数赢家之一。2024年2月，英伟达发布的财报显示，其净利润同比增长超过700%，股价也在一年内翻了9倍。然而，随着越来越多企业放弃大模型研发，英伟达的订单量也开始出现下滑迹象。分析师指出，其最畅销的AI GPU排队时间已从11个月缩短至3个月，订单增长明显放缓。

与此同时，美国股市在裁员潮的推动下高歌猛进，科技巨头的市盈率不断攀升。然而，这场人工智能狂欢正逐渐演变成一场高风险的豪赌。

投资者们期待着大语言模型在参数规模不断扩大的过程中实现性能突变，甚至催生出通用人工智能这样的技术奇迹。然而，并非所有人都对此持乐观态度。有经济学家警告称，当前的人工智能泡沫可能比上世纪90年代的互联网泡沫还要大，而通用人工智能的未来究竟如何，仍是一个未知数。

相比之下，中国的AI产业呈现出另一种景象。当美国企业忙于估值和股价炒作时，中国企业正致力于将智能技术商业化落地。中国高校培养了全球近一半的顶尖AI研究员，且制造业氛围浓厚，使得AI项目多与工业生产相结合。中国企业更倾向于采取现实主义的路线，先将AI技术应用于现有服务和产品的升级，再用赚取的利润支持下一阶段的技术探索。

中国和美国的人工智能产业各具特色，采用不同的发展模式。美国凭借其金融市场的优势，能够调动大量资金进行技术研发，但缺乏实际应用场景的支持；而中国则拥有庞大的用户基数和丰富的商业化数据，以及完备的产业链和丰富的应用场景。两种模式孰优孰劣尚难断言，但无疑都在推动着人工智能技术的不断进步。

然而，无论采用何种模式，人工智能的发展都离不开对现实世界的深入理解和应用。无论是美国的金融驱动还是中国的市场驱动，都需要将技术与实际应用相结合，才能创造出真正有价值的产品和服务。

同时，我们也应该认识到，人工智能的发展是一个长期的过程，需要耐心和持久的投入。在这个过程中，我们应该保持理性和谨慎的态度，避免过度炒作和盲目跟风，而是应该关注技术的实际应用和长远价值。

科睿研究院最早成立于中国香港特别行政区，是国际科学与人文科学院（International Core Academy of Sciences and Humanities）建设的综合性研究机构，致力于搭建学术界与社会间高效沟通的桥梁，将前沿的学术研究成果赋能至新时代社会发展。

作为科睿研究院主办的官方号，我们致力于打造高质量知识交流平台：持续推出与当代社会相关的洞察分析与时事评论，定期发布高质量专栏文章与交流活动，并推送有价值的学术资源和最新资讯。同时，学院积极欢迎读者们的踊跃来稿，参与我们的知识传递之旅中！

往期推荐

AI世界格局：美国独占鳌头，各国如何牵制

未来100年，ai会比我们聪明得多？

牛津大学人工智能简史：世界变化很快——接下来会发生什么？

中东国家如何布局人工智能：战略、转型与野心

欢迎转发&点赞哦～

素材来源官方媒体/网络新闻

继续滑动看下一个

科睿研究院

向上滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

GPT-4o震撼登场：AI已成第一生产力？

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

许纪霖：珠海驾车撞人事件的背后，弦绷得太紧了，要给人们以松弛感 | 二湘空间

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

生成图片，分享到微信朋友圈

GPT-4o震撼登场：AI已成第一生产力？

您可能也对以下帖子感兴趣