AI不应该把所有桌子都掀了
大厂的AI正踏入另一条河流
今天关于大模型的狂热里充满了各种误解。
其中最深入人心的一个,就是“AGI” (Artificial General Intelligence,通用人工智能)马上就要实现,而实现的方式是由一个全知全能的模型,解决你自己现在都不知道还需要去解决的某个无比重要的任务。实现的载体就是一个比人还聪明的对话框。
因此,一切都需要被立刻颠覆、马上重来。
这可以是个令人期待的未来,但并不是马上就要发生的事情。最近的一系列事情都在让人们回过神来。比如作为标杆的GPT-5一再延迟,如扎克伯格首次明确了对ChatGPT类单一全能AI产品的拒绝;比如一份被称为“AI墓地”的名单在网上热传,收录了738个已死去或停止运行的AI项目。
与此同时,几个重要的AI产品,都在体现另一种浪潮的方向:不是推倒重建,而是在已有大量用户的系统里纳入大模型能力,借此大幅提升用户体验;不是无中生有,而是用大模型把已积累的资源真正调用起来,更好服务用户原本就存在的需求。
上个月的苹果WWDC 发布会在第一时间被认为令人失望,很大程度就是因为外界对苹果发布一个全知全能模型的预期太高了,但接下来股价高涨等市场的反馈扭转了人们的判断,也体现了人们对苹果所代表的这条AI路线的重新思考。
苹果没有自己的全能模型,而是建设了一个三层的模型体系:本地模型用于处理简单任务,私有云端模型来确保加密和安全,第三方的模型提供更多的能力。这个体系是为了它复杂的生态系统而建,为了增强它自己已有的能力而设,目的是提高用户在已有需求上的体验。
这也是为什么后来大家明白,OpenAI在里面并不是一个吃掉苹果的角色,哪怕ChatGPT是目前最强的大模型产品,也无法“接住”苹果的用户需求,依然只有苹果能服务他们。
再往前Google在年度大会Google I/O上的思路同样如此,抛去在OpenAI压力下应对性的“期货”产品Astra,它更多的发布都是在把Gemini融入它已有的亿万级用户产品线中,而非对一个单独的全新Gemini app本身的更新。
在最近一些国内国民级产品的更新上,也有相似趋势。在刚结束的世界人工智能大会(WAIC),支付宝重点展示了最新的AI应用——集成在支付宝App里的智能助理,你可以在支付宝首页下拉找到它,过往多次点击才能完成的如订票、点餐、问诊挂号等服务,用说话的方式就能更简单地办好。
与那些充满科幻片色彩、但迟迟无法体验的场景不同,苹果在发布会上举的例子是,“假设我的一个会议被重新安排到下午晚些时候,我想知道这是否会影响到我按时参加我女儿的演出”,在Siri后续更新后这些功能就可以实现。
相似的,支付宝同样关心AI能帮人解决生活问题,在智能助理展示的已实现的功能中,就包括“帮我点一杯星巴克的大杯冰美式”、“帮我交200块钱话费”、“上个月我花了多少钱”、“帮我查明晚七点后从上海飞北京的航班”等服务。
今年4月开始,支付宝就在首页测试这个全新的智能助理,它不是侧重聊天交流的“AI原生应用”,更像是融入支付宝平台生态的AI生活管家,不只是“有脑有嘴能对话”,同样“有手有脚能办事”。
“生活搭子”之外,也有“工作搭子”—— 今年1月,钉钉上线的“AI超级助理”,就成了可调用钉钉几乎所有功能的入口。更早之前,微软同样将Copilot(AI助手)嵌入Word、Excel等旗下所有的办公应用中。
这些都是典型平台或App的自我改造。他们没有抛下原有亿万用户的日常需求,它们不因AI大模型出现而改变,但新技术会使需求的满足变得大不一样。
这种对产品的自我重塑,从用户需求出发,看起来不那么“炫技”,甚至是个下“笨功夫”的活儿,需要既有生态保障,甚至是系统性二次开发。
比如苹果智能需要基于大模型,在安全的环境里对用户的个人信息进行处理,从而进一步“判断用户的日程是否冲突”。支付宝智能助理要完成订票这样的任务,背后是系统性的生态和技术支撑形成闭环,需要在隐私保护基础上对用户个人信息进行个性化的处理。
这些公司往往也都是在隐私和数据保护上最在意的公司,因此你会看到相关功能发布时,都带着“枯燥”的对数据隐私的配套技术保障的介绍,它们当然没有一个斯嘉丽约翰逊口音的AI化身吸引眼球,但对在日常生活里依赖这些服务的人们是至关重要的。
AI要融入用户的生活场景,提供更有人情味的服务。至于大模型本身,则无需喧宾夺主,非要出来把一切桌子都掀了,它完全可以躲在最后面。
“让AI像扫码支付一样简单”是一个很形象的说法。一个二维码简化了许多繁琐的流程,同样让诸多技术上的复杂革新隐藏在了后面。支付宝提出的这句话,说清了许多国民级应用使用大模型的新方向,也是通往“AGI”的另一条路——不止是All in AI,更应该AI in All。
大模型落地的三股浪潮
诸多国民级产品的“不谋而合”背后,是把大模型放在更长的技术发展视野里来看待的产物。
从技术的演进来看,大模型的突破,可以被认为是机器智能漫长发展历程里的一个全新阶段,而非自成一体的某种“创世纪”时刻,抛弃过去、颠覆一切。
某种程度上,我们可以把互联网基础设施的成熟、因此而产生的大量数据及数据处理技术、因数据丰富而进步的算法模型、进一步诞生的推荐算法等,以及移动互联网的最终繁荣,都看作一整个不间断进程里的组成部分,而今天大模型的爆发,则提供了彻底释放过往积淀技术和数据资产的能力。
这也意味着,大模型是个十分重要但依然独木难支的“大脑”,它需要与其他重要技术一起发挥作用,需要一整个系统来支撑,才能帮助这个系统完成升级。
这与人们一开始的尝试已经很不同。在如何把大模型通过应用落地的事上,短短不到两年时间已经有了三股浪潮。
第一波浪潮是AI聊天应用。但人们总是忘记ChatGPT是个“意外”的产物,最初只是用来展示模型已有能力的一个demo,OpenAI自己也没有准备好,没人预料到它引发的一系列变革。
因此在最初的第一个阶段,震惊的人们把一切幻想都寄托在一个神奇的对话框上——既然它可以表现出智能,那么我跟他对话就应该能解决一切问题。于是,各种大模型以一个对话框的形态变成产品,纷纷推出。
第二股浪潮,则是希望通过简单的Prompt等方法,来把这个对话框变成某些垂直场景的专家,进而来重建对应的垂直应用。GPT store等就是这个阶段的产物。
现在各个大厂正理性迈入第三阶段:基于前两个阶段的尝试,它们发现想要单纯依赖一个对话框就重塑自己有些想当然,大模型的落地需要和已有的系统进行融合,利用已有的技术和资源来服务用户,而不是彻底重新来过。
看一看微软的一系列尝试,就能更好地理解这样的趋势。作为OpenAI的最大推手,微软在ChatGPT出现后,也第一时间希望通过一个万能对话框来拯救Bing,成为未来AI时代的入口。
然而ChatGPT加持的Bing,在争夺市场份额上效果一般。之后微软快速拥抱了OpenAI的GPTs理念,在它提供给B端用户的Copilot Pro服务中第一时间集成了GPT store的功能,但就在3个月后,它又决绝地下线了这个功能。
最终,微软真正一直延续下来的AI战略,还是把大模型融入已有的产品和生态中——从Office Copilot,到最新的AI PC里最明星的产品Recall,都是聚焦让大模型在已有的复杂的资源里挖掘潜能,进而真正落地。
这个技术路线现在被很多人定义为“AI Agent”(智能体),一个明显的共识是,AI Agent越来越多地强调大模型能智能调用现有工具、服务和计算资源的能力。
大模型不是一切,但它能真正智能地调用一切。因此,它也需要一切。而这个“一切”在哪里呢?
在那些已融入生活的国民级产品和它已服务的万千复杂场景里。
苹果展示的“大模型增强版Siri”可以带来的服务,正是基于它各种软硬件结合的系统级调用能力。支付宝智能助理在做的,同样是一个系统级工程。
以支付宝智能助理正在测试的“智能点单”功能举例:当用户说出“请给我点一杯星巴克的大杯冰拿铁”,大模型先让AI具有屏幕感知能力,能“看到”小程序页面,再通过仿真执行能力,快速完成所有过去需要用户点击的步骤,用户确认并付款后,就能到附近的线下门店取咖啡了。
支付宝没有选择简单调用数据接口,而是选择这一名为ACT(Transformer for Actions)的智能服务技术,正是希望未来能通过AI,连接背后数百万的小程序,乃至平台原有的数千种数字生活服务。
我们可以想见,未来的智能助理可以用一句话就能帮我们订票、挂号、制定出门行程……AI也能从“通用”的大模型,变成“有用”的小工具,服务更多的普通人。
可以看到,无论是苹果或微软,还是支付宝或钉钉,国内外的平台产品,都不再执迷于以一种上帝视角去创造全新的需求。
它们决定让大模型从幻想的全能对话框里走出来,让AI融入生态,也让AI落入生活——这也许并不前瞻,但人人可见的大模型落地路径,反而能推动这个技术的真正潜能开始逐步兑现。