查看原文
其他

没有App,也没有 App Store,未来的手机会干掉全部应用开发人员吗?

Tina、凌敏 InfoQ 2024-03-29

技术专家 | 陈晓春、王晓涛、袁东
编辑 | Tina、凌敏

未来的 AI 手机应该是什么样儿的?

在上个月的 WMC2024 上,德国电信联合高通、Brain.ai 推出了一款突破性创新的概念 AI 手机 T phone。与传统智能手机不同,这款手机主打一个“无 App”,它清除了屏幕上的密密麻麻的 App 图标,只留有一个按钮用来激活手机里的 AI 助手,让用户通过类似 ChatGPT 的操作界面来交互。

这款手机的长期愿景是消灭 App,并干掉 App Store,德国电信 CEO 蒂姆·霍特格斯(Tim Hoettges)在大会上给出了疯狂的预测:“手机 App 将在未来五到十年内消亡”。

为了实现这个构想,Brain.ai 在过去几年间打通了几千款主流 App。比如用一句话来预定餐厅,那么该手机就需要在地图、订餐软件、日历和消息应用程序之间来回切换,还需要自己为用户构建整个流程。这相当于是一个打通了多个 App 的 AI Agent,而且没有 App 的手机自然也会干掉传统意义上的 App Store。

“无应用” 意味着手机将会有更简洁、高效的使用体验。用户不必再在茫茫应用海中寻找所需功能,只需一句话就能搞定一切。但对于我们开发者来说,无应用手机的出现则意味着巨大的挑战。传统的开发模式将被彻底颠覆,开发者们需要学习新的开发技术,并适应新的开发模式。

“干掉 App Store” 则代表着应用生态入口的改变,成为完全脱离苹果、谷歌掌控的新生态体系。苹果的 App Store 拥有超过 200 万款应用和游戏,去年一年总收入达 893 亿美元。

这款概念手机未必就是 AI 手机最终的模样。距离 ChatGPT 发布已经过去了一年多,它代表了人们对大模型加持的手机一个美好想法。

我们现在使用的智能手机实际上已经稳定发展了十几年。2007 年,乔布斯在第一代 iPhone 发布会上喊出了那句著名的广告语:“苹果将重新发明手机”。从那时开始,苹果手机通过电容屏和多点触控的交互方式,将诺基亚拉下了王座,而 App Store 战略也创造了一个强大的双边市场,铸就了现在的开发者生态。

现在,大模型带来的“智能涌现”现象,超出了我们最初的想象,也让大家对大模型和手机的结合产生了非常高的预期:是不是可以让手机更加的理解人类,真正成为个人生活中的智能伙伴。未来的手机形态和功能会怎样?T Phone 只是其中一种可能性,但它为我们打开了一扇通往未来的窗户。

未来甚至可能不会再有手机,但一定还是有一个超级 App 存在。

Midjourney CEO 说:“在这个时代,硅谷是先相信会有一个超级 App,然后才会相信会有一个生态。”

未来的手机或许更具有颠覆性,最根本的原因还是交互方式再次发生了变化。新的交互方式,从之前松散的 GUI 交互,变为跟一个智能体进行交互。这种交互体验可能是全新的,是一种多媒体形式的 prompts,对于大模型来说,可以是语言,可以是照片,或者一段视频。

如果用户与 AI 的交互变得越来越顺畅,并且 AI 越来越能理解用户,用户可能会越来越依赖 AI 交互,甚至被 AI“圈养”。就像现在我们在抖音或微信视频号,大部分交互就是滑动和点赞,背后的逻辑是 AI 在帮助推送内容。

无论我们创造什么样的东西或生态,它都必须符合用户的交互习惯,让用户离不开它;也必须有商业模式,让开发者或内容创作者能够赚钱。目前在我们手机上,最常用的两个软件是浏览器和 App Store,这两样需求一直都没有变,就算是微信,其实也是集合了浏览器和 App Store 的能力。

现在,一方面,随着人机系统交互方式的变革,交互方式、对象和内容都发生了变化。因此,未来的浏览器肯定不会是现在的样子。另一方面,这些 App 可能不再需要通过 App Store 下载,因为它们只需要提供服务即可。所以,未来手机必将产生变革,而交互方式的改变,也必将形成新的生态。

只是,如果用户习惯了与 AI 的这种交互,那么未来可能对 App 的交互会减少,尤其是长尾内容的 App。而问题在于,要增加 AI 对你的理解,需要大量的私有数据,而这些数据大部分存在于长尾 App 中。现有的 App 可以利用长尾 App 中的数据来完善自身功能,构建更加完善的用户服务体系。同时,新的 App 形态也可能会利用大量数据来构建新的生态系统,提供更加个性化和智能化的服务。这样的话,具有全局访问能力的可能是系统级别的 App 或硬件入口。这可能为硬件厂商提供了一个天然的优势。

回头来看,我们会发现世界上这帮最先进的 AI 企业,也在急于找这样的硬件入口。 例如,OpenAI 投资了 AI Pin 和机器人。

目前,虽然我们每天使用最多的是手机,但未来有一天,手机可能并不是最适合 AI 交互的设备。那么手机及其生态有可能是平稳过渡到下一个生态的桥梁吗?

vivo 技术规划专家袁东认为,当下,包括未来的几年手机仍会是主流的 AI 交互设备,但未来还有两个发展方向值得关注:一是智能眼镜的出现,二是纯机器人形态的产品。智能眼镜可以被看作是一种与人自然交互的产品,类似于 XR 交互,而机器人则是人机协同交互的另一种形态。

小米集团技术专家王晓涛则认为,未来手机的基础功能在很长一段时间仍然会保留,但是新的功能会不断的增加和完善,未来手机的形态也会更加多样化和灵活,但会向更便捷更易用的形态拓展,比如我们可以解放双手的可穿戴方向,手表、手环、眼镜、隐形眼镜、投影手机甚至更遥远的芯片植入等等,随着技术的不断发展和创新,未来手机的形态会不断地进化,方便、易用。

OPPO 技术规划总监陈晓春对手机形态是否变化持有开放又保守的态度,手机是核心随身电子设备,我们需要计算终端:手机的传感器帮助我们感知自己和外部环境。例如,在 AI 时代,我们更多地需要对个人和环境的理解,手机的传感器可以捕捉用户的动作和情绪,以及与手机相连的可穿戴设备可以捕获人体和环境信息,帮助模型更好地理解用户需求。

同时,也会有越来越多轻量级、云化的设备出现,它们适用于特定的场景。例如,Magic Glass 可以在早晨刷牙时提供天气信息。手机可能会成为一个功能更全面的端,而其他设备则更轻量级、云化。

1 大模型塞进手机后,开发范式变了  

今年,手机厂商们都很兴奋,同时也有时代的紧促感:OPPO 喊出“2024 年是 AI 手机元年”,AI 手机将和功能机、智能手机的历史地位并列;魅族宣称“停止传统智能手机新项目”;小米在 AI 摄影上做文章;三星新发布的 Galaxy S24 系列上搭载了能处理语音、文本、图像的端侧 Galaxy AI;谷歌发布了一款搭载自家 AI 模型的手机 Pixel 8 系列;还有消息称,苹果与谷歌积极洽谈,或将 Gemini AI 引入 iPhone。

AI 智能手机一个标志是拥有“生成式内容”,那么大模型的能力必不可少,要么基于云端要么基于端侧的模型来生成。

其中,vivo 去年宣布推出了蓝心大模型,并开源了面向手机打造的端云两用大模型 BlueLM-7B,据官方介绍,BlueLM-7B 是适合中国开发者的中文开源大模型,在语言理解、文本创作等场景下表现都非常优秀。

小米也于去年迭代了 13 亿参数和 60 亿参数大模型,并官宣跑通端侧大模型。今年 2 月,小米发布了一款新手机 14 Ultra,其中首次引入了基于大模型的 AISP 影像处理平台“Xiaomi AISP”,是一个将大模型与手机影像系统结合的平台,由六种模型技术组成,算力可达 60 TOPS。

OPPO 去年也发布了安第斯大模型 (AndesGPT),以“端云协同”为基础架构设计思路,推出了多种不同参数规模的模型规格。今年,OPPO 还发布了首个端侧应用 70 亿参数大语言模型的手机 Find X7,具备一些创新功能,如音频和文本多模态的通话摘要,以及相机上的后期处理功能。

大模型的参数量很大,动辄百亿千亿,训练、推理非常消耗算力,把它们装进手机里运行,比在云端运行难得多。而且模型也并非越大越好,目前几家手机厂商都专注于在公共模型的基础上进行调整和适配,然后将专业领域的模型集成到手机上,并结合 Lora 等技术进行微调,以提高模型的人性化交互能力。

比如 vivo BlueLM-7B 模型,如果使用全精度,需要 28GB 的显存才能运行。让大模型适配手机可以使用端侧模型的量化、剪枝等策略,将模型变小,同时保持高召回率和快速的推理速度。

我们也由此可见,未来不是每个 App 都会有自己的模型,因为这会导致手机显存不足。在手机系统中共用一个模型才是一个合理的解决方案。这样的模型将为开发者提供基础能力,类似于之前提供的 SDK。

所以,现在的 AI 手机都倾向于提供一个具备公共能力的 Model。开发者在这个基础上发挥自己的开发能力。例如,相机功能可能不再依赖于传统的 SDK,而是利用公共模型来实现。未来开发者将基于公共模型来开发 App,可能需要具备一定的模型调优能力,或者通过 Lora 等技术定制自己的模型。

对于开发者来说,变化会很大

为了发挥大模型的能力,目前 OPPO 正在对操作系统(OS)进行重构,以整合 AI 能力,打造更智能的 AIOS,将 AI 智能体将内嵌在 OS 中,提供手机设置、服务和调度等功能。这涉及到 OS 控件的优化以及硬件与软件的协同工作,特别是硬件在执行大模型运算时的效率、效果和功耗控制。

截图来源:OPPO 联合 IDC 发布的《AI 手机白皮书》

vivo 去年也发布了一个全新的自研操作系统,名为蓝河操作系统。vivo 称他们看到了人工智能通用化(AGI)时代的机遇,并相信会有真正适合这个时代的操作系统出现。

蓝河操作系统全面革新了系统、应用、到工具链:通过 vivo 计算加速平台 VCAP 能力实现对推理决策的支持,融合了视觉、语音等算法,基于蓝心大模型能力实现 AI 服务引擎和多模输入子系统,让用户能够用多模态输入输出来模拟人与人的交互方式。

vivo 对图形渲染整个流程及关键模块进行了全新的设计,推出了虚拟显卡解决方案,创新实现了超级渲染树、并行渲染、异构渲染,解决了丢帧、掉帧、帧同步的问题,保障了系统显示始终高效且流畅。并选择了用 Rust 语言,打造高效安全的系统底层,对于前端开发,支持用 JS 语言来构建高效低成本的应用。另外,蓝河操作系统兼容不同硬件体系结构,通过内核抽象层实现了对不同内核的抽象设计,兼容多种 Posix 标准的内核, 支持 Linux 内核,也兼容 RTOS 内核。目前 vivo Watch 3 上用的就是蓝河系统。

应用层则兼容了“快应用”生态。快应用是 2018 年九大手机厂商基于硬件平台共同推出的新型应用生态。用户无需下载安装,即点即用。因为在 AI 时代,交互对象有可能是像 Agent 这样的超级 App。这些 Agent 在进行推理和规划后,可以将任务原子化,而“快应用”不需要安装,具有系统级能力,并且可以以插件形式存在于系统中,可以满足用户的需求。

对于开发者来说,未来的开发范式将会发生重大变化。

传统的开发范式是通过 Studio 和 API 来开发 App,以 GUI 形式呈现。未来的开发范式将转向 GenAI 开发范式,这大约包括四个步骤:首先确定要做的事情;其次,找到基础模型(foundation model);再次,在基础模型上进行调整,可以通过 RAG(Retrieval Augmented Generation )、Fine-tuning 等方式;最后对模型进行验证,评估其召回率和性能,最后部署模型并进行开发交流。

在这个过程中,Prompting 尤为重要,因为它是与模型交互的主要方式。同时,开发者需要具备评估模型的能力,确保模型能够满足要求。随着模型能力的提升,未来可能不再需要 RAG 和 Fine-tuning。

除了使用 GenAI 形式开发,开发者还需要采用 Agent 的思路来开发应用。例如,斯坦福大学模拟小镇的研究,以及 OpenAI 的 GPTs 和流行的 Crew AI 框架,都展示了编码方向的质变。开发者可以通过定义角色和编写 Prompt 来实现应用的协同运作。

从手机厂商的生态和未来大模型生态的角度来看,手机本身的基于记忆的规划以及智能体的属性,可能是决定未来用户生态入口的关键。陈晓春认为,到那时候,手机可能仍然是一个交互的入口,通过模型技术理解周围事物,最终实现万物互联的愿景。

2 大模型带来的变化:摄影是落地 C 位  

大模型和手机的结合,可以实现 AI 通话摘要、AI 消除等功能,其产生的根本性变化可以从大模型与手机影像的结合上窥见一斑。

我们首先需要明确一点,那就是 AI+ 影像绝不是什么新鲜事物,甚至很多人都已经习惯了 AI 与影像的结合。特别是现在,包括华为、三星等品牌手机,都能实现用手机拍出清晰月亮的照片。

三星客户体验主管更是直言:“现在根本不存在真实的图片。一旦你用传感器来捕捉某些东西,你就会重现你所看到的。用户想要一张尽可能准确和完整的照片,为此,我们使用了大量的人工智能过滤、修改和优化,同时努力确保符合用户的意愿。”

之前的 AI 作用集中于“美化”,而现在的大模型则可以突破更多限制。手机摄影也就成了大模型的落地方式之一:大模型可以用来处理传统方法和第一代模型无法达到的场景或焦段。比如在 30 倍以上的焦段,常规传感器和光学系统接受的信号非常微弱,导致拍摄的图片缺乏细节信息。在这种情况下,传统方法和第一代 AI 技术几乎无效。在这种情况下,引入大模型的方案,利用手机强大的计算能力,采用生成式的方式,就可以生成符合客观条件和实际情况的高质量图像。这个功能已经在小米手机的 Xiaomi AISP 中实现了。

OPPO 在影像上也一直是坚定的计算摄影派。他们认为计算摄影是一个正确的方向,未来手机的交互方式发生改变的话,那语音交互可能并不是最直观的方式,有时候 10 句话可能还不如一幅图能直接表达意思。在这种情况下,屏幕依然是一个非常重要的交互界面,影像模组也是如此。另外,因为很多东西需要通过图像或视频来记录我们的真实记忆和美好生活,手机作为随身设备,其影像功能是一个非常好的耦合点。


在计算摄影这一领域,OPPO 采取了相当激进的策略,坚信通过更多的计算来消除或减少计算痕迹,以达到更自然的效果。在手机客观物理尺寸限制下,尤其是在高倍率放大时,我们无法通过物理或光学方式达到单反级别的高品质,但大模型兴起了。OPPO 在几个方向上进行了尝试,比如,通过大模型实现 AI 超清合影或高倍率下的人脸检测,设定了特定场景,使生成过程更加可控,这样就能实现端侧模型中完成人脸识别。还能利用 AIGC 技术来处理细节,比如眉毛和发丝等细节的表现力。这个功能已经出现在今年一月份发布的 X7 手机上了。

总体来看,大模型与摄影的结合,有了更充沛的创意发挥空间,有源源不断的可能性。想要抓住这个机会,客观上给手机厂商带来了新一轮的技术竞赛。

然而这个结合实际上面临许多挑战,因为大模型在端侧的应用还不是非常成熟。尽管语言大模型在云端表现更好,但要在手机上,尤其是拍照系统中实时运行大模型,这是一个相当高的要求

目前开放的视觉大模型主要建立在开放的图像和数据基础之上。手机影像处理的图像与开放数据不一致,尤其是不同手机厂商的主打风格。手机影像处理注重噪声、颜色、亮度、动态范围等方面,而这些可能不是开放任务的主要关注点。因此,需要开发一个专门针对手机影像处理的大模型,以满足其特定的需求和关注点。

将这个模型适配到端侧,实时运行,这对硬件支持提出了更高要求。除了将大模型小型化,还需要与系统紧密结合,比如小米研了一套高效的异构并行架构,可以充分调度底层硬件的计算资源,并进行并行加速,结合小米澎湃 OS,来提供更高效的管线管理和数据调度。

另外,如今的文生图的能力,在光影、构图、材质、色彩等细节方面已经做得真假难辨,这类的大模型技术对计算摄影的影响将是巨大的。但换个角度来说,我们用影像系统很多是用来记录真实生活的,所以说在这样的一个应用途径里,我们要把大模型当成了一个黑盒子,尽量控制或者是压制它的生成能力。通过各种各样的方式、各种各样的条件,让它把它的生成能力弱化,弱化到非常低。而在一些传统模型效果不佳的场景中,如高倍率、超高倍率的情况下,可以选择性地、在控制范围内释放大模型的生成能力。

AI 将带来新一轮的换机潮

关于 AI 手机的看法,行业内部存在多种定义。IDC 对 AI 手机给出了严格的定义:端测算力需达到 30TOPS 以上,最低 16GB RAM ,且必须能够在端侧运行大模型,包括诸如 diffusion 等文生成图模型。这样的定义使得大多数高端手机都符合 AI 手机的标准。典型的芯片如苹果的最新 A17 芯片、骁龙 888 三代等都属于此类。

无论手机能容纳多大的模型,毫无疑问的是最强的模型一定会在云端。在手机上,用户也需要模型具有实时计算能力,这是端侧模型目前最强或唯一的优势。例如,在支付或面对虚假信息时,端侧模型的实时反应对用户来说至关重要。但“即使手机能够容纳大模型,我们也需要考虑老用户,不能忽视他们”,vivo 技术规划专家袁东表示。

至于云端的大模型,用户最关心的是生成质量。如果质量不佳,即使需求不是实时的,用户也不会满意。这可能会催生新的商业模式,因为云端模型的推理成本很高。例如,一些 AI 创业公司训练 + 生成一张图片的成本可能就要一元。需要行之有效的商业模式来提高 PMF。

只是,将大模型塞入手机,目前的手机硬件也不是不存在短板,小米相机部 AI 算法团队负责人王晓涛认为,目前主要受限于计算能力和存储空间两个方面。

对于计算能力,大模型是近两年兴起的,它们有一些独特的特性。我们现在的端侧硬件在生产周期上已经定型,是几年前的设计。尽管各大平台厂商都在努力适应或适配大模型,但这些努力主要集中在软件层面。

过去一年,我们在端侧运行大模型的速度虽然提升很快,但这些提升主要来自于软件优化和后期调整。从硬件本身来看,尤其是端侧芯片,对大模型的支持并不理想,这是一个棘手的问题。目前的策略是让模型适配硬件,即在现有硬件条件下尽可能优化模型。

另一个问题是存储。移动设备的存储空间非常有限,尤其是系统占用和用户可用空间都有明确的标准。大模型的一个显著特点是它们的大小。将一个大模型搬到手机上可能还可以接受,但如果未来需要同时搬多个大模型,对存储的压力将非常大。目前,业界正在讨论是否需要在硬件中加入专门用于大模型存取和计算的独立单元,以避免占用系统资源和用户空间。

这些问题确实影响了大模型与移动端硬件的结合。业界正在讨论解决方案,但由于硬件的生产周期限制,我们可能需要等待下一代硬件才能看到实质性的变化

硬件研发周期实际上取决于整个算力生态的周期,陈晓春补充说。算力上游的供应商,包括内存厂家、主芯片厂家(SoC 厂家),都需要参与定义产品,这需要一定的时间。另外,在大模型兴起之前,数据在存储和计算之间的传输并不被视为一个大问题。但现在,随着模型变得更大,数据在存算之间传输的带宽需求增加,带宽也成为了一个瓶颈。

还有一个是数值计算问题,这影响到了图像处理和推理速度,尤其是用户对出图速度的容忍度。如果将推理放在云端,加上传输延迟,可能会比在端侧推理更快,这可能会影响用户的使用选择。

随着越来越多的模型需要推向端侧,无论是语言模型还是视觉模型,端侧的这两个瓶颈目前还难以短期内解决。不过,业界正在明确方向,比如尝试减小模型大小,进行量化、剪枝等优化,以提高模型在特定领域的推理速度。同时,也在探索如何提高存算之间的带宽,以及如何在图推理方面进行并行计算。总的来说,虽然大家都在努力优化,但根本问题的解决需要一定的周期

虽然存在硬件天花板,但相信大多数人如今已经不会怀疑大模型在手机里的能力。“所有产品都值得用 AI 重做一遍”这句话同样适用于手机行业。IDC 预测,2024 年起,新一代 AI 手机将大幅增长,带动新一轮换机潮。手机厂商在 AI 时代拥有一个天然优势,因为手机是一个最贴近用户的第一入口,随着生成式视频能力越来越强大,换机需求将越来越强烈,也许未来手机厂商基础入口地位和优势将更为明显。AI 手机的发展,也必将改变生态,谁能抓住机遇,在 AI 时代占据领先地位,将获得最大一波红利。

本文专家观点来自《极客有约》直播,不代表企业观点:

今日好文推荐

微软开抢年收入上亿美元的 Redis 饭碗?开源性能遥遥领先的 Garnet:无需修改,Redis 客户端可直接接入

重磅!英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈

刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型

我在技术面试中用 ChatGPT 作弊,没人知道

活动推荐

InfoQ 武汉粉丝福利,先到先得! 


3月29日13:00,Azure OpenAI Day 即将走进武汉!


🔥来自微软的多位技术专家到场


 🔥分享微软最新的 AI 技术和思路


🔥讲述行业领先的 AI 实践经验


🔥涉及 Sora 、GPT-4 Vision、Azure OpenAI最新模型等时下热点! 

扫码或点击【阅读原文】,立即报名~


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存