查看原文
其他

Spotify、Nothing和Arc创始人聊AI产品及交互:Agent会取代所有app吗?

Founder Park Founder Park
2024-10-21

AI 时代的产品及交互应该是怎么样,从 CUI(Conversational User Interface)到 Agent,众说纷纭。

去年年底,比尔·盖茨在个人网站上发表了一篇文章,盛赞 AI Agent(智能体),在他看来,AI Agent 不仅会改变每个人与计算机的交互方式,还将颠覆软件行业。

关于 AI 产品的 UI、以及 Agent 交互的讨论有很多,这次有点不太一样。参与讨论的三位嘉宾,分别是:
  • 来自硬件公司 Nothing 的 Carl Pei,他曾是一加的创始人之一,一加、Nothing 的手机在硬件设计和软件交互上被不少人称赞。
  • 试图重新定义浏览器的 Arc 浏览器创始人 Josh Miller,曾在奥巴马政府担任过产品总监。Arc 浏览器的搜索体验让人印象深刻。
  • Spotify 的联合总裁、CPO、CTO Gustav Söderström,Spotify 最近更新了他们的 AI DJ 功能,在 AI 落地这件事上,Spotify 走得不快,但步伐很稳。

三位嘉宾不仅懂软件设计,也懂硬件设计,聊的内容也很有意思:
  • Agent 足够强大后,未来还会有第三方 app 的存在吗?
  • 未来的交互是不是会完全消灭图形界面?
  • 小公司如何在巨头的缝隙中生存?
  • 今天的产品如何更好地落地 AI 功能?

信息量很大,Founder Park 对视频进行了编译处理。

点击关注,每天更新深度 AI 行业洞察


01 

智能体不会消灭第三方 app

Gustav:Josh,你推出了 Arc 浏览器,卖点是「为你搜索」,可不可以认为 Arc 浏览器是一种智能体(Agent)?

Josh:有时候我对这些技术名词持怀疑态度。像「智能体」这样的词,我不太确定自己是否完全理解它们的含义。我觉得现在 AI 的发展有三件事很重要。

首先,计算机现在第一次能够「阅读」了,它们可以开始理解我们屏幕上的内容。第二点是,计算机开始模仿我们的行为,它们通过过去几十年互联网的使用数据,模拟我们的行为。第三点,这跟智能体的概念有关,如果计算机能够理解我们说的话和屏幕上的内容,然后模仿我们的反应,我觉得软件应该超越「应用程序」的界限。我不应该为了使用不同的工具而打开各种应用程序。

我应该能直接告诉我的电脑我想做什么,它应该能理解并为我完成,至少在某种程度上,不需要我干预。

Gustav:现在智能体的核心是把智能体看作是一个人类助手。我们常见的用例,比如说预订行程,通常涉及到多个服务消费者的公司,比如航空公司、酒店公司、活动公司等,这些助手可以代替你完成这些事情。

你怎么看这种情况?似乎很多面向消费者的公司将会变成面向智能体的公司,他们可能永远不会直接面对消费者,而是在后台运作。很多公司通过广告赚钱,而智能体是否能通过广告赚钱呢?也许可以说服智能体为其所有者购买产品。你认为这些会有什么影响?公司是否需要转变商业模式?哪些类型的公司更容易被取代?

Josh:我对「智能体」这个概念其实也一直半信半疑。

比如我计划下周去纽约时和 Grace 一起吃饭。我现在可以告诉计算机我们想在纽约和 Grace 吃午饭,它应该能为我们安排和获取所需的一切。但这并不意味着计算机真的会为我使用那些应用程序,可能只是让应用程序变得更加可组合。它可能会从我的日历和电子邮件中提取信息,然后给 Grace 发邮件。但它会为我生成动态界面并让我完成这些操作。

我难以想象一个世界,那里只有一个通用的操作系统,你永远不会看到第三方应用程序或工具。虽然我不是硬件专家,但我好奇你对这种情况的看法,你觉得这种情况有可能发生吗?

Gustav:如果现在面向消费者的公司转向面向企业的方向,智能体需要一个钱包来代替你购物才可能真正起步,我觉得这很困难。也许那些专注于生产力和节省时间的公司,才是首先会被替代的。

Josh:从个人角度来看,我不愿意生活在一个由单一公司决定所有 UI 的世界。即使这可能影响到我自己公司的利益,但我还是希望保持第三方的存在。我们每天使用的软件中的不同 UI、不同的美学和观点,还是很重要的。


02 

交互的变化先从软件开始

Gustav:Carl,你对应用的形式因素有什么看法?未来的「智能体世界」会需要一种新的物理形态吗?比如依附在耳机、眼镜上的智能体,还是会主要依赖我们现有的手机、手表和耳机?

Carl:三年半前我们开始创业时,科技行业非常乏味,这也是我们创业的原因之一。但现在科技行业非常有趣,发生了很多变化,比如 GPT-4o 的发布,能力提升了,硬件形态也变得丰富了。虽然行业还在发展中,但我相信用户习惯很难改变。如果你引入一个全新的形态,你需要考虑如何教育用户。对于我们来说,我们并不认为应该由初创公司来承担教育用户的负担。我们应该专注于已经被消费者喜爱的现有产品,比如智能手机,每年销售十亿部。无线耳机,每年销售三亿部。

如果你仔细想想 UI,其实它们已经很长时间没有真正改变过了。虽然 iPhone 让一切变得更漂亮了,但那些基本要素,比如主屏幕、应用商店、应用程序之间的切换,并没有真正改变。所以,我觉得我们应该在软件和 UI 方面下功夫。

Gustav:所以「智能体世界」主要会通过现有的操作系统和硬件实现?还是会出现新的硬件形式,比如你佩戴的徽章,而不是你的手机?

Josh:我不确定,但我觉得还是回到了我之前提到的两点。我们的计算机现在可以「看到」和理解我们做的事,这更像是软件层面的变化,而不是硬件。我完全相信,计算机能够理解和利用多模态模型。如果你把相机放进 AirPods 里,它能带来多大变化?所以我更期待软件上的变化。我们目前所使用的应用模型确实有些笨拙。

我的直觉是,未来可能会从这些软件变化开始。


03 

能打败巨头的,是商业模式,

而不是技术

Gustav:如果我们假设这种变化为了减少摩擦,会基于 iOS 和 Android 的操作系统集成,那么这些公司似乎在这个过程中占据了有利位置。如果你是操作系统的拥有者,你可以直接看到和理解用户的数据,甚至可以为用户运行应用程序。在这种情况下,你认为其他公司的机会是什么?如何颠覆现状?你认为 OpenAI 会怎么做?有没有可能通过商业模式打破现状?

Carl:我们都希望未来的用户交互入口不会被一两家公司主导。我也有同感。我觉得在现在的移动时代,这种情况已经发生了。就像你说的,很多公司在进入下一个 AI 时代时也占了很大优势。那我们怎么才能避免未来的交互界面也是由几家公司来定义的呢?

Josh:我也不太清楚。我们公司是在浏览器层面上做事的,所以我个人更倾向于相信开放的生态系统和软件层面。我们的浏览器和其他浏览器是互通的,网页在其他浏览器上也能正常运行。

要怎么打破这些大公司呢?要怎么改变资本主义的运作,让价值不再集中在少数人手中?这个我真不知道。

但我能做的就是,用行动支持我相信的理想。我觉得互联网应该是自由的,尤其在 LLMs 和 AI 的时代,浏览器层面会更重要,也更有价值。这也给了我们一些机会。不过,这种垄断确实是个很大的问题。

Gustav:在我看来,技术的出现有时候会带来很多混乱,甚至破坏一些行业。比如,盗版就是个很好的例子。文件共享出现后,确实让很多行业受到冲击,也摧毁了很多价值。但我觉得,真正能对传统发起挑战的是商业模式,而不是技术本身。技术有时候会让新的商业模式崛起,和传统的模式形成对抗。就像流媒体取代了下载。传统企业为了避免损失,拖了很多年才接受这个变化。

我们也聊到,像谷歌依赖广告盈利,当你点一下确认键,实际是会产生费用的。所以你看到谷歌通过广告去消化这些成本,这也是合理的,他们的广告可能是你见过的最个性化的广告。

另一方面,OpenAI 选择直接向用户收费,他们说,「想要更好的 AI 服务?每月 50 美元,甚至 100 美元。」那你觉得有没有可能通过改变商业模式来打破现状呢?

Josh:我觉得创业公司是少数几个出路之一。该怎么防止价值都流向那些巨头?到底要怎么和苹果、谷歌、微软这种巨头竞争?

我们 Arc 的起点就是:为什么浏览器一直没变?为什么它看起来还是跟 Netscape 浏览器差不多?

当你深入了解,会发现背后是因为利益。谷歌通过搜索广告赚钱,所以 Chrome,或者说你的浏览器,最后其实就成了一个巨大的搜索框,目的就是让你去搜索,点广告。所以如果你说,我们的目标不是通过搜索广告赚钱,而是每天尽可能帮你节省时间,那对于那些大公司来说就很难和你竞争了。

苹果我不是特别了解,但他们靠硬件和应用赚钱。我很好奇,现在这个节点上,随着 AI 和网络的发展,应用会不会变得不那么重要,甚至会消失。可能未来你不需要频繁升级设备,因为很多计算和价值其实是在服务器上完成的,转移到网络和浏览器层面。

所以我觉得,除了创新和创意,商业模式可能是唯一能和他们竞争的地方。毕竟他们有钱、有技术、有资源。你得找到那些突破口。

Carl:我也一直在想商业模式的问题。我觉得这确实是有效的。像那些大公司,他们从自己的应用商店里赚了很多钱,所以要改变商业模式,肯定得三思而后行。公司文化可能也有点关系。

最近我和团队一起看了当年麦金塔的发布会,乔布斯揭开电脑时,它还会用个性化的方式跟观众讲话。我就在想,苹果上次展现个性是什么时候?他们当时确实有一种非常独特的世界观,因为那时候他们文化中有很强的创造力,不得不创新。他们没法做所有事,只能找到一个用户群,去真正服务他们。但现在他们变得这么大,必须做所有事,满足所有人。当你变得非常庞大时,文化和策略都会改变,可能反而没法快速反应,也没法离用户足够近,去抓住下一个大趋势。

Gustav:也许小公司还有个机会,就是更有自己的个性。大公司因为规模太大,必须要迎合大多数,平均化处理。你会发现,OpenAI 发布的东西挺有个性的,但第二天谷歌发布类似功能时,感觉就没那么出彩了。所以这是一个角度。如果你是个小公司,可能不需要妥协太多。

Josh:我觉得小公司确实有机会,尤其是在 UI 上创新。大公司因为服务了几亿甚至几十亿用户,做事情很不一样。像 Chrome 或苹果,他们团队里确实都是很有创意的人,但他们有太大的责任,要考虑 iOS 对每个 iPhone 用户是不是都足够直观,Chrome 在不同区域、网速、设备类型下表现如何。责任很重。

而我们作为小公司,可以换种思路。比如,五年后会是什么样子?我们现在不需要几亿人来用,甚至不用一亿人,可能十万人就够了。如果有十万台产品卖出去,那就是很大的成就。但对谷歌或苹果来说,推出一个新产品,十万人用,那就算是失败了。所以我们在做界面这块时,我一直在推动团队,全力以赴去做。如果我们慢慢来,那肯定会失败。

我们唯一的机会就是提前为一部分人实现未来的样子,然后慢慢让更多人觉得这个东西越来越直观。这些小团队有一种特别的渴望,真的想要成功。你可能会遇到一个不知名的小团队,但他们就是充满干劲,你能感受到得。而像 OpenAI 的人,他们也是坚信不疑的。这种有动力的人,不管是大公司还是小团队,都有优点和缺点。但说到底,成功与否就是看这些人有多想赢。


04 

AI 实在太新了,

要不断试错

Josh:Spotify 的智能随机播放功能也挺有意思的,最近我在听喜欢的歌单时,发现了很多新歌,甚至有些是我之前从没听过的。所以我觉得,在所有大公司里,Spotify 算是最早把 AI 技术融入产品的公司之一,虽然你们做得很低调,但实际上这些功能确实给用户带来了很多价值。作为行业领头羊,你们已经很有创新精神,走在最前面了,发展的速度也很快。你是怎么在冒险和创新之间找到平衡的?像智能混音这种功能,你怎么看 Spotify 的 AI 战略?

Gustav:这个问题其实跟下一个问题有关,就是关于怎么思考产品和用户界面的开发。之前我们也稍微聊过,有一种是迭代式的,还有一种是革命性的

对于革命性的创新,你的目标会不会设得太高了,甚至超出可达的预期?比如现在有些产品中,人工智能的作用有点被过度炒作了,实际效果没有达到大家的期待。而迭代式的进步中你会选择一步步来,先提供明确的价值,虽然不一定很革命,但这些小优化实用吗?意义足够大吗?我们在这方面其实是两条路都在走。我们会利用现有的分发渠道,看看能怎么优化。

比如,你有个最爱的歌单,但听久了可能就腻了,不太用了。我们能解决这个问题吗?于是就有了像智能混音这样的功能,帮你加入一些相似风格的歌曲。这个功能的目的不是为了炫 AI,而是解决你实际的烦恼——你对歌单听腻了。我们在想,怎么把这些 AI 功能自然地融入你已经在用的场景里呢?你已经花时间在这些地方了,所以我们就在这些现有的使用场景中加入 AI。

同时,我们也在尝试开发一些全新的东西,带用户进入新的场景。但这类开发确实更难,比如我们一年前推出的 AI DJ,这完全是个新功能。我们在问用户,"你愿意进来体验点新东西吗?" 我们告诉他们,「停下来,试试这个新体验吧。」这种开发模式挑战更大,花的时间也更长,风险更高,但给了我们更多的自由去做创新,比如语音翻译功能,把播客翻译成西班牙语等其他语言。

就像你说的,我们不想承担不必要的产品风险。所以在某些方面,我们的思路很明确:你已经有了很棒的创作者,他的内容也很受欢迎,只是还没有吸引到西班牙语用户。我们可以通过翻译降低风险,尝试打开一个新的市场。所以我们在做这些事情时,更多关注的是我们已经拥有的独特分发渠道,和用户花费时间的地方。

Josh:是的,我喜欢这个功能的原因就在于,它很自然地出现在我使用的场景中。它就在我的歌单里,我已经在用随机播放,然后它就出现了。你不需要学习任何新东西。

Gustav:基于这个思路,你觉得还有哪些其他方式可以考虑 AI 产品的开发?这有点不同,因为你过去可能习惯于开发确定性的产品,对吧?

我记得你之前提到过,过去的模式是你为全世界开发一个应用程序,比如这个项目宣传花费了一百万美元,你获得了一个用户,那么这个用户就「值」一百万美元。如果你获得了两个用户,那每个用户的成本就降到了五十万美元。关键就是摊销这笔固定成本的费用。

而现在在 AI 领域,你面临两个新问题。首先,每个用户都会产生边际成本,不再是简单的固定成本摊销了。其次,AI 产品是统计性的,它对每个用户的表现都不完全一样,有时甚至每次的表现都不一样。从统计上看,它可能是不错的,但偶尔也会有偏差。

在你开发 Arc 浏览器和 Arc 搜索时,你是如何思考这些问题的?你如何在这样一个无法保证对每个用户表现一致的世界中进行用户测试?

Josh:是的,说实话,我对此完全没有头绪。我自己在过程中犯了不少错。

首先,我之前还认为这像是加密货币 2.0,觉得都是炒作,应该远离它,但我错了。然后我们开始做原型设计。基本上,我的直觉在这方面一直都是错的。我并不是在故作谦虚,我们也确实做对了一些事情。我们公司的一个价值观就是假设自己不知道。所以公司的基本理念就是,我不是史蒂夫·乔布斯

我觉得错误没什么,我们只要我们怀揣正确的态度,和真正强烈的冲动和创造力。如果我们尝试足够多次,我们很可能会最终做对。这种心态非常适合应对当下这个瞬息万变的局面。

我们的方法一直是:一版原型设计、一版原型、又一版,一次又一次地试。这也是为什么今天我们最大的成功是我们的 Arc Search 移动app。它有一个「为你搜索」的功能,你在谷歌上搜索并点击这个功能,它会帮你阅读六个网页,总结内容,给你一个答案。我第一次尝试这个功能时,效果很差。但后来团队中有人用一种非常独特的方法来训练模型,微调了 GPT-3.5,结合 GPT-4,并稍微调整了用户界面,改进了引用提取和验证等功能,结果发生了翻天覆地的变化。

虽然这并不完全科学,但我们的答案就是一直站在前沿,快速尝试,保持创造力。因为这个领域实在太新了,它的变化速度极快——24 小时,甚至 48 小时就可能改变。有人在后台问我,「我们对 GPT-4o 怎么看?」哦,我真不知道。团队正在处理,也许我们明天就会改变「为你搜索」的工作方式。我认为,只要你愿意承认你必须不断地尝试,你总就有机会抓住它的变化


05 

UI 的进化会是渐进式的

Gustav:AI 时代的 UI 是从文本框开始的,这是你第一次可以真正向计算机问任何问题。但同时,它也让人感觉有点像回到了命令行时代,而学会熟练使用命令行的人并不多。图形用户界面曾经是一个很棒的创新。你觉得未来的用户界面会是什么样子?它会如何发展?你觉得它还是应用程序的形式,还是会变成其他东西?

Carl:我认为这完全取决于我们谈论的时间跨度。如果是在长远的未来,它可能会变成一个具象化的助手,比如机器人,或者像 Neuralink 这样的技术,直接把助手植入我们体内。但在不久的将来,我不认为应用程序会消失。智能手机、应用程序真的太受欢迎了。人们喜欢用 Instagram、TikTok 这些应用来打发时间,你不能就这么简单地把这些东西从他们身边拿走。

所以这个过程会是渐进的。我觉得大语言模型(LLM)一开始只能处理文本,但人类是高度视觉化的生物。我们通过视觉获取的信息要多得多。所以我认为,在我们进入机器人和大脑植入体阶段之前,应该会有一个过渡的混合阶段。它应该足够了解你,知道你正在使用的设备,根据对你的了解,为你生成最佳的用户界面,基于上下文和设备进行调整。我认为这将是过渡的中间步骤。

Josh:这是个很好的观点。我觉得关于这项技术的一个被忽视的方面就是它能够理解正在发生的事情,这可能并不意味着界面的改变。Spotify 的 SmartShuffle 就是一个很好的例子。它其实是同样的产品,只是给我播放了我喜欢的歌曲。

我认为在未来一段时间内,界面的外观可能不会发生太大的变化,真正变化的会是它对你是谁以及你在做什么的理解更为精确。这意味着它能够更主动地提供你所需要的东西。我确实认为,界面迟早会发生变化,而且可能会比我们预期的更快。

现在很多人专注于输入的模态,比如是文本输入吗?其实人类传达信息的方式并不多样化。未来可能是一种混合模式,甚至是多模态的。而输出则会变得非常有趣,这也是我的直觉所在。未来的世界可能会比我们现在的更加动态,像 Spotify 这样的大型应用程序在内容提供方式上会变得更加灵活、组合化。

Gustav:我想深入探讨一下你提到的观点。你提到的「它为你生成了正确的界面」这一点特别重要。经济学家 R.J Agarwal 有一个关于人工智能的有趣框架。他认为,从经济学的角度看,AI 的一个重要作用是将编写代码的成本降至接近零。

过去,编写代码需要花费大量金钱和时间。你需要雇佣程序员,只有那些可以多次使用的功能才值得编写代码。而现在,AI 智能体可以直接为你生成程序,不仅是算法,还包括用户界面。即使你只用一次,它也能为你呈现出完美的解决方案,而且整个过程可能只需要几秒钟。如果你把编程成本降低到接近零的前提下推论下去,AI 最终可能会为你生成定制化的代码。

这可能会让我们进入一个更加智能化的世界,AI 能够理解许多事情,并为你生成正确的解决方案。

也许应用程序只是一个过渡阶段,而最终我们会回到更加动态化、实时生成的内容界面上。你提到网络,它确实更加灵活、动态。你看到的答案会根据内容不同而呈现不同的形式——有时是列表,有时是其他形式。所以,也许应用程序只是用户界面过时的中间阶段,我们正在走向一个更加动态生成的未来。

Josh:但是其实还有另一种思考,比如,有人可能会说,「我的马桶漏水了,我该怎么修?」他们不想要在检索的时候看到各种花哨新奇的界面和 18 种不同的自定义 UI 选项。他们只是希望快点解决这个问题。这其实又是另一种极端了,我们经常会遇到两个极端的问题。

Gustav:是的。一个极端是像没有应用程序一样,用户界面完全由操作系统或其他系统实时生成完全的自定义和客制化。另一方面,如果每次启动 Spotify 时我们都移动了所有按钮,用户的流失率将是 100%。人们会非常不满,因为用户习惯非常重要。

Carl:我认为这是时间的问题。随着时间的推移,我相信界面将变得更加流动和生成性。但一开始,我们还是需要基于目前用户所熟悉的东西。UI 的进化将是一个逐步的过程。


06 

谁能定义 AI 的用户界面,

就会是新巨头

Josh: 关于界面设计,我觉得 UI 未来的价值会集中在操作系统这个层面。要充分利用这些新工具和功能,你得能观察人们每天在数字生活中的行为,理解他们在做什么,然后基于这种理解来采取行动。这也意味着你得能访问各种应用。

回顾过去计算的发展史,从商用电脑到个人电脑,再到移动计算,最后到基于网络或云计算,胜出的公司都是那些定义了用户界面的公司。微软在个人和桌面计算领域成功,苹果在移动计算上做得最好,谷歌则主导了基于网络的计算。未来会是什么样,现在还说不好。但如果我们希望有新公司崭露头角,而不是让现有巨头继续统治,那我觉得界面层面还是很关键的,历史上确实是这样的。

Gustav: 大多数人日常做的都是一些普通的事,而不是那些特别酷炫的场景。虽然我们不知道未来会是什么样子,但可以用经济的角度来想象一下:如果某种东西的成本大幅下降,人们就会大量使用它。

比如说,如果咖啡变便宜了,大家就会喝更多的咖啡,可能取代茶,甚至变得流行起来。同样的道理,代码编写和认知任务的成本如果大幅降低,新的任务和用例会大量涌现。就像当初电子表格刚出来的时候,虽然一些会计师的工作没了,但反而催生了更多的分析和预测,那些曾经昂贵、不可行的事现在几乎变得免费。所以,未来我们会做更多事情。

Josh: 我最近有个大胆的想法。我刚刚结束陪产假,我们家迎来了第二个孩子。我休了六周假,差不多有五周没碰过我的笔记本电脑。我非常享受这种状态,一点也没觉得少了电脑有什么不对劲。

作为一个做浏览器的人,这种体验其实还蛮有意思的。

这背后有很多思考,虽然这是我们家庭的特殊时刻,但我也在想,我们真的希望彻底摆脱网络浏览器吗?我们的成功难道就是让人们在网络上花更多时间吗?还是让他们逐渐减少对电脑和浏览器的依赖?如果我不用摸电脑就能完成生活中的所有事,我会非常开心。

Carl:这并不是说技术和电子产品有多邪恶,需要完全消失。但如果我要和 Grace 在纽约订个午餐,我完全可以用手机操作。这种情况下,我真的还需要传统的电脑吗?我也不确定。我也相信技术从根本上是帮助人类做更多事的。生产力的成本会越来越低,甚至降到接近零。到那时,我们可以用有限的资源做更多更酷的事,比如探索其他星球,或者做任何我们能想到的事。





更多阅读

o1发布后,信息量最大的圆桌对话:杨植麟、姜大昕、朱军探讨大模型技术路径
Claude工程师聊prompt:不要把模型当小孩子、不需要角色扮演、实话实说
8月份AI应用月活盘点,离超级应用有多远?ChatGPT还有机会吗?
OpenAI  o1是AGI下半场的开始,强化学习将成为新的 Scaling Law

转载原创文章请添加微信:founderparker
继续滑动看下一个
Founder Park
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存