OpenAI DevDay之前,向远端的猜测
Rob Phillips
作为Viv(with Siri团队)的前工程师,我也想帮大家深入理解智能辅助的基础知识,为大家减轻对未来可能出现的困扰。
要实现这一目标,他们需要构建以下几个关键部分:
持久化的用户偏好:
辅助技术最大的突破在于能够深入理解个人在最具体层面上的需求。
这是那种让计算机从令人生畏变为真正有用的“wow”时刻。
我们在2016年Viv(youtu.be/Rblb3sptgpQ)的展示中就实现了这一点,当时我们的AI能够根据你过去告诉我们的信息,记住你母亲喜欢哪种花,从而知道你对使用Viv服务的每一项的喜好。
这也需要访问你的个人信息以推断你的偏好。
实时的外部数据:
LLM的50%实用性来自于基础训练和增强学习与人类反馈(RLHF)的微调;但通过扩展其可用数据源,LLM的功能将得到大幅增强。
Zapier、Airbyte等工具会有所帮助,但我们预计将有更深入的第三方应用/数据集成。
“与PDF聊天”仅仅是开始。如果你的目标仅限于此,请着眼于更宏大的目标。
在虚拟机上的实际计算:
上下文窗口有其局限性,因此AI提供者将继续从在Python或Node/Deno虚拟环境中直接运行任务中获益,就像现在的计算机可以处理大量数据一样。
现在这些环境还只是短暂存在,被数据分析师/Julius使用,但随着时间的推移,它们会变成新型的长期数据存储和处理平台。
Agent任务/Flow规划:
没有意图,就无法进行规划。理解意图一直是NLP的圣杯,LLM终于帮我们在Viv使用NLP技巧多年后实现了这一点。
一旦意图精准,规划就能开始。创建一个代理规划器极为复杂,需要与用户偏好、第三方数据集、计算能力等进行大量集成。
Viv的核心魔力在于它的动态规划器/混合器,它能把所有这些数据和API整合在一起,为普通消费者生成工作流程以及在其上运行的动态用户界面。
专家级应用程序商店:
苹果最初构建了一个封闭的应用商店,但后来他们意识到,如果开放平台,就能从中汲取丰富的创意。
尽管OpenAI声称他们只专注于ChatGPT,但他们注定会调整策略,允许一系列专门的助理出现。
构建者将能够将多种工具组合在一起形成专业工作流。
随着时间的推移,AI也将能够自动组合这些工具,从先行构建者那里学习。
持久化的上下文记忆:
Embedding是有帮助的,但它们缺少像上下文切换、会话中心、概括、充实等基本部分。
如今LLM的大部分成本来自于提示,但随着历史和持久性的嵌入以及推理的缓存,这将释放出具有指向关键主题、话题、情感、语气回忆的长期记忆能力。
核心记忆只是开始,我们还需要所有那些在我们想起过去的日落、分手、科学理解或与人交往时敏感的背景信息。
长时间轮询任务:
“Agent”一词很有争议,但其部分意图是让任务能够被安排并自行完成,无论所需时间跨度有多长。
比如,“当蒙特利尔至夏威夷的航班价格低于500美元时提醒我”
这将需要跨API提供商以及云中的虚拟环境进行计算协调。
动态用户UI界面:
聊天并非最终的终端界面。应用程序之所以拥有按钮、日期选择器、图片等便利功能,是因为它们简化并阐明了功能。
AI将成为副驾驶,但为了发挥副驾驶作用,它需要适应最适合特定用户的功能。未来的用户界面将是个性化和优化的,因此UI将是动态的。
API和工具组合:
期待AI在未来能够生成定制的“应用程序”,我们可以构建自己的工作流程并将API组合在一起,无需等待大型初创公司这么做。
少数应用程序和初创公司将被用来生成前端,AI将更擅长将各种工具和API结合在一起,伴随着一定的token消耗费/税费。
Assistant-to-Assistant互动:
未来将有无数的助理,它们将协助人类和其他助理实现更伟大的目标。
除此之外,助理还需要学会跨文本、API、文件系统以及代理/初创公司和人类使用的其他模式进行交互,随着集成更深入地融入我们的世界。
插件/工具商店:
只有通过组合工具、API、提示、数据、偏好等,才能实现专业化的助理。
当前的插件商店还处于早期阶段,因此预计未来将有更多的工作需要完成,并且许多插件将随着它们变得更关键而被内部整合。
实际上,背后还需要大量的互联网搜索、社区构建、实时API生成和连接,以及将这一切整合到我们生活的每一个角落。如果你认为进入AI领域已经晚了,请放心,以上这些可能仅仅占到了实际需求的四分之一。随着我们不断迭代和创新,将会有更多的工作需要完成。
我们正在@FastlaneAI构建这些部分,但我们有不同的理解:OpenAI永远不会在所有事情上都是最好的。因此我们想让你使用世界上最好的AI,无论它们由谁构建(也许是你!)。
在未被定义之前,每一个人的想象都充满了可能性,
与其猜测明天凌晨两点到底会发什么,
不如琢磨琢磨他到底想干什么?
欢迎评论&讨论
~都是机会~