我们不是在创造人工智能,我们是在创造智能的控制者 —— James Barrat
回顾计算机交互的演变历程,经历了批处理—命令行式交互—图形界面交互,AI 的出现带来了自然语言交互,基于人类的意图完成输出。早期的批处理系统古朴且笨拙,交互依靠的是穿孔卡片——一种编码数据和指令的媒介。用户将一系列任务预先编码到这些卡片上,然后将它们交给数据中心。这里的计算机巨大如房间,它们不断地读取这些卡片,执行上面的命令。需要排队等待一夜才能知道程序是否完成运行。即便如此,也能帮助科学家和工程师们执行复杂的计算任务,如天气预报的模拟、工程问题的数值分析,甚至是太空探索任务的轨道计算。现在,在需要处理大规模数据集,如日志分析、金融交易记录或大量的用户行为数据时,批处理仍然是一个有效的方法。后来,分时系统的出现,让 CPU 可分配使用,提高了利用率,计算机可以根据命令对用户的每一个输入给出反馈。这种基于命令的交互,让用户可以控制计算机来执行任务,逐步解决问题。但仍需要学习大量的指令,体验并不友好,不过至少让人感觉在和机器建立连接。至今, Linux、Mac、windows 系统中的命令行仍然存在,是程序员们与计算机底层交互的常见方式。GUI 的出现彻底改变了规则,计算机不再只是枯燥的命令行,而是充满了窗口、图标和鼠标点击的界面。这种所见即所得的革新,让 word 、Excel 这样的效率工具出现,完全革命了人们的办公方式,浏览器出现,则成为了互联网的开端。等智能手机普及后,GUI不再局限于笨重的桌面电脑。现在,一个小小的触屏设备就能完成从购物到预定机票,从社交到远程工作的各种任务。当AI驱动的界面开始融入我们的生活,我们又站在了另一个交互革命的前沿,AI该如何改变软件,又怎样影响人们的生活。
想要一幅太空宇航员的画作?不必亲自动手,AI可以根据你的描述生成几个选项供你选择。让我们的交流更直接,更本质,不再是命令和代码,而是愿望和创意的直接表达。当移动互联网出现时,有人说所有的应用都值得用 APP 再做一遍,事实也确实如此。那么所有的产品都值得用 AI 做一遍吗?如果是的话,该怎么做呢?OpenAI 作为生成式 AI 的破局者,提供面向C端的 ChatGPT 对话助手,和面向开发者的模型 API 调用,前者通过每月20美元的订阅模式,占到了总营收 34 亿美元的 80%。[1]移动互联网时代有 APP,浏览器有插件,微信有小程序,它们都是依托于一个平台生态衍生出全新的软件交互和商业模式。一个平台级的产品,必然拥有有良好的生态,用户因为找到合适的应用而付费、开发者因为有用户使用而入局、平台因为有持续增长而不断改善,机构、企业、组织陆续加入,广告、娱乐、购物统统改变。OpenAI 在去年先后推出了 GPT 插件,和GPTs,通过封装知识库和 Prompt 可以定制对话机器人,这样就能把 AI 的能力应用在垂直领域的。解决更多用户问题,奥特曼也说通过佣金分成方式吸引开发者,从而建立起平台的生态。在推出之际,就被行业内认为可以颠覆 PC、移动端操作系统。现在一年过去,国内的大模型厂商也在推出类似GPTs 的功能——被大家称作 Agent 智能体。豆包、文心一言和 GPT 一样,允许用户创作Agent 并发布到广场。Kimi 就比较保守了,只是官方推出不允许用户创作。不管怎么做,Agent 是有它的应用场景在的,不用每次都去输 Prompt 了,用户进入平台也能快速找到适用于自己的 Agent,但是它难以撼动操作系统,也难以成为平台级产品。不论是用户创建的 Agent 还是官方推出 Agent,活跃度和创建数都在下降,用户用不起来,开发者也不愿意进来,平台在严格选择 Agent 的展示。我们大可以想象未来 OpenAI 能够打造一个平台级产品,完全颠覆软件的交互和商业模式。但目前来看,有苗头却看不到前景,因为传统应用的生命力太旺盛,而且他们也在融入 AI 的能力。这些应用运行在windows、MacOS 、安卓和IOS,网页以及浏览器插件等。要么是传统应用+AI,要么是依托于AI而生的应用。下面我就通过例子,来说明下 AI 在应用中的五种交互:辅助回答型:集成在应用中的AI,能够根据用户的直接输入提供即时帮助和信息,如回答问题或提供具体操作的指导。
主任务驱动型:AI直接融入应用的核心功能,通过用户的常规操作触发,帮助优化和执行主要的业务或工作任务。
自动生成型:AI根据由其他任务触发而接收给定的输入自动生成内容,如给文章自动总结、打标签。
隐藏型:AI隐秘地工作,用户通常意识不到其存在,自动执行背后的优化和功能增强,如推荐系统或内容过滤。
工作流自动化:AI被集成到低代码工作流中,自动化处理输入和输出
在主应用界面,通过右侧面板或者弹窗内置一个对话框 ,在想用的时候就唤起,这种简单有效的方式是大部分应用采用的做法。比如,现在使用微软Office或Google Docs处理文档时,遇到了表达或语法的困难。这时候,AI辅助回答框就是一个随时待命的助手,你可以随时向它提问或请求帮助。它能即时为你提供写作建议,还能帮你纠正错误。好处在于你几乎感觉不到它的存在。缺点就是每次都要复制内容,思考问题才能完成输入,这和在网页端使用GPT有什么区别的,看似融入AI,如果模型能力不够垂直或强大,这样的融合意义不大。
我一直认为Notion的做法非常的巧妙,23年初就已经融入AI, 成为了文档类产品的交互设计的典范,当你在创作的过程中,在Notion的page里编辑你的bolok ,给AI 输入的内容可以是你现在所写的东西,AI输出的答案也会呈现也在当前的page中。它很好的处理了AI打断任务的影响,我会为这样的便利而付费,即使模型的输出能力比不上GPT4。它的优势就是体验更加流畅,但它也会增加系统的复杂性,如果集成一个生成质量或性能的模型,这样做无疑带来很大风险。
通过我们在使用软件过程中的任务,自动触发AI的能力,不同于主任务驱动型,自动生成不需要用户输入问题或指令,它能够根据用户当前的任务触发AI的使用,自动生成内容。比如:Arc浏览器中,当用户创建新的浏览器标签时,AI自动分析页面内容并生成相关描述性强的标签名称,帮助用户更容易识别和管理开启的多个标签页。再比如:Notion的database中,用户可以定义一个表头字段为AI生成类型,如标签(AI ),那么在创建一条记录时,这个标签会根据主内容自动生成。这种结合方式,我想象不到什么缺点,很多场景都有待使用这种方式改善,比如文件夹、笔记的命名管理。
AI 的能力早已隐藏在我们使用的数码产品中,以至于我们感受不到它的存在,在使用手机拍照的时候,手机识别不同的景色、光线来优化照片的拍摄效果,在相册搜索关键词,比如猫,就能搜到所有和猫相关的照片;Siri 会根据你的日常查询和命令优化其响应。这些背后都是算法的能力。当然,今天提到的GenAI也有很多隐藏式的,iOS最新的Apple Inteligence,CEO 蒂姆库克强调苹果的AI助手在设计上对于用户来说更加“自然”,不张扬但又无处不在。例如在文本辅助生成环节,Apple Intelligence建议回复的内容文本直接呈现在输入法内部;在归纳总结文档时,交互按键也很好的被设计并且集成在界面的侧边位置。
如果你手头上有成堆的进度报告和计划调整需求。通常这种情况下,你可能需要花费大量时间在手动分析和整理数据上,但有了AI,你就可以把数据发给它做总结分析。不过这样,还不够理想,假如你想指定某一行去分析,并且将分析结果写入表格,GPT就不可能实现了,必须要借助工具去搭建一个工作流,这样你不仅可以在任务中自动使用AI的能力,还能批量去处理相同的任务。这本质上是低代码工具+AI,大模型厂商都在售卖自家的模型API,通过API接入到低代码工作流中。低代码比如苹果的快捷指令,Dify、n8n、zaiper、集简云等等,通过拖放界面设计工作流,集成大模型的API后,AI在背后帮助自动化数据处理和决策逻辑。
这种交互方式不同于Agent,它具备更高的灵活性,和更强的能力,感兴趣的可以动手实践。今天了解这些多少能帮你在使用 AI 产品时有个方法论,目前的交互再怎么花哨也逃不出这几种。最后再来给这五种交互方式做一个简单的总结:
移动互联网发展依托于手机这一硬件,经历了工具产品,娱乐社交产品,购物生活产品,最后到 ToB 产品的演变,AI 和那个时代已经不同,没有成熟的硬件,技术栈也不同。但相同的的是,都是在早期出现大量的工具产品,因为工具产品场景足够明确。未来,娱乐类,社交类,购物类如何发展,我们拭目以待。
我是空格,一个想要把 AI 用的更好的 AI 产品经理,目标是每天用 AI 节省 4 小时工作。
我会在这个公众号分享关于 AI、产品经验、和优质内容笔记,如果你对此感兴趣,欢迎关注转发。添加我的微信可进入交流群:PM_Planets