查看原文
其他

Claude 更新,有惊喜!AI 直接操作电脑,产品创新遥遥领先 OpenAI

Founder Park Founder Park
2024-11-27

来了!Claude 发布新版本的 3.5 Sonnet 和新发布的 3.5 Haiku,能力都有大进步。

而且,这次 Claude 发布了一个重磅新功能——一个新的「计算机使用」API,该模型可以模拟按键、按钮点击和鼠标动作,实质上模拟了一个人坐在电脑前的操作。开发者现在可以通过 API 指导 Claude 像人类一样操作计算机, 包括观察屏幕、移动鼠标、点击按钮和输入文字。

也就说,Claude 可以操作电脑了!

「我们训练了 Claude 以识别屏幕上发生的情况,并利用可用的软件工具来执行任务,」Anthropic 声称。「当开发者指示 Claude 使用某款计算机软件并赋予其必要权限时,Claude 会查看用户可见的屏幕截图,然后计算出为了点击正确位置,光标需要垂直或水平移动多少像素。」

Claude 3.5 Sonnet 成为了首个在公开测试中提供这一功能的大模型,具体能力和介绍参见下文。

前不久 OpenAI「抄」了 Anthropic 的 Artifacts,在网页上用对话打开生产力,现在 Anthropic 继续推进生产力的能力边界,似乎在产品端比 OpenAI 有更多想法。

点击关注,每天更新深度 AI 行业洞察


01 

新的 3.5 Sonnet:目前最强大模型

升级后的 Claude 3.5 Sonnet 在各个方面都有显著提升, 尤其是在编码能力上更是取得了惊人的进步。

在编码能力方面,Claude 3.5 Sonnet 在 SWE-bench Verified 测试中的表现从 33.4% 跃升至 49.0%, 超越了所有公开可用的模型, 包括 OpenAI 的 o1-preview 等推理模型和专门为主动编码设计的系统。在衡量主动工具使用能力的 TAU-bench 测试中,Claude 3.5 Sonnet 同样表现出色:在零售领域的得分从 62.6% 提升到 69.2%,在难度更高的航空领域则从 36.0% 提高到 46.0%。

Claude 声称,代码托管平台 GitLab 在 DevSecOps 任务中测试了该模型, 发现其推理能力在各种用例中最高提升了 10%, 同时没有增加任何延迟, 这使得它成为支持复杂软件开发流程的理想选择。AI 公司 Cognition 将新版 Claude 3.5 Sonnet 应用于自主 AI 评估任务, 在编码、规划和问题解决等方面都观察到了显著的进步。而 The Browser Company(Arc 浏览器)在使用该模型自动化网络工作流程时,发现 Claude 3.5 Sonnet 的表现超越了他们此前测试过的所有模型。

Claude 3.5 Haiku: 比 4o mini 强不少

Claude 3.5 Haiku 保持了与 Claude 3 Haiku 相同的使用成本和接近的运行速度,在各个方面都实现了全面提升。甚至在多项智能基准测试中超越了 Claude 3 Opus, 展现出惊人的进步。

Claude 3.5 Haiku 在编码任务上的表现尤为亮眼。以 SWE-bench Verified 测试为例, 它取得了 40.6% 的优异成绩, 不仅超越了许多使用公开可用的顶级模型的智能代理, 甚至还胜过了原版的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4o。

新模型的特点是低延迟、更强的指令理解能力和更精准的工具使用。这些优势使得 Claude 3.5 Haiku 成为开发面向用户产品、执行专业子任务, 以及从海量数据 (如用户购买记录、价格信息或库存数据) 中生成个性化体验的理想选择。

首次发布时, 它将以纯文本模型的形式提供服务, 而支持图像输入的功能将在后续更新中推出。


02

操作计算机:

从文本交互到屏幕交互

Anthropic 声称,为了培养 AI 的通用计算机性能,他们开发了一个创新的 API,使 Claude 能够感知和操作计算机界面。通过集成这个 API,开发者可以让 Claude 将自然语言指令 (比如"使用我电脑上和网上的数据填写这个表格") 转换为一系列具体的计算机操作 (如查看电子表格、打开浏览器、浏览网页、填写表格等)。

这意味着 Claude 现在能够像人类一样, 使用各种标准工具和软件程序。

Anthropic 表示,Claude 在 OSWorld 中正确执行任务的次数占 14.9%。这一成绩远低于人类通常约 75% 的得分,但显著高于当前最佳代理——包括 OpenAI 的 GPT-4——后者成功率约为 7.7%。

「计算机使用能力有可能改变需要跨多个应用程序导航的任务的执行方式,」Anthropic 的首席产品官 Mike Krieger 表示,「这可能会带来更具创新性的产品体验和简化的后台流程。」Krieger 强调,这一新功能仍处于测试阶段,但随着技术的进步,它有望提升数据分析、可视化及用户界面交互的效率,使众多任务执行更加高效。

Anthropic 将其对 AI 代理概念的诠释称为「动作执行层」,使得新的 3.5 Sonnet 能够执行桌面级命令。得益于其浏览网页的能力(虽非 AI 模型首创,但为 Anthropic 首次),3.5 Sonnet 能够使用任何网站和任何应用程序。

自主完成供应商请求表单,通过从 CRM 系统中检索所需信息

Anthropic 的早期合作伙伴,包括 GitLab、Canva 和 Replit,已从 Claude 3.5 Sonnet 的新功能中获益。专注于软件开发与安全的 GitLab 一直在测试该模型,以自动化其开发流程中的任务。据公司称,Claude 将推理能力提升了高达 10%,且未影响性能,非常适合软件测试与部署等复杂的多步骤流程。

软件开发平台 Replit 已采用新版 3.5 Sonnet 模型的早期版本,创建了一个「自主验证器」,能够在应用构建过程中对其进行评估。Replit 总裁 Michele Catasta 表示,该模型「开启了创建强大自主验证器的大门,能够在应用构建过程中进行评估。」这有望缓解软件开发中的瓶颈问题,其中测试环节常常导致项目进度延误。与此同时,Canva 表示正在探索新模型如何支持设计和编辑流程的可能性。


03

办公自动化的新时代到来了!

在个人电脑上自动化执行任务的工具并非新鲜概念。从历史悠久的 RPA 供应商到 Relay、Induced AI 和 Automat 等新兴企业,无数公司都提供了这类工具。

一些分析师表示,AI 代理可能为企业提供了一条更便捷的途径,以实现其投入 AI 领域的数十亿美元的商业变现。企业似乎对此表示认同:根据凯捷咨询最近的一项调查,10% 的组织已采用 AI Agent,而 82% 的组织计划在未来三年内整合这一技术。

今年夏天,Salesforce 对其 AI Agent 进行了高调宣传,而微软则在昨日推出了用于构建 AI Agent 的新工具。正在策划自家 AI Agent 的 OpenAI 认为,这项技术是迈向超级智能 AI 的一步。

这种新能力与传统自动化工具的区别在于,Claude 并不局限于特定的流程或软件程序。相反,它能够通过截图「看到」屏幕,与多种应用程序互动,并随着任务的出现而适应不同工作。这种灵活性使其比当前的机器人流程自动化(RPA)技术更为多才多艺。

与此同时,也有其他公司在研发类似的功能,Rabbit 正在开发一个网络 Agent(LAM,大型行动模型),能够在线购买电影票等;最近被亚马逊收购的 Adept 训练模型浏览网站并操作软件;而 Twin Labs 则利用包括 OpenAI 的 GPT-4o 在内的现成模型来自动化桌面流程。

AI Agent 面临的一个关键挑战是,其错误可能远比聊天机器人回复混乱更为严重。Anthropic 对 Claude 的能力施加了特定限制——例如,限制其使用个人信用卡购物的能力。Anthropic 还表示,已采取措施防止滥用,例如不在用户截图和提示上训练新的 3.5 Sonnet,并阻止模型在训练期间访问网络。公司称,开发了分类器来「引导」3.5 Sonnet 远离被视为高风险的行为,如在社交媒体上发帖、创建账户以及与政府网站互动。

短期内,企业可在数据录入、客户服务和 IT 支持等领域迅速提升生产效率。但随着技术成熟,其潜在应用范围或将远远超出这些初期应用场景。

设想一个世界,其中 AI 可以处理复杂的法律流程,从审查合同到完成合规表格。或者想象 AI 辅助医生浏览电子健康记录,并通过交叉参考医疗数据库来诊断患者。

Claude 的新「计算机使用」功能,或许可以让我们更接近一个未来,即 AI 能够执行跨越不同软件应用和系统的广泛任务。这赋予了它前所未有的灵活性,而以往的人工技术往往局限于特定、狭窄的任务。



更多阅读

万字解读:产品力爆炸的Arc浏览器,没有职业产品经理,不写PRD
万字回顾YouTube的商业化之路:押注长视频、广告模式误打误撞、给创作者高分成
LangChain 创始人万字科普:手把手教你设计 Agent 用户交互
多邻国,百亿市值、月活破亿,PUA用户的天才:AI可以用,但要让用户爽
转载原创文章请添加微信:founderparker
继续滑动看下一个
Founder Park
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存