AI接管人类电脑的72小时里,我测出了Claude的上限
the first frontier AI model to offer computer use in public beta.
这句话概括出了 Claude 这次更新的所有内容:
首个提供计算机操控功能的 AI 模型。
又是一个瞒着 GPT 做的新功能,
从用途上看,你可以将 Computer Use 理解成擅长在操作系统中执行各种任务 Agent(智能体),
也可以把它当做一个不需要搭建的高级 RPA(机器人流程自动化)。
Claude 独特的点在于:它操控电脑的方式是跟人学的。
它仅通过“看”你的屏幕,就能完成移动光标、点击和输入文本等操作,这些“小动作”组合起来,就能自动化执行填写在线表格、搜索数据、提交报告等。
听上去是不是会觉得 Claude 可以帮我收集数据、生成图片,然后写下这篇文章,顺带帮我发了?
但目前的 Computer Use 最多只能算半成品,现阶段大部分人使用它只能通过沙盒 - 一台“虚拟”的电脑,里面自带的软件很少。
加上 API 的速率限制、单次使用时长限制在15分钟、超长的回复时间、容易拒答以及较高的费用。完成一个正常难度的任务,4分钟起步,单次费用就接近 10 元。
所以我花了三天时间,想测出现阶段的 Computer Use 的能力上限。
一股脑将我用过的所有电脑软件丢给 Claude 显然不现实,钱包也 hold 不住。
所以我决定先把 Computer Use 拆开看看👀:
从官方代码来看,有三个主要工具:
ComputerTool(计算机交互工具):控制屏幕、键盘和鼠标 EditTool(文件编辑工具):查看、创建和编辑文件 BashTool(命令行工具):执行bash命令
接着从我电脑的屏幕使用时间里得到一天下来我都会使用哪些软件:
根据我个人的使用习惯,能写 TODO、在飞书整理数据、聊微信、自动编程就占了我日常94%的电脑活动。占比最多的浏览器里,搜索、AI 对话、文件处理、信息浏览和写作占了我大部分的使用次数。
看来 Claude 想完全取代我,操控我的电脑也不是很难嘛。
PS:我把三大平台 Windows、Macos 和 Linux,甚至 iphone 接入 Claude 的教程都放在文末彩蛋了。感兴趣可以根据我的思路构建出自己的一份“电子设备操控”测试集,测测你有多少设备能被 AI 接管了🎉
从实用性出发,我给 Claude 出了4道复合型难题:
浏览新闻 + 编写TODO + 保存文件 网页搜索 + 数据整理 AI 搜索 + 插件安装 自动编程 + 效果预览
本来按照我的日常工作流,
第四个难题应该是 AI 搜索+软件试用+优点汇总的,帮助我大量筛选新出的 AI 应用。
不过目前 Claude 看过的软件数量比较少,失败率挺高的,就不做额外展示了。
帮我打开浏览器,并打开 felo.ai/search
的搜索:获取关于 Claude 新功能 Computer use 的信息,按内容重要性分点列出值得测试的 TODO 待办,最后保存到 markdown 文件。
帮我打开浏览器,搜索并总结 openai 最新的十条新闻,再打开 Excel 按行保存网页内容摘要和关键词,导出一个两列的结果表。
我想自由翻译网页内容,帮我到 metaso.cn
搜索一下哪个插件最好用,给我浏览器装上。
在 React 中创建一个计时器应用程序,并在 Firefox 浏览器上运行。
上面4个任务视频都是没有经过剪辑,
任务1运行4次成功2次、任务2运行4次成功3次、任务3运行4次成功4次、任务4运行4次成功1次:62.5% 的成功率。
从执行流程来看:
Computer Use 目前还不太擅长在各种网址不同位置的输入框里准确输入文本。 一些常规操作(滚动、拖动、缩放)基本无法触发。 会的软件不多,浏览器默认是火狐。要在别的浏览器运行的话,需要让它多次“看”到搜索框 遇到错误会尝试绕开我规定的方法里的坑,比如 metaso.cn
里搜索翻译插件得到的结果并不理解,它会主动尝试其他信息源,插件商店、搜索引擎等。在写入文件、编写代码上,延续了 Claude 模型的特长。你可以在 Excel 设定多行多列,设定输入文件为 txt、markdown、pdf。写 React 过程遇到安装环境的问题,也会自动修复。 大胆推测后续可以通过 缓存屏幕截图
来降低费用。在执行过程中经常会遇到四五张截图都一样的情况。
看了那么多案例,如果大家也想动手玩玩的话,
我翻译了一版双语精校字幕的使用教程,Enjoy~
Computer Use 的更新速度非常惊人,
今天我还发现了 Claude 能控制手机!利用 mac 的 iphone 镜像功能,能够让 Claude 下棋。
另外,windows 和 mac 玩家们都没落后,已经有人做出来了 Agent.exe
和 interpreter --os
。
也就是说 Claude 正式支持了三大主流电脑系统 🎉
苹果你要不把 Apple Intelligence 的合作商换换呢?
最后,简单归纳一下这个能用电脑的模型还有哪些值得留意的点:
这次更新的模型是 Claude 3.5 Sonnet(new) 和 Claude 3.5 Haiku。
它叫 3.6、3.5 plus 我都不惊讶,可偏偏加个后缀(new)。这下留给手机厂商的后缀又少了一个。
Sonnet(new) > Opus > Haiku:它们是超大杯,大杯和中杯的关系,换算成 GPT 系列就是 GPT4 > GPT-4o > GPT4o-mini。
Claude 3.5 Haiku 是速度最快的新模型,在多项测试中超越了上一代的 Claude 3 Opus,在编码上甚至超过了Claude 3.5 Sonnet。费用还是之前的 1/12。我感觉 Cursor们可以冲了。
Claude 3.5 Sonnet 保持与其上代版本相同的价格和速度,提高了多步开发的推理和编程能力。用 Anthropic 的话来说,已经甩飞 GPT-o1 了。
写在最后
想象一下,
当 Computer Use 能做到实时处理;
当 GPT-5 或 Claude-4 进一步增加设备操控能力;
当 API 的成本下降10倍,速度提升10倍后,
一个人就能操作上百上千台电脑,
我,即超脑!
@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro
最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……
今日份的彩蛋揭秘公众号回复电脑
领取