AI接管人类电脑的72小时里，我测出了Claude的上限

Original AI沃茨卡尔的AI沃茨

2024-11-06

the first frontier AI model to offer computer use in public beta.

这句话概括出了 Claude 这次更新的所有内容：

首个提供计算机操控功能的 AI 模型。

又是一个瞒着 GPT 做的新功能，

从用途上看，你可以将 Computer Use 理解成擅长在操作系统中执行各种任务 Agent（智能体），

也可以把它当做一个不需要搭建的高级 RPA（机器人流程自动化）。

Claude 独特的点在于：它操控电脑的方式是跟人学的。

它仅通过“看”你的屏幕，就能完成移动光标、点击和输入文本等操作，这些“小动作”组合起来，就能自动化执行填写在线表格、搜索数据、提交报告等。

听上去是不是会觉得 Claude 可以帮我收集数据、生成图片，然后写下这篇文章，顺带帮我发了？

但目前的 Computer Use 最多只能算半成品，现阶段大部分人使用它只能通过沙盒 - 一台“虚拟”的电脑，里面自带的软件很少。

加上 API 的速率限制、单次使用时长限制在15分钟、超长的回复时间、容易拒答以及较高的费用。完成一个正常难度的任务，4分钟起步，单次费用就接近 10 元。

一次冲5刀，5刀问六次

所以我花了三天时间，想测出现阶段的 Computer Use 的能力上限。

一股脑将我用过的所有电脑软件丢给 Claude 显然不现实，钱包也 hold 不住。

所以我决定先把 Computer Use 拆开看看👀：

从官方代码来看，有三个主要工具：

ComputerTool(计算机交互工具)：控制屏幕、键盘和鼠标
EditTool(文件编辑工具)：查看、创建和编辑文件
BashTool(命令行工具)：执行bash命令

接着从我电脑的屏幕使用时间里得到一天下来我都会使用哪些软件：

根据我个人的使用习惯，能写 TODO、在飞书整理数据、聊微信、自动编程就占了我日常94%的电脑活动。占比最多的浏览器里，搜索、AI 对话、文件处理、信息浏览和写作占了我大部分的使用次数。

看来 Claude 想完全取代我，操控我的电脑也不是很难嘛。

PS：我把三大平台 Windows、Macos 和 Linux，甚至 iphone 接入 Claude 的教程都放在文末彩蛋了。感兴趣可以根据我的思路构建出自己的一份“电子设备操控”测试集，测测你有多少设备能被 AI 接管了🎉

从实用性出发，我给 Claude 出了4道复合型难题：

浏览新闻 + 编写TODO + 保存文件
网页搜索 + 数据整理
AI 搜索 + 插件安装
自动编程 + 效果预览

本来按照我的日常工作流，

第四个难题应该是 AI 搜索+软件试用+优点汇总的，帮助我大量筛选新出的 AI 应用。

不过目前 Claude 看过的软件数量比较少，失败率挺高的，就不做额外展示了。

帮我打开浏览器，并打开 felo.ai/search 的搜索：获取关于 Claude 新功能 Computer use 的信息，按内容重要性分点列出值得测试的 TODO 待办，最后保存到 markdown 文件。

帮我打开浏览器，搜索并总结 openai 最新的十条新闻，再打开 Excel 按行保存网页内容摘要和关键词，导出一个两列的结果表。

我想自由翻译网页内容，帮我到 metaso.cn 搜索一下哪个插件最好用，给我浏览器装上。

在 React 中创建一个计时器应用程序，并在 Firefox 浏览器上运行。

上面4个任务视频都是没有经过剪辑，

任务1运行4次成功2次、任务2运行4次成功3次、任务3运行4次成功4次、任务4运行4次成功1次：62.5% 的成功率。

从执行流程来看：

Computer Use 目前还不太擅长在各种网址不同位置的输入框里准确输入文本。
一些常规操作（滚动、拖动、缩放）基本无法触发。
会的软件不多，浏览器默认是火狐。要在别的浏览器运行的话，需要让它多次“看”到搜索框
遇到错误会尝试绕开我规定的方法里的坑，比如metaso.cn里搜索翻译插件得到的结果并不理解，它会主动尝试其他信息源，插件商店、搜索引擎等。
在写入文件、编写代码上，延续了 Claude 模型的特长。你可以在 Excel 设定多行多列，设定输入文件为 txt、markdown、pdf。写 React 过程遇到安装环境的问题，也会自动修复。
大胆推测后续可以通过缓存屏幕截图来降低费用。在执行过程中经常会遇到四五张截图都一样的情况。

看了那么多案例，如果大家也想动手玩玩的话，

我翻译了一版双语精校字幕的使用教程，Enjoy～

Computer Use 的更新速度非常惊人，

今天我还发现了 Claude 能控制手机！利用 mac 的 iphone 镜像功能，能够让 Claude 下棋。

另外，windows 和 mac 玩家们都没落后，已经有人做出来了 Agent.exe 和 interpreter --os。

也就是说 Claude 正式支持了三大主流电脑系统 🎉

苹果你要不把 Apple Intelligence 的合作商换换呢？

最后，简单归纳一下这个能用电脑的模型还有哪些值得留意的点：

这次更新的模型是 Claude 3.5 Sonnet(new) 和 Claude 3.5 Haiku。

它叫 3.6、3.5 plus 我都不惊讶，可偏偏加个后缀（new）。这下留给手机厂商的后缀又少了一个。

Sonnet(new) > Opus > Haiku：它们是超大杯，大杯和中杯的关系，换算成 GPT 系列就是 GPT4 > GPT-4o > GPT4o-mini。

Claude 3.5 Haiku 是速度最快的新模型，在多项测试中超越了上一代的 Claude 3 Opus，在编码上甚至超过了Claude 3.5 Sonnet。费用还是之前的 1/12。我感觉 Cursor们可以冲了。
Claude 3.5 Sonnet 保持与其上代版本相同的价格和速度，提高了多步开发的推理和编程能力。用 Anthropic 的话来说，已经甩飞 GPT-o1 了。

写在最后

想象一下，

当 Computer Use 能做到实时处理；

当 GPT-5 或 Claude-4 进一步增加设备操控能力；

当 API 的成本下降10倍，速度提升10倍后，

一个人就能操作上百上千台电脑，

我，即超脑！

@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro

最后，感谢你看到这里👏如果喜欢这篇文章，不妨顺手给我们点赞👍｜在看👀｜转发📪更多的内容正在不断填坑中……

今日份的彩蛋揭秘公众号回复电脑领取

继续滑动看下一个

卡尔的AI沃茨

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

AI接管人类电脑的72小时里，我测出了Claude的上限

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

AI接管人类电脑的72小时里，我测出了Claude的上限

您可能也对以下帖子感兴趣