查看原文
其他

AI接管人类电脑的72小时里,我测出了Claude的上限

AI沃茨 卡尔的AI沃茨
2024-11-06

 the first frontier AI model to offer computer use in public beta. 

这句话概括出了 Claude 这次更新的所有内容:

首个提供计算机操控功能的 AI 模型。

又是一个瞒着 GPT 做的新功能,

从用途上看,你可以将 Computer Use 理解成擅长在操作系统中执行各种任务 Agent(智能体),

也可以把它当做一个不需要搭建的高级 RPA(机器人流程自动化)。

Claude 独特的点在于:它操控电脑的方式是跟人学的

它仅通过“看”你的屏幕,就能完成移动光标、点击和输入文本等操作,这些“小动作”组合起来,就能自动化执行填写在线表格、搜索数据、提交报告等。

听上去是不是会觉得 Claude 可以帮我收集数据、生成图片,然后写下这篇文章,顺带帮我发了?

但目前的 Computer Use 最多只能算半成品,现阶段大部分人使用它只能通过沙盒 - 一台“虚拟”的电脑,里面自带的软件很少。

加上 API 的速率限制、单次使用时长限制在15分钟、超长的回复时间、容易拒答以及较高的费用。完成一个正常难度的任务,4分钟起步,单次费用就接近 10 元。

一次冲5刀,5刀问六次

所以我花了三天时间,想测出现阶段的 Computer Use 的能力上限。

一股脑将我用过的所有电脑软件丢给 Claude 显然不现实,钱包也 hold 不住。

所以我决定先把 Computer Use 拆开看看👀:

从官方代码来看,有三个主要工具:

  • ComputerTool(计算机交互工具):控制屏幕、键盘和鼠标
  • EditTool(文件编辑工具):查看、创建和编辑文件
  • BashTool(命令行工具):执行bash命令

接着从我电脑的屏幕使用时间里得到一天下来我都会使用哪些软件:


根据我个人的使用习惯,能写 TODO、在飞书整理数据、聊微信、自动编程就占了我日常94%的电脑活动。占比最多的浏览器里,搜索、AI 对话、文件处理、信息浏览和写作占了我大部分的使用次数。

看来 Claude 想完全取代我,操控我的电脑也不是很难嘛。

PS:我把三大平台 Windows、Macos 和 Linux,甚至 iphone 接入 Claude 的教程都放在文末彩蛋了。感兴趣可以根据我的思路构建出自己的一份“电子设备操控”测试集,测测你有多少设备能被 AI 接管了🎉

从实用性出发,我给 Claude 出了4道复合型难题:

  • 浏览新闻 + 编写TODO + 保存文件
  • 网页搜索 + 数据整理
  • AI 搜索 + 插件安装
  • 自动编程 + 效果预览

本来按照我的日常工作流,

第四个难题应该是 AI 搜索+软件试用+优点汇总的,帮助我大量筛选新出的 AI 应用。

不过目前 Claude 看过的软件数量比较少,失败率挺高的,就不做额外展示了。

  1. 帮我打开浏览器,并打开 felo.ai/search 的搜索:获取关于 Claude 新功能 Computer use 的信息,按内容重要性分点列出值得测试的 TODO 待办,最后保存到 markdown 文件。


  1. 帮我打开浏览器,搜索并总结 openai 最新的十条新闻,再打开 Excel 按行保存网页内容摘要和关键词,导出一个两列的结果表。


  1. 我想自由翻译网页内容,帮我到 metaso.cn 搜索一下哪个插件最好用,给我浏览器装上。


  1. 在 React 中创建一个计时器应用程序,并在 Firefox 浏览器上运行。


上面4个任务视频都是没有经过剪辑,

任务1运行4次成功2次、任务2运行4次成功3次、任务3运行4次成功4次、任务4运行4次成功1次:62.5% 的成功率。

从执行流程来看:

  • Computer Use 目前还不太擅长在各种网址不同位置的输入框里准确输入文本。
  • 一些常规操作(滚动、拖动、缩放)基本无法触发。
  • 会的软件不多,浏览器默认是火狐。要在别的浏览器运行的话,需要让它多次“看”到搜索框
  • 遇到错误会尝试绕开我规定的方法里的坑,比如metaso.cn里搜索翻译插件得到的结果并不理解,它会主动尝试其他信息源,插件商店、搜索引擎等。
  • 在写入文件、编写代码上,延续了 Claude 模型的特长。你可以在 Excel 设定多行多列,设定输入文件为 txt、markdown、pdf。写 React 过程遇到安装环境的问题,也会自动修复。
  • 大胆推测后续可以通过缓存屏幕截图来降低费用。在执行过程中经常会遇到四五张截图都一样的情况。

看了那么多案例,如果大家也想动手玩玩的话,

我翻译了一版双语精校字幕的使用教程,Enjoy~

Computer Use 的更新速度非常惊人,

今天我还发现了 Claude 能控制手机!利用 mac 的 iphone 镜像功能,能够让 Claude 下棋。

另外,windows 和 mac 玩家们都没落后,已经有人做出来了 Agent.exeinterpreter --os

也就是说 Claude 正式支持了三大主流电脑系统 🎉

苹果你要不把 Apple Intelligence 的合作商换换呢?

最后,简单归纳一下这个能用电脑的模型还有哪些值得留意的点:

这次更新的模型是 Claude 3.5 Sonnet(new) 和 Claude 3.5 Haiku。

它叫 3.6、3.5 plus 我都不惊讶,可偏偏加个后缀(new)。这下留给手机厂商的后缀又少了一个。

Sonnet(new) > Opus > Haiku:它们是超大杯,大杯和中杯的关系,换算成 GPT 系列就是 GPT4 > GPT-4o > GPT4o-mini。

  • Claude 3.5 Haiku 是速度最快的新模型,在多项测试中超越了上一代的 Claude 3 Opus,在编码上甚至超过了Claude 3.5 Sonnet。费用还是之前的 1/12。我感觉 Cursor们可以冲了。

  • Claude 3.5 Sonnet 保持与其上代版本相同的价格和速度,提高了多步开发的推理和编程能力。用 Anthropic 的话来说,已经甩飞 GPT-o1 了。


写在最后

想象一下,

当 Computer Use 能做到实时处理;

当 GPT-5 或 Claude-4 进一步增加设备操控能力;

当 API 的成本下降10倍,速度提升10倍后,

一个人就能操作上百上千台电脑,

我,即超脑!

@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……

 今日份的彩蛋揭秘公众号回复电脑领取

继续滑动看下一个
卡尔的AI沃茨
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存