Agent-OS:用AI掌控你的电脑!!这个 AI 代理可以控制你的电脑并做任何事情!(生成应用程序、代码、RAG 等)
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
介绍Open interpreter最佳功能之一:OS 模式,如果不太了解这个开源项目,让我给你一个快速概述:
Open interpreter 是一个 AI 代理,它几乎可以做任何你想做的事情,你只需给它一个提示,它就可以使用各种工具执行各种任务。
它使用 LLMS 运行Python、JavaScript、Shell 和其他更多本地代码,从而能够完成你需要的几乎任何任务。
OS 模式允许开放解释器查看屏幕上的内容并控制计算机输入、然后通过鼠标和键盘直观地控制操作系统,它提供了一个多模式 LLM ,如 GPT 4V。
它会尝试使用最直接的方法来实现其目标,例如在 Mac 上使用 Spotlight 打开应用程序,使用 URL 中的查询参数打开包含附加信息的网站,这样它基本上就可以控制你的电脑并做很多很酷的事情。
Open interpreter捕捉你的屏幕,并将其提供给 LLM 来确定屏幕上发生了什么,并决定下一步的操作 —— 这可能是AI控制整个操作的有效工作流程系统。
但由于它目前处于实验模式,可能会出错,所以无论如何请谨慎使用,现在让我们尝试一下,看看它是否真的可以实现它的目标。
首先,我们需要安装开放解释器,要安装它,只需打开你的终端并运行此命令 pip install open-interpreter。
OS 模式,我们想尝试一下
使用它只需运行带有 OS 标志的 Interpreter 命令,它将在 OS 模式下启动,第一次运行它时,它会要求安装一些软件包并请求权限。
只需批准它,它就会启动,你还需要输入 OpenAI API 密钥。
你没有OpenAI Key?没关系这个其实很好解决(但是有些没视觉):
国内很多模型比如Kimi、智谱(GLM-4-Flash 免费今天了)等等大模型都兼容OpenAI格式,你只需要把你运行open-interpreter项目环境里的openai包的base_url改掉就行,
除此以外使用One-API也可以把其他大模型转为Openai格式,
One-API:让国内LLM、Coze等跑通仅支持OpenAI API的开源项目 | 保姆级教程、可配合免费LLM API使用!
当然,还有许多免费的Chatgpt API项目,都可以。
配置好之后,现在你可以要求它做任何事情,所以让我们要求它做一些简单的事情,让我们要求它打开 vs code,让我们发送提示,
你可以看到 vs code 已经打开了,它首先编写了一个苹果脚本来打开应用程序,然后截取屏幕截图,将其提供给 llm,llm 确认它已经打开,
一旦它验证了这一点,它就会将任务标记为已完成(上面他最终输出已完成),这很棒,因为它不只是假设任务已经完成,它确保了这一点。
现在让我们让它做一些更复杂的事情,让我们让它打开 Safari 浏览器,去谷歌搜索 Groq:
他完成了,相当酷。
现在让我们尝试一些更具挑战性的事情,让我们要求它从互联网上获取一些数据,比如苹果股票的当前价格,你可以看到它100%正确,这意味着它在这方面也做得很好:
让我们再要求它创建一个新的项目目录并在 vs code 中打开它,这将帮助我们了解它是否可以处理文件管理和其他任务。
你可以看到它有能力做到这一点,这也非常令人印象深刻。
我认为它几乎可以做任何事情,是的,它可能会消耗大量的代币,但我认为人工智能可以控制你的整个电脑真是太疯狂了!
它比过时的代理如 Agent Zero 或 Agent K 要好得多,我认为Open interpreter可能是最好的人工智能代理之一,因为它工作得很好,速度极快,它在一分钟内完成任务,这真的很酷,
Agent-zero:这个自动AI代理可以做任何事情!(生成APP、代码、RAG 等)
Agent-K:这个自我进化的 AI 代理可以做任何事情!(生成应用程序、代码、RAG 等)
如果 OS 模式支持 Ollama,我会很高兴,但我认为它目前还不支持,所以这是未来可以添加的内容,总的来说,我认为它很酷,
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
[1] github:https://github.com/OpenInterpreter/open-interpreter
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~