Sentient Agent:让 AI 控制你的浏览器,一键完成任务!三行代码自动控制浏览器(填表、查股票、播放视频)
🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
几天前我介绍了 Open Interpreter,并且探索了其操作系统模式,这非常酷,因为它可以控制整个电脑。
Agent-OS:用AI掌控你的电脑!!这个 AI 代理可以控制你的电脑并做任何事情!(生成应用程序、代码、RAG 等)
LaVague:利用 AI 轻松实现任何基于 Web 的任务自动化!( 网页 + Agent框架)
不过,它运行稍微有些慢,而且会截取电脑屏幕,这对某些人来说可能是个隐私问题。但今天我为大家带来了另一个非常酷的项目,它可以控制整个浏览器,这次它叫做 Sentient Agent。
Sentient 是一个开源项目,只需要三行代码就能运行一个浏览器控制代理。你只需运行这三行代码并写下任务,它就会启动代理并完成任务,真的很棒。
它使用 Chrome 的开发者模式来实现这一功能,首先需要运行 Chrome 开发者模式的实例,使用这些命令根据你的操作系统运行。完成后,你可以设置 OpenAI 的 API 密钥,
没有OpenAI 的 API?或许可以使用这里面提到的项目:
不过不用也没关系,因为这个项目支持Ollama。
然后运行这几行命令以及任务,代理就会开始工作。
from sentient import sentient
import asyncio
# if you wanna run in Jupyter Notebook
# add these 2 follwing lines
import nest_asyncio
nest_asyncio.apply()
result = asyncio.run(sentient.invoke("play shape of you on youtube"))
它不使用截图之类的东西,它直接获取页面代码并查询 LLM(大型语言模型)下一步要做什么,然后点击元素。这和你使用 Selenium 手动自动化操作的方式类似,但它是全自动的。
它还可以与本地模型以及 Together AI 一起工作,因此也可以与本地和开源模型配合使用,真的非常酷。
我会向大家展示如何结合 OpenAI、Together 和 Ollama 使用它。我们开始吧,先来看一下具体操作。
首先,打开终端,安装 Sentient,只需运行 Pip install sentient,它就会安装。(第一步)
安装完成后,我们可以使用它,但首先需要运行 Chrome 开发者实例,还需要将代码放入 Python 文件中,然后更改我们想要执行的任务提示。
我们先复制这个程序,
将其粘贴到一个新文件中。
现在保存。保存文件后,回到终端,确保你已启动 Chrome 开发者实例(第二步)。
第三步,如果你使用的是 Mac,运行这个命令;如果是 Linux 或 Windows,按需运行相应命令。
我使用的是 Mac,所以我运行这个命令。
完成后会打开一个 Chrome 窗口,让它保持打开状态。
现在打开另一个终端窗口,因为我使用的是 OpenAI API,先导出 OpenAI API 密钥。
接下来,运行刚才保存的 Python 脚本即可。
现在我们试试更复杂的任务,问它当前苹果公司的股票价格是多少。
我已经写好了这个任务,现在运行看看。
稍等一下,任务完成了,
结果是正确的苹果公司股票价格,真是太棒了。它工作得非常好。
除此之外,你还可以添加自定义指令,例如,如果你让它在 YouTube 上播放视频,但它总是先进入 Google 搜索页面,你可以添加自定义指令,让它直接通过 YouTube 搜索,这真的很酷。
这个代理有很多用处,比如填写表单和类似任务。现在我们试试更复杂的任务,搜索从芝加哥到洛杉矶最便宜的航班。我更新了任务,现在运行一下。
稍等一下,任务完成了,
结果很棒。我认为这非常酷,尽管目前我还没有特别的应用场景,但对于填写表单之类的任务,它会非常有用。
现在我展示一下如何与 Together AI 和 llama 一起使用。要与 Together AI:https://www.together.ai/ 配合使用,首先注册账号,你还可以获得一些免费积分。
注册后,获取 API 密钥,然后进入脚本,将提供者更改为 Together AI,选择你想使用的模型。
我将使用 Llama 3.1。设置完成后,回到终端,导出你的 Together API 密钥。现在可以开始使用了。
现在我展示一下如何与 Ollama 一起使用。首先确保你已安装 Ollama 。安装方法是进入 Ollama 的网站,点击下载按钮,选择你的操作系统并安装。
安装后,进入模型部分,选择并安装一个模型。我将使用 Llama 3.1,复制命令并将其粘贴到终端中进行安装。安装完成后,发送一条消息测试是否工作正常。
接下来,我们需要配置脚本以配合 Ollama 使用,只需将提供者改为 Ollama ,并选择你想使用的模型。我还是使用 Llama 3.1。
设置完成后,运行脚本,任务会正常执行。
我认为这是一个非常好的代理,能够集成到你的工作流中,帮助你在网页上执行更复杂的任务,真的非常棒。我希望很快能支持 Groq 模型,这样一切都会变得非常快。
总的来说,真的很酷。
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
往期推荐
[2] https://docs.together.ai/
[3] video:https://www.youtube.com/watch?v=0J3vKJVBQBA&t=1s
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~