首页 AI编程工具 BrowserAct:专为 AI Agent 设计的浏览器自动化 CLI,突破反爬、远程接管

BrowserAct:专为 AI Agent 设计的浏览器自动化 CLI,突破反爬、远程接管

📅 2026/6/10 👁 阅读 7 🔗 工具访问 2 次
BrowserAct:专为 AI Agent 设计的浏览器自动化 CLI,突破反爬、远程接管

工具地址

https://github.com/browser-act/skills

🚀 访问工具

AI agent 需要浏览器,但 Playwright/Selenium 不是为 AI 设计的

现有浏览器自动化工具都是给人写的脚本服务的——返回完整 HTML、等 networkidle、自己处理 DOM 解析。AI agent 用起来别扭,token 浪费在无用节点上,遇到反爬直接翻车。

BrowserAct 就是为 AI agent 造的浏览器自动化 CLI。2,267 星,MIT 开源。它能突破反爬,三种浏览器模式,多任务并发不串扰,还支持人工远程接管。

BrowserAct 封面图

是什么

BrowserAct 是一个 命令行浏览器自动化工具,专门针对 AI agent 的使用场景设计。跟 Playwright/Puppeteer 不一样,它不要求你写脚本,而是直接向 LLM 暴露简洁的交互接口。

核心思想:一个 agent 说「打开网页」→「看状态」→「点击第三个链接」→「输入文字」,BrowserAct 做完把结果用紧凑文本返回,比 JSON/HTML 省 3 倍 token。

三种浏览器模式:

「Chrome 模式」复用本地 Chrome 的登录状态;「隐身模式」每次全新指纹+代理,不留痕迹;「固定身份模式」稳定 fingerprint 跑多账户并行。

三层反封锁:

第一层环境层——指纹伪装、TLS 轮换、代理切换,大部分反爬根本触发不了。第二层执行层——solve-captcha 自动破解验证码。第三层人工层——remote-assist 生成一个链接,人在手机/另一台电脑上接管浏览器,处理完 agent 继续跑。

核心亮点

为 LLM 推理优化。 返回紧凑索引文本格式,不是完整 DOM。你可以说「state」看可点击元素列表,然后「click 3」「input 2 你好」。不需要 AI 去解析 HTML 结构,省 token 省时间。

零干扰并发。 每个 agent 用独立浏览器、独立 cookie、独立指纹。同一台机器上跑 10 个 agent 做不同任务,网站无法关联它们。不会串数据。

人工接管是原生功能。 不是事后补救——agent 卡住时自动生成远程协助链接,你在任何设备上打开就能接管浏览器,处理完 agent 继续往下走。

CLI 原生,安装超简单:

# 直接告诉 AI agent:
# 「安装 browser-act,技能来源:https://github.com/browser-act/skills」

# 然后就能用:
browser-act stealth-extract https://example.com
browser-act --session my-task browser open <id> https://...
browser-act --session my-task click 3
browser-act --session my-task input 2 "搜索内容"

安全确认门。 敏感操作(创建/删除浏览器、导入 profile、改代理)需要用户的明确确认,不是配置开关。每次都要单独确认,无自动放行。

不是没有槽点

不是通用浏览器。 它不是 Chrome/Firefox 的替代品,是 agent 的控制层。你不能拿它日常上网。

依赖云服务。 反爬和远程接管功能依赖 BrowserAct 的云基础设施,完全本地跑的话只能基本自动化。

开源范围有限。 GitHub 上开源的是 Skills(技能定义和 CLI),核心的反爬引擎和浏览器编排是闭源的。跟 Playwright 这种全开源不一样。

学习成本。 虽然 CLI 设计简洁,但理解三种浏览器模式、并发模型、以及怎么集成到 agent 工作流里需要一点时间。

还在早期。 2.2K 星,社区和文档还在成长。遇到问题可能找不到现成的解决方案。

跟同类怎么比

Playwright/Puppeteer: 通用浏览器自动化,功能强大但为脚本设计,对 AI agent 不友好。BrowserAct 专为 LLM 推理优化。

Browserbase/Steel: 云浏览器服务,功能类似但商业闭源。BrowserAct 部分开源,社区版免费。

n8n / Zapier: 工作流自动化,适合非技术人员。BrowserAct 面向开发者/AI agent,是 CLI 层,不是拖拽界面。

一句话:如果你在写 AI agent 或者需要 agent 能操控浏览器做事,BrowserAct 是目前最对口的工具。

GitHub:https://github.com/browser-act/skills
官方网站:https://www.browseract.com

标签:#BrowserAct #浏览器自动化 #AI Agent #反爬虫 #浏览器编排 #CLI工具 #自动化


关注我,每期分享一个帮你省事的强大工具 🛠️

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫