首页 AI智能体 Browser-Use:让 AI Agent 操控浏览器,10万 Stars 的开源神器

Browser-Use:让 AI Agent 操控浏览器,10万 Stars 的开源神器

📅 2026/6/30 👁 阅读 5 🔗 工具访问 2 次 📂 AI智能体
Browser-Use:让 AI Agent 操控浏览器,10万 Stars 的开源神器

工具地址

https://github.com/browser-use/browser-use

🚀 访问工具
Browser-Use:让 AI Agent 操控浏览器,GitHub 10万 Stars 的开源神器 - youtol.cn

AI Agent 现在能做的事情很多:写代码、分析数据、调用 API……但有一件事一直做不好——真正操控浏览器。Click 这个按钮、填那个表单、在某个下拉菜单里选一个值,这些对人类来说再简单不过的动作,之前的 Agent 大多靠 DOM 选择器硬写,一遇到页面改版就挂了。

Browser-Use 解决这个问题。GitHub 10 万 Stars,MIT 许可证,用自然语言描述任务,AI Agent 直接操控你的浏览器——点击、滚动、填表、截图,一条命令搞定。今天聊聊这东西为什么这么火。

Browser-Use 封面图

是什么

Browser-Use 是一个开源的 AI 浏览器自动化框架,本质上是给 AI Agent 提供了一个真实的浏览器操作空间。你可以理解为:传统 Selenium/Playwright 是人来写脚本,Browser-Use 是 AI 来执行脚本。

它底层基于 Playwright,由 browser-use 团队开发并开源(MIT License)。核心思路是:让大模型看到网页截图,理解页面结构,自己决定下一步该点哪里、填什么。模型不需要知道 DOM 选择器——只需要理解任务、观察页面、执行动作。

核心功能

自然语言驱动,零选择器依赖

这是 Browser-Use 和传统自动化工具最大的区别。写一个任务描述,Agent 自己观察页面、自己规划下一步、自己执行。不用写 `driver.find_element(By.XPATH, ...)` 这种东西。

agent = Agent(
    task="找到 GitHub 浏览器 Use 仓库的星标数量",
    llm=ChatBrowserUse(model='openai/gpt-5.5'),
)
await agent.run()

0.13 版本:Rust 核心 + Browser Harness

今年刚发布的 0.13 版是一次大改版,引入了 Rust 核心运行时和一个 Browser Harness 系统。Harness 的核心灵感来自 coding agent——为模型提供持久化工具、恢复循环(失败后自动重试)、以及浏览器状态记忆。这让 Agent 在复杂多步骤任务中不再轻易迷路。

自研优化模型 BU-3

Browser-Use 还训练了自己的浏览器自动化模型 BU-3。在相同精度下,完成任务的速度是 GPT-4o / Claude Sonnet 等通用模型的 3-5 倍。成本也更低。BU-3 通过 `ChatBrowserUse(model='bu-3')` 调用,一个 API key 同时支持 GPT / Claude / Gemini / BU-3,无需分别配置。

多模型支持

不只是 BU-3,Browser-Use 也支持任何主流模型:

一个框架,所有模型都能用。换模型只需要改一行代码。

自定义工具扩展

用 `@tools.action` 装饰器把任意 Python 函数注册为 Agent 工具:

from browser_use import Tools

tools = Tools()

@tools.action(description='查询商品当前价格')
def get_price(product_id: str) -> str:
    return f"商品 {product_id} 的价格是 ¥99"

CLI 和 Claude Code 集成

命令行 `browser-use` 直接起一个交互式浏览器会话,支持截屏、输入、点击等操作。也支持 Claude Code Skill 安装,让 AI 编程工具直接操控浏览器。

云端版(可选)

官方提供 Browser Use Cloud,有 Stealth 浏览器(防检测 + 代理轮换)、可扩展基础设施、生产级部署方案。对 CAPTCHA 和反爬虫要求高的场景用云端版更省心。

能做什么

跟同类怎么比

Browser-Use 的优势在于:开源 + 生态最大 + 自研优化模型 + 多 LLM 支持,10 万 Stars 不是白来的。

一句话总结

Browser-Use 是目前 AI Agent 操控浏览器最成熟的开源方案——10 万 Stars、MIT 许可、Rust 核心提速、自研 BU-3 模型、多 LLM 兼容。想让你的 AI Agent 真正在网页上干活,这个库是标配。

GitHub:https://github.com/browser-use/browser-use
官网:https://browser-use.com
文档:https://docs.browser-use.com

标签:#Browser-Use #AI浏览器自动化 #Playwright #AI Agent #开源工具 #Claude Code #MCP


关注我,每期分享一个帮你省事的强大工具 🛠️

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫