想象一下:你有个虚拟员工,它有自己的电脑、自己的操作系统、自己的工作台。你说一句"把三个供应商网站的最新发票都下载归个档",它就自己打开浏览器、登录网站、下载文件、分文件夹存好。
Bytebot 就是干这个的——一个自托管的 AI 桌面代理。不是浏览器插件,不是 API 套壳,它有一个完整的虚拟桌面。11K+ ⭐ 开源项目。

是什么
Bytebot 给 AI 配了一台完整的 Ubuntu 虚拟电脑。它能看屏幕、动鼠标、敲键盘、装软件、读文档——像真人一样操作桌面应用。
跟浏览器 Agent 不一样,Bytebot 不受 API 限制。它能操作任何桌面软件:浏览器、邮件客户端、Office、VS Code、命令行。跨系统、跨应用的多步流程,一条自然语言指令搞定。
怎么用
部署:Docker 两步搞定
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
打开 http://localhost:9992 就能看到虚拟桌面。或者一键部署到 Railway。
给任务
直接在 Web UI 里打字:
- "去 Wikipedia 整理一份量子计算的摘要"
- "下载上传的合同 PDF 里所有付款截止日期"
- "登录我们的 CRM 导出客户列表"
- "把这三个电商网站的产品价格做个对比表格"
Bytebot 自己打开浏览器、导航、操作、下载、整理。你在旁边实时看着屏幕。
核心特色
完整的虚拟桌面
Ubuntu + XFCE + Firefox + VS Code + 命令行。不是用浏览器 API 模拟,是真有一个电脑。需要什么软件让它自己装。
多模型支持
Claude、GPT、Gemini 都行。通过 LiteLLM 还能接 Azure、AWS Bedrock、Ollama 本地模型——100+ 供应商。
文件上传与处理
丢 PDF 给 Bytebot,它逐页看完、提取关键信息、交叉对比多份文档。比 API 能拿到的信息量大多了。
密码管理器支持
装 1Password、Bitwarden 到虚拟桌面,Bytebot 能自己填密码、处理 2FA——你不需要给它明文密码。
Takeover 模式
AI 操作到一半你发现它跑偏了?随时接管鼠标键盘把它拉回来,完事再放权。
REST API
脚本调用任务、截图、鼠标点击、文件上传——全部有 API。可以集成到自己的自动化工作流里。
持久化环境
装一次软件永久可用。今天装了个 Chrome 扩展,明天的任务里它还认识。
自托管
数据全在自己的 Docker 里,不出墙。适合对数据安全有要求的企业场景。
真实场景
- 👔 财务:登录三个银行官网下载月账单→合并报表→发邮件
- 📄 法务:几十份 PDF 合同→提取关键条款→输出对比表
- 📊 市场:监控竞品官网价格变化→截图→生成周报
- 🔧 开发:跨浏览器 UI 测试→截图→记录 Bug 到 Issues
- 📝 研究:多站点资料收集→交叉分析→整理成文档
不是没槽点
- 慢。 AI 一张截图一张截图地看、思考、点击……5 分钟能干完的事,AI 可能要跑 20 分钟。适合后台跑的不急任务,不适合"快帮我查一下"。
- 眼睛会瞎。 AI 视觉模型的准确率不是 100%。复杂页面、弹窗、验证码经常翻车。你需要盯着它——至少初期是这样。
- 依赖 AI 模型质量。 用 Claude 效果最好,GPT 还行,Gemini 差些。上本地小模型基本跑不动。这决定了你的 API 成本。
- 资源占用。 跑一个 Ubuntu 桌面+Docker 怎么也得 4GB 内存起步。机器不好别想。
- 登录还是门槛。 虽然支持密码管理器,但第一次配置各种网站的登录凭证还是得手动来一次。
同类对比 / 一句话总结
| 维度 |
Bytebot |
Claude Computer Use |
Browser-use |
| 类型 |
自托管桌面 Agent |
API 沙箱 |
浏览器 Agent |
| 桌面环境 |
✅ 完整 Ubuntu 桌面 |
⚠ 受限沙箱 |
❌ 仅浏览器 |
| 部署 |
Docker 自托管 |
Anthropic API |
Python 库 |
| 模型 |
Claude/GPT/Gemini+100+ |
仅 Claude |
多种 LM |
| 数据隐私 |
✅ 完全自托管 |
❌ 数据出站 |
⚠ 半离线 |
Bytebot 最值的地方:它把"AI 操作真实电脑"这件事做成了开箱即用的产品,不是 API 示例代码。丢到服务器上就能跑,跑起来就能干活。尤其适合跨系统、多步骤、需要读文档的业务流程自动化。
一句话:如果想让 AI 替你干电脑上的脏活累活,Bytebot 是目前最完整的自托管方案。
GitHub:https://github.com/bytebot-ai/bytebot
官网:https://bytebot.ai
关注我,每期分享一个帮你省事的强大工具 🛠️