是什么
UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用,GitHub 37K+ Stars,Apache-2.0 许可证,今天刚更新。
简单说:你在电脑上想干什么,用自然语言告诉它,它自己截屏、自己分析 UI、自己动手点鼠标键盘,全程自动化。
配套项目 Agent TARS 提供 CLI/Web 界面,把这套能力扩展到终端、浏览器和各种产品里。
核心优势
🤖 自然语言控制
不用写脚本,不用调 API,对着它说话就行。"打开微信找到张三的聊天窗口发送今天汇报文件"——这种跨应用多步骤操作,一句搞定。
🎯 三种 Operator 模式
- Local Operator:控制本机,鼠标键盘全接管
- Remote Computer Operator:远程控制任意一台机器
- Remote Browser Operator:控制远程浏览器,Chrome/Edge/Firefox 都支持
🧠 System-2 推理
UI-TARS-2 模型内置任务分解、反思思维和里程碑识别。不是机械执行——它会判断步骤对不对,中途卡住了自己反思重来。这一点确实比纯 API 调用的方案聪明得多。
🛡️ 完全本地处理
模型跑在自己机器上,截图不外传。财务系统、内部 OA、敏感数据操作都能放心用。
🔌 MCP 工具集成
内置 MCP(Model Context Protocol)支持,浏览器、文件系统操作都能接。Claude Computer Use 要付费调 API,UI-TARS 本地跑,一分钱不花。
📊 基准测试超过 Claude
UI-TARS-2 在几个权威基准上已经把 Claude 甩了:
| 基准 |
UI-TARS-2 |
Claude |
| OSWorld | 47.5 | 22.0 |
| WindowsAgentArena | 50.6 | — |
| AndroidWorld | 73.3 | — |
| Online-Mind2Web | 88.2 | — |
两倍以上的差距。老实说,字节这个模型在 GUI 理解这块确实下了功夫。
怎么安装
macOS 一行命令:
brew install --cask ui-tars
Windows 用户去 GitHub Releases 下载:
https://github.com/bytedance/UI-TARS-desktop/releases/latest
启动后连一个模型。目前支持这些:
- Hugging Face:UI-TARS-1.0、UI-TARS-1.5-7B(免费,但本地得有显卡)
- 火山引擎:Doubao-1.5-UI-TARS(云端,中文优化好,按量付费)
不是没有槽点
说几个实际问题:
模型部署有门槛。本地跑 7B 模型最少要一块 16GB 显存的显卡。纯 CPU 用户基本没法玩。要么你就用火山引擎 API,但那就不是纯离线方案了。
复杂任务还不够稳。简单操作——点个按钮、填个表单——很靠谱。但跨应用流程,比如先查邮件再写文档再发出去,偶尔会走错路。得有人盯着。
Issue 400+。项目活跃也意味着快速迭代,有些版本可能不太稳定。
Remote Browser 的配置略麻烦。需要自己搭建 WebSocket 隧道环境,不是开箱即用的那种。
跟同类怎么比
|
UI-TARS |
Claude Computer Use |
GroundUI |
| 开源 | ✅ | ❌ | ✅ |
| 本地运行 | ✅ | ❌ | 部分 |
| 原生桌面 | ✅ | ❌ | ✅ |
| MCP 集成 | ✅ | ❌ | ❌ |
| 费用 | 免费 | API 付费 | 免费 |
一句话总结
如果你想用自然语言操控电脑,又不想把截图传到第三方 API,UI-TARS Desktop 是目前开源方案里最完整、基准最高、社区最活跃的。唯一的前提:你得有块能跑的显卡,或者接受火山引擎的云端方案。
GitHub:bytedance/UI-TARS-desktop
官方主页:agent-tars.com
标签:#UI-TARS #GUI Agent #字节跳动 #AI自动化 #开源 #多模态 #Claude替代 #桌面自动化
关注我,每期分享一个帮你省事的强大工具 🛠️