首页 AI智能体 UI-TARS Desktop:字节跳动开源桌面 GUI Agent 工具

UI-TARS Desktop:字节跳动开源桌面 GUI Agent 工具

📅 2026/6/27 👁 阅读 5 🔗 工具访问 3 次 📂 AI智能体
UI-TARS Desktop:字节跳动开源桌面 GUI Agent 工具

工具地址

https://github.com/bytedance/UI-TARS-desktop

🚀 访问工具

是什么

UI-TARS Desktop 是字节跳动开源的多模态 AI Agent 桌面应用,GitHub 37K+ Stars,Apache-2.0 许可证,今天刚更新。

简单说:你在电脑上想干什么,用自然语言告诉它,它自己截屏、自己分析 UI、自己动手点鼠标键盘,全程自动化。

配套项目 Agent TARS 提供 CLI/Web 界面,把这套能力扩展到终端、浏览器和各种产品里。

UI-TARS Desktop 封面图

核心优势

🤖 自然语言控制

不用写脚本,不用调 API,对着它说话就行。"打开微信找到张三的聊天窗口发送今天汇报文件"——这种跨应用多步骤操作,一句搞定。

🎯 三种 Operator 模式

🧠 System-2 推理

UI-TARS-2 模型内置任务分解、反思思维和里程碑识别。不是机械执行——它会判断步骤对不对,中途卡住了自己反思重来。这一点确实比纯 API 调用的方案聪明得多。

🛡️ 完全本地处理

模型跑在自己机器上,截图不外传。财务系统、内部 OA、敏感数据操作都能放心用。

🔌 MCP 工具集成

内置 MCP(Model Context Protocol)支持,浏览器、文件系统操作都能接。Claude Computer Use 要付费调 API,UI-TARS 本地跑,一分钱不花。

📊 基准测试超过 Claude

UI-TARS-2 在几个权威基准上已经把 Claude 甩了:

基准 UI-TARS-2 Claude
OSWorld47.522.0
WindowsAgentArena50.6
AndroidWorld73.3
Online-Mind2Web88.2

两倍以上的差距。老实说,字节这个模型在 GUI 理解这块确实下了功夫。

怎么安装

macOS 一行命令:

brew install --cask ui-tars

Windows 用户去 GitHub Releases 下载:

https://github.com/bytedance/UI-TARS-desktop/releases/latest

启动后连一个模型。目前支持这些:

不是没有槽点

说几个实际问题:

模型部署有门槛。本地跑 7B 模型最少要一块 16GB 显存的显卡。纯 CPU 用户基本没法玩。要么你就用火山引擎 API,但那就不是纯离线方案了。

复杂任务还不够稳。简单操作——点个按钮、填个表单——很靠谱。但跨应用流程,比如先查邮件再写文档再发出去,偶尔会走错路。得有人盯着。

Issue 400+。项目活跃也意味着快速迭代,有些版本可能不太稳定。

Remote Browser 的配置略麻烦。需要自己搭建 WebSocket 隧道环境,不是开箱即用的那种。

跟同类怎么比

UI-TARS Claude Computer Use GroundUI
开源
本地运行部分
原生桌面
MCP 集成
费用免费API 付费免费

一句话总结

如果你想用自然语言操控电脑,又不想把截图传到第三方 API,UI-TARS Desktop 是目前开源方案里最完整、基准最高、社区最活跃的。唯一的前提:你得有块能跑的显卡,或者接受火山引擎的云端方案。

GitHub:bytedance/UI-TARS-desktop
官方主页:agent-tars.com

标签:#UI-TARS #GUI Agent #字节跳动 #AI自动化 #开源 #多模态 #Claude替代 #桌面自动化


关注我,每期分享一个帮你省事的强大工具 🛠️

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫