清华团队开源 PilotDeck:Agent 的三大硬伤,一次补齐
如果你用过 AI Agent,八成遇到过这三个问题:记忆乱成一锅粥、Token 烧得飞快、人一走就停摆。
清华 THUNLP + 面壁智能 + OpenBMB 联合团队刚开源的 PilotDeck,就是来治这三样毛病的。项目上线 10 天 GitHub 已经 2,500+ Stars,增长非常猛。
硬伤一:记忆黑盒 → 白盒记忆
你用 Agent 做项目 A,切到项目 B,再切回项目 A——它还记得前面的事吗?
绝大多数 Agent 的记忆是个黑盒子。你看不到它记了什么、改不了、删不掉,而且多项目之间互相污染。
PilotDeck 的做法是WorkSpace(工作舱)机制:每个项目有独立的工作舱,舱内记忆完全隔离。A 项目的东西不会漏到 B 项目里去。
更关键的是,记忆的整个生命周期——生成、抽取、存储、使用——全部可视化。你可以手动编辑、删除、回滚。还内置了一个 Dream Mode,Agent 空闲时会自动归纳整理记忆。
记忆能看见、能管、能回滚,这才是靠谱的 Agent 记忆。
硬伤二:成本高昂 → 智能路由
不管任务多简单都调旗舰模型,这是 Agent 成本居高不下的核心原因。写个"hello world"也调 GPT-4,谁顶得住。
PilotDeck 内置了 ClawXRouter 智能路由引擎,能自动识别任务难度:
- 复杂任务调用强模型(Claude、GPT-4)
- 简单任务降级到轻量模型(DeepSeek、Qwen 等)
实测数据确实能打:社媒运营场景下,原来每月花 $12.58,用了智能路由降到 $2.83,省了接近 70%。
更夸张的一个对比:复杂评测任务中,PilotDeck 以 $3.15 的成本拿了 70.6 分,而直接用顶级模型花了 $18.36 才拿 69.1 分——成本只有六分之一,分数还更高。
硬伤三:人走即停 → Always-on 常驻执行
传统 Agent 是"你问我答"模式。你关掉对话,Agent 就下班了。但很多任务本来就是后台跑比较好——比如每小时检查一次网站状态、每天整理一份数据报告。
PilotDeck 的 Always-on 模式让 Agent 能一直在后台跑。你关掉页面走了,它还在:
- 主动发现潜在任务并执行
- 支持 Cron 定时任务调度
- 完成后自动写文件+生成摘要汇报
你第二天回来看,发现 Agent 已经把活干完了,还写了总结。这才是 Agent 该有的样子。
技术底子怎么样?
PilotDeck 不只是一个点子。从架构看是认真做的产品:
- 三端一致:Web / CLI / IM(飞书、微信已集成)同一套行为
- MCP 原生支持:可以挂各种 MCP 工具
- 多模型:OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 都能接
- 插件架构:MCP Servers、Tools & Skills、Lifecycle Hooks 随意扩展
- 一键安装:
curl -fsSL ... | bash 就行,默认跑在 3001 端口
技术栈是 TypeScript + React 19 + Vite + Tailwind + shadcn/ui,前端审美在线。
我的看法
PilotDeck 是清华 OpenBMB 系列继 MiniCPM、ChatDev 之后的又一个作品。这个团队的出品一直有水平,而且社区运营做得好——10 天 2.5k Stars 说明市场确实有需求。
三个硬伤的切入点也很准。记忆管理、成本控制、常驻运行——确实是当前 Agent 落地最痛的三个坑,PilotDeck 一个都没绕开,全正面打了。
如果你在折腾 Agent,直接去 GitHub 搜 OpenBMB/PilotDeck 看看。MIT 协议,装一下体验不亏。
GitHub: github.com/OpenBMB/PilotDeck
官网: pilotdeck.openbmb.cn
团队: 清华 THUNLP · 面壁智能 · OpenBMB · AI9Stars