Headroom：AI 代理上下文压缩神器，Token 直降 95%，27.6K⭐

用 Claude Code、Cursor 这类 AI 编程工具多了，有没有发现一个烦人的问题：对话越用越卡，上下文越撑越大，每次请求都要等半天，账单也蹭蹭涨。特别是做代码搜索、翻日志排查问题的时候，光工具输出就能塞满整个上下文窗口。

Headroom 就是来解决这事的。它是一个开源的上下文压缩层，在你把内容发给 LLM 之前，先把工具输出、日志、RAG 结果、文件、对话历史统统压缩一遍——压缩率 60–95%，回答质量基本不变。

是什么

Headroom 是个 Python/TypeScript 库，也是代理和 MCP 服务器。跑在本地，数据不出你机器。它在你和 LLM 之间加了一层，所有发给模型的上下文经过压缩再出去。

作者叫 Tejas Chopra，今年 1 月上线的项目，6 个月拿到 27.6K GitHub Stars。最新版 v0.25.0 是 3 天前（6 月 12 日）发布的，迭代速度很快。

项目地址：github.com/chopratejas/headroom

核心优势

60–95% Token 压缩

不说虚的，直接看实测数据：

代码搜索（100 条结果）： 17,765 → 1,408 Token，省 92%
SRE 故障排查： 65,694 → 5,118 Token，省 92%
GitHub Issue 分类： 54,174 → 14,761 Token，省 73%
代码库探索： 78,502 → 41,254 Token，省 47%

而且不是无脑截断——压缩完的准确性在 GSM8K、TruthfulQA、SQuAD、BFCL 这些基准上基本做到无损失（GSM8K 完全持平，TruthfulQA 甚至略升 +3%）。

三种接入方式，总有一种适合你

1. 库模式： 在自己代码里直接调 compress(messages)，Python 和 TypeScript 都支持。一行代码搞定压缩。

2. 代理模式： headroom wrap claude，一行命令把 Claude Code、Codex、Cursor、Aider、Copilot CLI 全部套上一层压缩层。零代码改动。

3. MCP 服务器： 任何支持 MCP 的客户端都能用 headroom_compress、headroom_retrieve、headroom_stats 这三个工具。

6 种压缩算法自动路由

Headroom 不是「一刀切」压缩。它的 ContentRouter 会先判断内容类型，再选最合适的压缩器：

SmartCrusher： 通用 JSON 压缩，数组、嵌套对象、混合类型通吃
CodeCompressor： AST 感知的代码压缩，支持 Python、JS、Go、Rust、Java、C++
Kompress-base： HuggingFace 上训练过的文本压缩模型，专门优化过 Agent 轨迹数据
CacheAligner： 稳定前缀缓存，让 Anthropic/OpenAI 的 KV 缓存真正命中
图片压缩： ML 路由，40–90% 压缩比
IntelligentContext： 评分制上下文裁剪，学得会哪些信息更重要

可逆压缩（CCR）

压缩了以后如果 LLM 需要看原文怎么办？Headroom 的 CCR（可逆压缩）机制会把原始内容缓存到本地，LLM 可以通过 headroom_retrieve 工具按需获取。既省了每次对话都传全文的钱，又不怕丢了信息。

跨 Agent 共享记忆

Claude Code 和 Codex 之间切换用？Headroom 帮你打通。它有个跨 Agent 记忆存储，共享上下文、自动去重。写了几轮 Claude Code 后切到 Codex 不需要从零开始。

headroom learn：从失败中学习

这功能挺有意思——headroom learn 会自动挖掘失败的 Agent 会话，找出哪里出错了，然后直接写进 CLAUDE.md 或 AGENTS.md，下次同样的坑就不踩了。

一秒上手

# 安装
pip install "headroom-ai[all]"

# 包装 Claude Code
headroom wrap claude

# 看看省了多少
headroom perf

# 或者跑个代理
headroom proxy --port 8787

就这么简单。

不是没有槽点

1. 只对上下文密集型工作流有明显收益。 纯粹的简单问答（比如问一句"今天天气怎么样"）完全没必要，压缩那几行文字反而增加延迟。

2. 本地跑需要 Python 3.10+。 有些旧系统可能得先升级 Python。

3. 跨 Agent 记忆还在快速迭代。 v0.25.0 刚加了差分网络捕获等新功能，API 还没完全稳定下来。

4. 仅限 AI 编码 Agent —— 不是通用产品。 如果你只用 ChatGPT 网页版聊天，不需要它。如果你是 Codex、Claude Code 或者 Cursor 的重度用户，收益最大。

5. 企业环境需要额外配置。 SSL 检查、代理、离线安装都有解决方法（文档写得很清楚），但确实不是即开即用。

跟同类怎么比

工具	范围	部署	本地	可逆
Headroom	所有上下文	库/代理/MCP	✅	✅
RTK	CLI 命令输出	CLI 包装	✅	❌
lean-ctx	CLI 命令 + MCP	CLI 包装	✅	❌
Compresr / Token Co.	纯文本	托管 API	❌	❌
OpenAI Compaction	对话历史	提供商内置	❌	❌

Headroom 是唯一覆盖全场景 + 本地跑 + 可逆压缩的开源方案。RTK 他们也在用，作为管道的一部分整合进去了。

一句话总结

如果你天天用 AI 编码 Agent，并且觉得上下文撑、Token 贵、切来切去记忆不连贯——Headroom 是目前写得最完整的开源解决方案。27.6K Stars 说明了一切。

GitHub：github.com/chopratejas/headroom
文档：headroom-docs.vercel.app/docs

标签：#Headroom #上下文压缩 #AI编程工具 #ClaudeCode #Codex #Token优化 #Agent记忆 #开源 #MCP #本地优先

关注我，每期分享一个帮你省事的强大工具 🛠️

Headroom：AI 代理上下文压缩神器，Token 直降 95%，27.6K⭐

是什么

核心优势

60–95% Token 压缩

三种接入方式，总有一种适合你

6 种压缩算法自动路由

可逆压缩（CCR）

跨 Agent 共享记忆

headroom learn：从失败中学习

一秒上手

不是没有槽点

跟同类怎么比

一句话总结

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

HugAgentOS：企业级AI Agent平台，本体驱动可信推理

Evano Studio：免费开源本地 AI 智能体管理平台，零代码打造你的 AI 团队

effective-html：AI助手输出精美HTML，1418 Star的开源技能

OpenWorker：吴恩达开源桌面AI同事，交付成品不聊天

Kitewright浏览器自动化MCP，比Playwright快4倍

OpenOcta 八爪鱼：桌面AI智能体，双击即用

是什么

核心优势

60–95% Token 压缩

三种接入方式，总有一种适合你

6 种压缩算法自动路由

可逆压缩（CCR）

跨 Agent 共享记忆

headroom learn：从失败中学习

一秒上手

不是没有槽点

跟同类怎么比

一句话总结

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

HugAgentOS：企业级AI Agent平台，本体驱动可信推理

Evano Studio：免费开源本地 AI 智能体管理平台，零代码打造你的 AI 团队

effective-html：AI助手输出精美HTML，1418 Star的开源技能

OpenWorker：吴恩达开源桌面AI同事，交付成品不聊天

Kitewright浏览器自动化MCP，比Playwright快4倍

OpenOcta 八爪鱼：桌面AI智能体，双击即用

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）