WebClaw:Rust写的网页提取神器,1.5K星让AI直接读懂任何网页
大多数爬虫工具给 AI 的结果只有两种:要么被反爬拦截,返回空白或登录墙;要么塞过来一团 HTML 垃圾——导航栏、脚本、样式表、广告、重复的 boilerplate,AI 要花大量 token 才能提取出正文。
WebClaw 解决了这个问题。它把任意 URL 转成干净的 Markdown、JSON、文本或专为 LLM 优化的格式,让 AI 真正读懂网页内容。Rust 编写,1,557 颗星,CLI、MCP Server、REST API、Docker 均可运行。
核心功能
| 功能 |
说明 |
scrape |
单页提取,支持 markdown / llm / text / json / html 五种格式 |
crawl |
深度爬取,支持同源链接追踪、深度和页数限制 |
map |
只发现 URL,不提取内容,适合 sitemap 构建 |
batch |
批量并行抓取多个 URL |
extract |
调用本地或云端 LLM 将内容转为结构化 JSON |
summarize |
调用 LLM 生成页面摘要 |
diff |
对比页面快照,追踪变化(如价格监控) |
brand |
提取品牌色、字体、Logo 和元数据 |
search |
联网搜索并抓取结果(托管 API) |
research |
多源研究工作流(托管 API) |
安装与上手
# 最快:安装 CLI
curl -fsSL https://raw.githubusercontent.com/0xMassi/webclaw/main/install.sh | bash
# 或 Homebrew
brew tap 0xMassi/webclaw
brew install webclaw
# Docker 尝鲜
docker run --rm ghcr.io/0xmassi/webclaw https://example.com
# Cargo 编译安装
cargo install --git https://github.com/0xMassi/webclaw.git webclaw-cli
# 基本抓取 → Markdown
webclaw https://stripe.com --format markdown
# 只提取正文
webclaw https://example.com/blog/post --only-main-content
# CSS 选择器精细控制
webclaw https://example.com \
--include "article, main, .content" \
--exclude "nav, footer, .sidebar, .ad"
# 爬取文档站点(深度2,最多50页)
webclaw https://docs.rust-lang.org --crawl --depth 2 --max-pages 50
# LLM 优化格式(最紧凑上下文)
webclaw https://docs.anthropic.com --format llm
本地 CLI 无需 API Key 即可完成核心提取。需要付费功能(JS 渲染、搜索、研究)时连接 webclaw.io 托管 API。
SDK 接入
TypeScript / JavaScript
npm install @webclaw/sdk
import { Webclaw } from "@webclaw/sdk";
const client = new Webclaw({ apiKey: process.env.WEBCLAW_API_KEY! });
const page = await client.scrape({
url: "https://example.com",
formats: ["markdown"],
only_main_content: true,
});
console.log(page.markdown);
Python
pip install webclaw
from webclaw import Webclaw
client = Webclaw(api_key="wc_your_key")
page = client.scrape(
"https://example.com",
formats=["markdown"],
only_main_content=True,
)
print(page.markdown)
典型使用场景
- AI Agent 联网搜索:通过 MCP Server 接入 Claude、Cursor、Windsurf,让 AI 实时抓取网页获取信息
- RAG 数据采集:爬取文档站、帮助中心、博客,构建本地知识库。输出直接是 Markdown,无需清洗
- 竞品监控:跟踪竞品定价页、Changelog、产品更新,diff 功能追踪变化
- 结构化数据提取:用
extract 调用 LLM,将任意页面转为 JSON,驱动自动化流程
- 品牌信息采集:抓取 Logo、主色、字体、社交账号元数据,用于品牌分析
- Firecrawl 替代:本地运行,无需付费订阅,核心抓取能力完整保留
竞品对比
| 工具 |
语言 |
本地运行 |
MCP |
Md/JSON输出 |
定价 |
| WebClaw |
Rust |
✅ 完全免费 |
✅ |
✅ 5种格式 |
免费核心 / 高级功能订阅 |
| Firecrawl |
Python |
❌ 需云端 |
✅ |
✅ |
付费 |
| Playwright |
多语言 |
✅ |
❌ |
❌ 需自行处理 |
免费 |
| Jina Reader |
云端 |
❌ |
✅ |
✅ |
免费额度 + 付费 |
| Diffbot |
云端 |
❌ |
❌ |
✅ |
付费 |
WebClaw 的核心优势在于:本地零依赖,Rust 高性能,五种输出格式,MCP 无缝接入 AI Agent,RAG 友好。如果你的工作流里 AI 需要联网读网页,WebClaw 是目前门槛最低、效果最好的选择之一。
作者:阿涛456 · 来源:youtol.cn · 未经允许禁止转载