WebClaw：Rust写的网页提取神器，1.5K星让AI直接读懂任何网页

大多数爬虫工具给 AI 的结果只有两种：要么被反爬拦截，返回空白或登录墙；要么塞过来一团 HTML 垃圾——导航栏、脚本、样式表、广告、重复的 boilerplate，AI 要花大量 token 才能提取出正文。

WebClaw 解决了这个问题。它把任意 URL 转成干净的 Markdown、JSON、文本或专为 LLM 优化的格式，让 AI 真正读懂网页内容。Rust 编写，1,557 颗星，CLI、MCP Server、REST API、Docker 均可运行。

核心功能

功能	说明
`scrape`	单页提取，支持 markdown / llm / text / json / html 五种格式
`crawl`	深度爬取，支持同源链接追踪、深度和页数限制
`map`	只发现 URL，不提取内容，适合 sitemap 构建
`batch`	批量并行抓取多个 URL
`extract`	调用本地或云端 LLM 将内容转为结构化 JSON
`summarize`	调用 LLM 生成页面摘要
`diff`	对比页面快照，追踪变化（如价格监控）
`brand`	提取品牌色、字体、Logo 和元数据
`search`	联网搜索并抓取结果（托管 API）
`research`	多源研究工作流（托管 API）

安装与上手

# 最快：安装 CLI
curl -fsSL https://raw.githubusercontent.com/0xMassi/webclaw/main/install.sh | bash

# 或 Homebrew
brew tap 0xMassi/webclaw
brew install webclaw

# Docker 尝鲜
docker run --rm ghcr.io/0xmassi/webclaw https://example.com

# Cargo 编译安装
cargo install --git https://github.com/0xMassi/webclaw.git webclaw-cli

# 基本抓取 → Markdown
webclaw https://stripe.com --format markdown

# 只提取正文
webclaw https://example.com/blog/post --only-main-content

# CSS 选择器精细控制
webclaw https://example.com \
  --include "article, main, .content" \
  --exclude "nav, footer, .sidebar, .ad"

# 爬取文档站点（深度2，最多50页）
webclaw https://docs.rust-lang.org --crawl --depth 2 --max-pages 50

# LLM 优化格式（最紧凑上下文）
webclaw https://docs.anthropic.com --format llm

本地 CLI 无需 API Key 即可完成核心提取。需要付费功能（JS 渲染、搜索、研究）时连接 webclaw.io 托管 API。

SDK 接入

TypeScript / JavaScript

npm install @webclaw/sdk

import { Webclaw } from "@webclaw/sdk";

const client = new Webclaw({ apiKey: process.env.WEBCLAW_API_KEY! });

const page = await client.scrape({
  url: "https://example.com",
  formats: ["markdown"],
  only_main_content: true,
});

console.log(page.markdown);

Python

pip install webclaw

from webclaw import Webclaw

client = Webclaw(api_key="wc_your_key")

page = client.scrape(
    "https://example.com",
    formats=["markdown"],
    only_main_content=True,
)

print(page.markdown)

典型使用场景

AI Agent 联网搜索：通过 MCP Server 接入 Claude、Cursor、Windsurf，让 AI 实时抓取网页获取信息
RAG 数据采集：爬取文档站、帮助中心、博客，构建本地知识库。输出直接是 Markdown，无需清洗
竞品监控：跟踪竞品定价页、Changelog、产品更新，diff 功能追踪变化
结构化数据提取：用 extract 调用 LLM，将任意页面转为 JSON，驱动自动化流程
品牌信息采集：抓取 Logo、主色、字体、社交账号元数据，用于品牌分析
Firecrawl 替代：本地运行，无需付费订阅，核心抓取能力完整保留

竞品对比

工具	语言	本地运行	MCP	Md/JSON输出	定价
WebClaw	Rust	✅ 完全免费	✅	✅ 5种格式	免费核心 / 高级功能订阅
Firecrawl	Python	❌ 需云端	✅	✅	付费
Playwright	多语言	✅	❌	❌ 需自行处理	免费
Jina Reader	云端	❌	✅	✅	免费额度 + 付费
Diffbot	云端	❌	❌	✅	付费

WebClaw 的核心优势在于：本地零依赖，Rust 高性能，五种输出格式，MCP 无缝接入 AI Agent，RAG 友好。如果你的工作流里 AI 需要联网读网页，WebClaw 是目前门槛最低、效果最好的选择之一。

作者：阿涛456 · 来源：youtol.cn · 未经允许禁止转载

WebClaw：Rust写的网页提取神器，1.5K星让AI直接读懂任何网页

WebClaw：Rust写的网页提取神器，1.5K星让AI直接读懂任何网页

核心功能

安装与上手

SDK 接入

TypeScript / JavaScript

Python

典型使用场景

竞品对比

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

LightC：开源轻量级Windows C盘智能清理工具

Ego Lite：AI 和你共用一个浏览器，互不干扰

飞书多维表格 - 效率工具推荐

ima.copilot - 效率工具推荐

TinyWow - 效率工具推荐

飞书知识问答 - 效率工具推荐

WebClaw：Rust写的网页提取神器，1.5K星让AI直接读懂任何网页

核心功能

安装与上手

SDK 接入

TypeScript / JavaScript

Python

典型使用场景

竞品对比

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

LightC：开源轻量级Windows C盘智能清理工具

Ego Lite：AI 和你共用一个浏览器，互不干扰

飞书多维表格 - 效率工具推荐

ima.copilot - 效率工具推荐

TinyWow - 效率工具推荐

飞书知识问答 - 效率工具推荐

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）