首页 效率提升 WebClaw:Rust写的网页提取神器,1.5K星让AI直接读懂任何网页

WebClaw:Rust写的网页提取神器,1.5K星让AI直接读懂任何网页

📅 2026/6/26 👁 阅读 15 🔗 工具访问 0 次 📂 效率提升
🛠️

工具地址

https://github.com/0xMassi/webclaw

🚀 访问工具

WebClaw:Rust写的网页提取神器,1.5K星让AI直接读懂任何网页

大多数爬虫工具给 AI 的结果只有两种:要么被反爬拦截,返回空白或登录墙;要么塞过来一团 HTML 垃圾——导航栏、脚本、样式表、广告、重复的 boilerplate,AI 要花大量 token 才能提取出正文。

WebClaw 解决了这个问题。它把任意 URL 转成干净的 Markdown、JSON、文本或专为 LLM 优化的格式,让 AI 真正读懂网页内容。Rust 编写,1,557 颗星,CLI、MCP Server、REST API、Docker 均可运行。

核心功能

功能 说明
scrape 单页提取,支持 markdown / llm / text / json / html 五种格式
crawl 深度爬取,支持同源链接追踪、深度和页数限制
map 只发现 URL,不提取内容,适合 sitemap 构建
batch 批量并行抓取多个 URL
extract 调用本地或云端 LLM 将内容转为结构化 JSON
summarize 调用 LLM 生成页面摘要
diff 对比页面快照,追踪变化(如价格监控)
brand 提取品牌色、字体、Logo 和元数据
search 联网搜索并抓取结果(托管 API)
research 多源研究工作流(托管 API)

安装与上手

# 最快:安装 CLI
curl -fsSL https://raw.githubusercontent.com/0xMassi/webclaw/main/install.sh | bash

# 或 Homebrew
brew tap 0xMassi/webclaw
brew install webclaw

# Docker 尝鲜
docker run --rm ghcr.io/0xmassi/webclaw https://example.com

# Cargo 编译安装
cargo install --git https://github.com/0xMassi/webclaw.git webclaw-cli
# 基本抓取 → Markdown
webclaw https://stripe.com --format markdown

# 只提取正文
webclaw https://example.com/blog/post --only-main-content

# CSS 选择器精细控制
webclaw https://example.com \
  --include "article, main, .content" \
  --exclude "nav, footer, .sidebar, .ad"

# 爬取文档站点(深度2,最多50页)
webclaw https://docs.rust-lang.org --crawl --depth 2 --max-pages 50

# LLM 优化格式(最紧凑上下文)
webclaw https://docs.anthropic.com --format llm
本地 CLI 无需 API Key 即可完成核心提取。需要付费功能(JS 渲染、搜索、研究)时连接 webclaw.io 托管 API。

SDK 接入

TypeScript / JavaScript

npm install @webclaw/sdk
import { Webclaw } from "@webclaw/sdk";

const client = new Webclaw({ apiKey: process.env.WEBCLAW_API_KEY! });

const page = await client.scrape({
  url: "https://example.com",
  formats: ["markdown"],
  only_main_content: true,
});

console.log(page.markdown);

Python

pip install webclaw
from webclaw import Webclaw

client = Webclaw(api_key="wc_your_key")

page = client.scrape(
    "https://example.com",
    formats=["markdown"],
    only_main_content=True,
)

print(page.markdown)

典型使用场景

竞品对比

工具 语言 本地运行 MCP Md/JSON输出 定价
WebClaw Rust ✅ 完全免费 ✅ 5种格式 免费核心 / 高级功能订阅
Firecrawl Python ❌ 需云端 付费
Playwright 多语言 ❌ 需自行处理 免费
Jina Reader 云端 免费额度 + 付费
Diffbot 云端 付费

WebClaw 的核心优势在于:本地零依赖,Rust 高性能,五种输出格式,MCP 无缝接入 AI Agent,RAG 友好。如果你的工作流里 AI 需要联网读网页,WebClaw 是目前门槛最低、效果最好的选择之一。


作者:阿涛456 · 来源:youtol.cn · 未经允许禁止转载

💬 评论区 (0 条评论)

暂无评论,快来发表第一条评论吧!

📤 分享这篇文章

📌 相关推荐

微信扫码分享

打开微信扫一扫