LiteParse：轻量文档解析神器，PDF/OCR/截图一个命令搞定

做 RAG 的都知道一个尴尬——PDF 解析的质量直接决定了检索效果。但市面上的解析工具要么慢、要么不准、要么要钱。Marker、PyMuPDF、pypdf、pdfplumber……我都试过，各有各的问题。

LiteParse 是 LlamaIndex 团队（run-llama）最近开源的一款文档解析工具。GitHub 上 9.5K Stars，Rust 编写，主打「快」和「轻」。内置 PDFium 解析引擎、Tesseract OCR、支持截图输出给 LLM Agent——而且全本地运行，不依赖任何云服务。

LiteParse 封面图

是什么

LiteParse 是一个轻量级的本地文档解析工具。核心功能：把 PDF 和其他文档格式解析成带空间信息的结构化文本（JSON 或纯文本）。

不只是 PDF —— 支持 PDF、DOCX、XLSX、PPTX 和常见图片格式。原理是用 LibreOffice/ImageMagick 做格式转换，再用 PDFium 统一解析。

内置 OCR —— 自带 Tesseract，零配置就能用。也支持外接 HTTP OCR 服务器（EasyOCR、PaddleOCR 等），灵活度高。

空间定位（Bounding Box） —— 每个文本块都带位置坐标。对于需要知道「文字在页面哪里」的场景（比如解析表单、发票、报告），这个很关键。

LLM Agent 友好 —— 内置 screenshot 命令，直接把页面转成截图。这对 AI Agent 特别有用——纯文本丢失了排版信息，截图能补上。

多语言绑定 —— Rust 原生，也有 Python（pip install liteparse）、Node.js/TypeScript（npm i @llamaindex/liteparse）和浏览器 WASM 版本。

LiteParse 文档截图

安装和使用

安装：

# CLI / Rust
cargo install liteparse

# Python
pip install liteparse

# Node.js
npm i @llamaindex/liteparse

CLI 用法：

# 解析 PDF
lit parse report.pdf -o output.json --format json

# 指定页码范围
lit parse book.pdf --target-pages "1-5,10,15-20"

# 生成截图给 LLM Agent
lit screenshot document.pdf -o ./screenshots

# 批量解析整个目录
lit batch-parse ./input-dir ./output-dir

# 禁用 OCR（纯文本 PDF 更快）
lit parse document.pdf --no-ocr

简洁、直观，没有什么花里胡哨的。

OCR 怎么配置

LiteParse 的 OCR 系统设计得比较灵活：

内置模式 —— 什么都不用配，Tesseract 已经打包在库里了。lit parse doc.pdf 会自动跑 OCR。

HTTP 服务器模式 —— 如果你想要更好的中文 OCR，可以自己起一个 EasyOCR 或 PaddleOCR 服务，然后通过 --ocr-server-url 指定：

lit parse doc.pdf --ocr-server-url http://localhost:9000

这种架构的好处是：LiteParse 只负责文本提取和空间重建，OCR 任务可以交给专门的引擎处理。想换随时换，不绑定。

不是没有槽点

说几个真实的。

Tesseract 中文 OCR 效果一般 —— 这是 Tesseract 本身的问题，不是 LiteParse 的锅。对于中文文档，外接 PaddleOCR 效果会好很多，但要多部署一个服务。

Rust 编译慢 —— 如果用 cargo install 安装，第一次编译要等好几分钟。好在 npm 和 pip 装的是预编译包，不用等编译。

复杂布局还是不够 —— 对于密集表格、多栏排版、手写文本，LiteParse 的本地解析效果有限。官方也建议复杂文档用他们云端的 LlamaParse。

项目还很新 —— 2026 年 2 月才创建，v2 刚发布不久。API 可能还会变，社区生态还在建设。

截图功能比较基础 —— 截图生成可以用，但不能做复杂的图像分析。对比专门的文档截图工具还有差距。

跟同类怎么比

vs PyMuPDF / pdfplumber：Python 库功能全面但速度慢。LiteParse 的 Rust 核心在解析速度上有明显优势，且自带 OCR 和截图。

vs Marker：Marker 也是 Rust 写的 PDF 解析工具，质量很高但偏向学术文献。LiteParse 的通用性更强（多格式输入 + 灵活 OCR + LLM 截图），团队也更活跃（LlamaIndex）。

vs LlamaParse（云端版）：LlamaParse 是 LiteParse 的云版本，解析质量更高（能处理表格、图表、手写），但要 API Key 和联网。LiteParse 是本地跑的免费版本，适合不涉及敏感数据的日常使用。

一句话：如果你需要本地解析 PDF 做 RAG 预处理，LiteParse 是目前性价比最高的选择——免费、开源、快、有 OCR、有截图、绑定多语言。复杂文档再考虑 LlamaParse 或其他专业方案。

GitHub：github.com/run-llama/liteparse
文档：developers.llamaindex.ai/liteparse/

标签：#LiteParse #文档解析 #OCR #PDF #RAG #LlamaIndex #Rust #文档预处理

关注我，每期分享一个帮你省事的强大工具 🛠️

LiteParse：轻量文档解析神器，PDF/OCR/截图一个命令搞定

是什么

安装和使用

OCR 怎么配置

不是没有槽点

跟同类怎么比

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

Frame：一个 Rust 写的 FFmpeg 图形界面，轻巧好用

Chatwoot：开源客服系统，Intercom 替代品，34K⭐含AI

Parsec：连接工作与游戏的低延迟远程桌面神器

PP-OCRv6：百度开源 OCR 引擎，50 语言 + 精度提升 5%，RAG 文档处理首选

Chatwoot：开源客服系统，替代 Intercom 与 Zendesk

my-tv：纯C写的电视直播App，32K星标，13MB装下千个频道

是什么

安装和使用

OCR 怎么配置

不是没有槽点

跟同类怎么比

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

Frame：一个 Rust 写的 FFmpeg 图形界面，轻巧好用

Chatwoot：开源客服系统，Intercom 替代品，34K⭐含AI

Parsec：连接工作与游戏的低延迟远程桌面神器

PP-OCRv6：百度开源 OCR 引擎，50 语言 + 精度提升 5%，RAG 文档处理首选

Chatwoot：开源客服系统，替代 Intercom 与 Zendesk

my-tv：纯C写的电视直播App，32K星标，13MB装下千个频道

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）