做 RAG 的都知道一个尴尬——PDF 解析的质量直接决定了检索效果。但市面上的解析工具要么慢、要么不准、要么要钱。Marker、PyMuPDF、pypdf、pdfplumber……我都试过,各有各的问题。
LiteParse 是 LlamaIndex 团队(run-llama)最近开源的一款文档解析工具。GitHub 上 9.5K Stars,Rust 编写,主打「快」和「轻」。内置 PDFium 解析引擎、Tesseract OCR、支持截图输出给 LLM Agent——而且全本地运行,不依赖任何云服务。
是什么
LiteParse 是一个轻量级的本地文档解析工具。核心功能:把 PDF 和其他文档格式解析成带空间信息的结构化文本(JSON 或纯文本)。
不只是 PDF —— 支持 PDF、DOCX、XLSX、PPTX 和常见图片格式。原理是用 LibreOffice/ImageMagick 做格式转换,再用 PDFium 统一解析。
内置 OCR —— 自带 Tesseract,零配置就能用。也支持外接 HTTP OCR 服务器(EasyOCR、PaddleOCR 等),灵活度高。
空间定位(Bounding Box) —— 每个文本块都带位置坐标。对于需要知道「文字在页面哪里」的场景(比如解析表单、发票、报告),这个很关键。
LLM Agent 友好 —— 内置 screenshot 命令,直接把页面转成截图。这对 AI Agent 特别有用——纯文本丢失了排版信息,截图能补上。
多语言绑定 —— Rust 原生,也有 Python(pip install liteparse)、Node.js/TypeScript(npm i @llamaindex/liteparse)和浏览器 WASM 版本。

安装和使用
安装:
# CLI / Rust
cargo install liteparse
# Python
pip install liteparse
# Node.js
npm i @llamaindex/liteparse
CLI 用法:
# 解析 PDF
lit parse report.pdf -o output.json --format json
# 指定页码范围
lit parse book.pdf --target-pages "1-5,10,15-20"
# 生成截图给 LLM Agent
lit screenshot document.pdf -o ./screenshots
# 批量解析整个目录
lit batch-parse ./input-dir ./output-dir
# 禁用 OCR(纯文本 PDF 更快)
lit parse document.pdf --no-ocr
简洁、直观,没有什么花里胡哨的。
OCR 怎么配置
LiteParse 的 OCR 系统设计得比较灵活:
内置模式 —— 什么都不用配,Tesseract 已经打包在库里了。lit parse doc.pdf 会自动跑 OCR。
HTTP 服务器模式 —— 如果你想要更好的中文 OCR,可以自己起一个 EasyOCR 或 PaddleOCR 服务,然后通过 --ocr-server-url 指定:
lit parse doc.pdf --ocr-server-url http://localhost:9000
这种架构的好处是:LiteParse 只负责文本提取和空间重建,OCR 任务可以交给专门的引擎处理。想换随时换,不绑定。
不是没有槽点
说几个真实的。
Tesseract 中文 OCR 效果一般 —— 这是 Tesseract 本身的问题,不是 LiteParse 的锅。对于中文文档,外接 PaddleOCR 效果会好很多,但要多部署一个服务。
Rust 编译慢 —— 如果用 cargo install 安装,第一次编译要等好几分钟。好在 npm 和 pip 装的是预编译包,不用等编译。
复杂布局还是不够 —— 对于密集表格、多栏排版、手写文本,LiteParse 的本地解析效果有限。官方也建议复杂文档用他们云端的 LlamaParse。
项目还很新 —— 2026 年 2 月才创建,v2 刚发布不久。API 可能还会变,社区生态还在建设。
截图功能比较基础 —— 截图生成可以用,但不能做复杂的图像分析。对比专门的文档截图工具还有差距。
跟同类怎么比
vs PyMuPDF / pdfplumber:Python 库功能全面但速度慢。LiteParse 的 Rust 核心在解析速度上有明显优势,且自带 OCR 和截图。
vs Marker:Marker 也是 Rust 写的 PDF 解析工具,质量很高但偏向学术文献。LiteParse 的通用性更强(多格式输入 + 灵活 OCR + LLM 截图),团队也更活跃(LlamaIndex)。
vs LlamaParse(云端版):LlamaParse 是 LiteParse 的云版本,解析质量更高(能处理表格、图表、手写),但要 API Key 和联网。LiteParse 是本地跑的免费版本,适合不涉及敏感数据的日常使用。
一句话:如果你需要本地解析 PDF 做 RAG 预处理,LiteParse 是目前性价比最高的选择——免费、开源、快、有 OCR、有截图、绑定多语言。复杂文档再考虑 LlamaParse 或其他专业方案。
GitHub:github.com/run-llama/liteparse
文档:developers.llamaindex.ai/liteparse/
标签:#LiteParse #文档解析 #OCR #PDF #RAG #LlamaIndex #Rust #文档预处理
关注我,每期分享一个帮你省事的强大工具 🛠️