PP-OCRv6：百度开源 OCR 引擎，50 语言 + 精度提升 5%，RAG 文档处理首选

OCR 是个老问题了——把扫描件、截图、照片里的文字提取出来，听起来简单，但真要做到速度快、精度高、支持多语言、还能在边端跑——没几个方案能同时做到。

百度的 PaddleOCR 现在冲到了 70K ⭐，是全球最大的开源 OCR 项目。而 PP-OCRv6 是它家最新的检测+识别引擎，在 v3.7.0 里正式发布。相比 v5，检测精度 +4.6%，识别精度 +5.1%，CPU 推理提速 5.2 倍。最离谱的是：只有 34.5M 参数，精度却超过了 Qwen3-VL-235B 和 GPT-5.5。

PP-OCRv6 封面图

是什么

PP-OCRv6 是 PaddleOCR 的文字检测+识别模型系列，集成在 v3.7.0 版本里。它不是一个单独的项目，而是 PaddleOCR 这个大盘子里最核心的引擎。

核心功能：**把图片里的文字检测出来，再识别出来**。支持横排、竖排、倾斜、弯曲文字，以及身份证、发票、截图、证件、文档等各种场景。

核心能力

精度大幅提升
相比 PP-OCRv5，检测精度 +4.6%，识别精度 +5.1%。Medium 版本（34.5M 参数）在公开基准上超越了规模大几十倍的通用视觉语言模型。官方评测说比 Qwen3-VL-235B 和 GPT-5.5 准——这个说法可能有点营销味道，但小模型打赢大模型这事，在特定任务上确实有可能发生。

50 语言单模型覆盖
一个模型支持中英日韩 + 46 种拉丁语系语言。不需要切换语言模型，不需要预先判断语种，一张图里混着中文和英文直接出结果。这对做国际化文档处理的企业非常实用。

三个档位适配不同场景

Tiny：1.5M 参数，边缘设备首选，树莓派级别硬件能跑
Small：7.7M 参数，移动端平衡之选
Medium：34.5M 参数，服务端最高精度

推理速度
OpenVINO 加速后 CPU 提速 5.2 倍；Apple M4（tiny 版本）提速 6.1 倍；A100 GPU 上端到端只需 0.13 秒。官方还给出了 ONNX 导出支持，可以摆脱 PaddlePaddle 框架直接跑。

专项场景增强
数字屏幕字符、点阵字、轮胎印、工业铭牌等专项识别都有大幅改进。这块是 v6 相比 v5 进步最明显的地方。

生态集成
已被 Dify、RAGFlow、Cherry Studio、Pathway 等主流 RAG/Agent 平台采用。HuggingFace 和 ModelScope 都可以直接下载模型。Python pip 一行安装。

怎么用

pip install paddleocr

# 5 行代码搞定
from paddleocr import PaddleOCR

ocr = PaddleOCR(lang='ch', use_angle_cls=True)
result = ocr.ocr('image.jpg')

for line in result[0]:
    print(line[1][0], line[1][1])

服务端部署也简单，Docker 一键跑起来：

docker run -d -p:8866:8866 paddlepaddle/paddleocr-serving:latest

ONNX 推理不需要 PaddlePaddle 框架，兼容性更好。

不只是文字识别

PaddleOCR 整个工具箱还包含：

PP-StructureV3：文档版面分析 + 表格提取 + 公式识别 + Markdown/JSON 输出
PaddleOCR-VL-1.6：0.9B 参数 VLM 级别的文档解析，OmniDocBench 96.3% 精度
PP-DocTranslation：文档翻译
PaddleOCR.js：浏览器端运行

槽点

PaddlePaddle 框架偏重。 不跑 ONNX 的话，需要装 PaddlePaddle——这个框架安装有时候会遇到 CUDA 版本、protobuf 依赖之类的问题。ONNX 导出是更好的出路。
文档质量参差不齐。 官方文档示例很多，但版本更迭快，很多 GitHub issues 里的解决方案对新版本已经失效。需要自己多试。
中文以外语言的精度不透明。 官方秀的主要是中文和英文的基准数据，其他语言（尤其是小语种）的实际精度到底如何，没有太多公开评测。
模型体积和速度的取舍。 Tiny 版本 1.5M 跑得快但精度一般；Medium 版本 34.5M 精度好但对边端不友好。需要根据实际场景选。

维度	PP-OCRv6	EasyOCR	Tesseract
Stars	70K ⭐	27K	5K (老牌)
语言覆盖	50 语言单模型	80+ 语言	100+ 语言
速度（CPU）	✅ OpenVINO 5.2× 加速	⚠️ 较慢	✅ 快速
表格/公式	✅ PP-StructureV3	❌	❌
RAG/Agent 集成	✅ Dify/RAGFlow 等	⚠️ 需自行对接	❌

一句话总结

如果你在做 RAG、知识库、文档自动化、发票识别、内容提取——PaddleOCR 的 PP-OCRv6 是目前综合性价比最高的开源选择。精度够、速度快、50 语言一网打尽、生态完善。唯一要做的就是搞定安装（建议走 ONNX 路线绕过 PaddlePaddle 依赖问题）。

GitHub：https://github.com/PaddlePaddle/PaddleOCR
官网：https://www.paddleocr.com

关注我，每期分享一个帮你省事的强大工具 🛠️

PP-OCRv6：百度开源 OCR 引擎，50 语言 + 精度提升 5%，RAG 文档处理首选

是什么

核心能力

怎么用

不只是文字识别

槽点

同类对比

一句话总结

💬 评论区（0 条评论）

📤 分享这篇文章

📌 相关推荐

Parsec：连接工作与游戏的低延迟远程桌面神器

Chatwoot：开源客服系统，替代 Intercom 与 Zendesk

my-tv：纯C写的电视直播App，32K星标，13MB装下千个频道

Open Notebook：NotebookLM 开源替代，自托管 AI 笔记 + 播客生成，28.7K Stars

PlainApp：5.3K Star 的开源手机管理神器，浏览器直接管手机

MinerU-Popo：4B 参数打赢 32B，PDF 后处理的新答案

是什么

核心能力

怎么用

不只是文字识别

槽点

同类对比

一句话总结

💬 评论区 （0 条评论）

📤 分享这篇文章

📌 相关推荐

Parsec：连接工作与游戏的低延迟远程桌面神器

Chatwoot：开源客服系统，替代 Intercom 与 Zendesk

my-tv：纯C写的电视直播App，32K星标，13MB装下千个频道

Open Notebook：NotebookLM 开源替代，自托管 AI 笔记 + 播客生成，28.7K Stars

PlainApp：5.3K Star 的开源手机管理神器，浏览器直接管手机

MinerU-Popo：4B 参数打赢 32B，PDF 后处理的新答案

微信扫码分享

📬 意见反馈

💬 评论区（0 条评论）