OCR 是个老问题了——把扫描件、截图、照片里的文字提取出来,听起来简单,但真要做到速度快、精度高、支持多语言、还能在边端跑——没几个方案能同时做到。
百度的 PaddleOCR 现在冲到了 70K ⭐,是全球最大的开源 OCR 项目。而 PP-OCRv6 是它家最新的检测+识别引擎,在 v3.7.0 里正式发布。相比 v5,检测精度 +4.6%,识别精度 +5.1%,CPU 推理提速 5.2 倍。最离谱的是:只有 34.5M 参数,精度却超过了 Qwen3-VL-235B 和 GPT-5.5。

是什么
PP-OCRv6 是 PaddleOCR 的文字检测+识别模型系列,集成在 v3.7.0 版本里。它不是一个单独的项目,而是 PaddleOCR 这个大盘子里最核心的引擎。
核心功能:**把图片里的文字检测出来,再识别出来**。支持横排、竖排、倾斜、弯曲文字,以及身份证、发票、截图、证件、文档等各种场景。
核心能力
精度大幅提升
相比 PP-OCRv5,检测精度 +4.6%,识别精度 +5.1%。Medium 版本(34.5M 参数)在公开基准上超越了规模大几十倍的通用视觉语言模型。官方评测说比 Qwen3-VL-235B 和 GPT-5.5 准——这个说法可能有点营销味道,但小模型打赢大模型这事,在特定任务上确实有可能发生。
50 语言单模型覆盖
一个模型支持中英日韩 + 46 种拉丁语系语言。不需要切换语言模型,不需要预先判断语种,一张图里混着中文和英文直接出结果。这对做国际化文档处理的企业非常实用。
三个档位适配不同场景
- Tiny:1.5M 参数,边缘设备首选,树莓派级别硬件能跑
- Small:7.7M 参数,移动端平衡之选
- Medium:34.5M 参数,服务端最高精度
推理速度
OpenVINO 加速后 CPU 提速 5.2 倍;Apple M4(tiny 版本)提速 6.1 倍;A100 GPU 上端到端只需 0.13 秒。官方还给出了 ONNX 导出支持,可以摆脱 PaddlePaddle 框架直接跑。
专项场景增强
数字屏幕字符、点阵字、轮胎印、工业铭牌等专项识别都有大幅改进。这块是 v6 相比 v5 进步最明显的地方。
生态集成
已被 Dify、RAGFlow、Cherry Studio、Pathway 等主流 RAG/Agent 平台采用。HuggingFace 和 ModelScope 都可以直接下载模型。Python pip 一行安装。
怎么用
pip install paddleocr
# 5 行代码搞定
from paddleocr import PaddleOCR
ocr = PaddleOCR(lang='ch', use_angle_cls=True)
result = ocr.ocr('image.jpg')
for line in result[0]:
print(line[1][0], line[1][1])
服务端部署也简单,Docker 一键跑起来:
docker run -d -p:8866:8866 paddlepaddle/paddleocr-serving:latest
ONNX 推理不需要 PaddlePaddle 框架,兼容性更好。
不只是文字识别
PaddleOCR 整个工具箱还包含:
- PP-StructureV3:文档版面分析 + 表格提取 + 公式识别 + Markdown/JSON 输出
- PaddleOCR-VL-1.6:0.9B 参数 VLM 级别的文档解析,OmniDocBench 96.3% 精度
- PP-DocTranslation:文档翻译
- PaddleOCR.js:浏览器端运行
槽点
- PaddlePaddle 框架偏重。 不跑 ONNX 的话,需要装 PaddlePaddle——这个框架安装有时候会遇到 CUDA 版本、protobuf 依赖之类的问题。ONNX 导出是更好的出路。
- 文档质量参差不齐。 官方文档示例很多,但版本更迭快,很多 GitHub issues 里的解决方案对新版本已经失效。需要自己多试。
- 中文以外语言的精度不透明。 官方秀的主要是中文和英文的基准数据,其他语言(尤其是小语种)的实际精度到底如何,没有太多公开评测。
- 模型体积和速度的取舍。 Tiny 版本 1.5M 跑得快但精度一般;Medium 版本 34.5M 精度好但对边端不友好。需要根据实际场景选。
同类对比
| 维度 |
PP-OCRv6 |
EasyOCR |
Tesseract |
| Stars |
70K ⭐ |
27K |
5K (老牌) |
| 语言覆盖 |
50 语言单模型 |
80+ 语言 |
100+ 语言 |
| 速度(CPU) |
✅ OpenVINO 5.2× 加速 |
⚠️ 较慢 |
✅ 快速 |
| 表格/公式 |
✅ PP-StructureV3 |
❌ |
❌ |
| RAG/Agent 集成 |
✅ Dify/RAGFlow 等 |
⚠️ 需自行对接 |
❌ |
一句话总结
如果你在做 RAG、知识库、文档自动化、发票识别、内容提取——PaddleOCR 的 PP-OCRv6 是目前综合性价比最高的开源选择。精度够、速度快、50 语言一网打尽、生态完善。唯一要做的就是搞定安装(建议走 ONNX 路线绕过 PaddlePaddle 依赖问题)。
GitHub:https://github.com/PaddlePaddle/PaddleOCR
官网:https://www.paddleocr.com
关注我,每期分享一个帮你省事的强大工具 🛠️