PaddleOCR-VL-1.6 文档解析准确率 96.33% 刷新 SOTA 记录
96.33%的准确率,综合性能全球第一,超越Gemini-3-Pro、GPT-5.2等知名模型——百度最新发布的PaddleOCR-VL-1.6,将文档理解能力再次推上新高度。
△在OmniDocBench v1.6上,PaddleOCR-VL-1.6在多项能力中实现SOTA
在OmniDocBench v1.6权威评测中,该模型综合得分达到96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等竞品。在面向真实复杂场景的Real5-OmniDocBench评测中,它拿下93.19%的总分,领先Gemini-3-Pro近4个百分点。从扫描件到弯折文档,从屏幕拍照到光照变化、倾斜文档,五大真实场景下均表现强势。
在文本、公式、表格等核心识别项上,PaddleOCR-VL-1.6全面领先主流开源与闭源方案。尤其在表格、古籍、生僻字等高难度场景提升显著,印章识别、Spotting定位、图表理解等能力同步增强,为文档数字化落地提供实质性支撑。
PaddleOCR-VL-1.6基于文心大模型训练,是文心多模态能力的关键组成部分。支持超100种语言,覆盖170多个国家和地区。相较上一代PaddleOCR-VL-1.5,本次升级聚焦于模型驱动的数据构建机制与渐进式训练优化。在保持0.9B轻量化架构不变的基础上,准确率与复杂场景适应能力均显著提升。由于两代模型结构一致,开发者和企业用户可平滑迁移,免去适配成本。
PaddleOCR系列在文档理解赛道上持续迭代。从PaddleOCR-VL到VL-1.5,再到如今的1.6,每代版本都展现出清晰的技术演进路径。上一代VL-1.5首次支持异形框定位,在真实场景中已展现强大解析能力。目前该项目GitHub Star数突破79.2K,超越谷歌开源的Tesseract OCR,成为全球开发者最受欢迎的开源OCR项目之一。
PaddleOCR-VL-1.6现已正式登陆PaddleOCR官网,提供网页端及API调用。模型代码与权重同步开源至GitHub和Hugging Face,全球开发者可自由下载使用。
- PaddleOCR官方网站:paddleocr.com
- GitHub仓库:github.com/PaddlePaddle/PaddleOCR
- Hugging Face模型:huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

