PaddleOCR-VL-1.6 文档解析准确率 96.33% 刷新 SOTA 记录

2026-06-03阅读 0热度 0

SOTA

96.33%的准确率，综合性能全球第一，超越Gemini-3-Pro、GPT-5.2等知名模型——百度最新发布的PaddleOCR-VL-1.6，将文档理解能力再次推上新高度。

△在OmniDocBench v1.6上，PaddleOCR-VL-1.6在多项能力中实现SOTA

在OmniDocBench v1.6权威评测中，该模型综合得分达到96.33%，超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等竞品。在面向真实复杂场景的Real5-OmniDocBench评测中，它拿下93.19%的总分，领先Gemini-3-Pro近4个百分点。从扫描件到弯折文档，从屏幕拍照到光照变化、倾斜文档，五大真实场景下均表现强势。

在文本、公式、表格等核心识别项上，PaddleOCR-VL-1.6全面领先主流开源与闭源方案。尤其在表格、古籍、生僻字等高难度场景提升显著，印章识别、Spotting定位、图表理解等能力同步增强，为文档数字化落地提供实质性支撑。

PaddleOCR-VL-1.6基于文心大模型训练，是文心多模态能力的关键组成部分。支持超100种语言，覆盖170多个国家和地区。相较上一代PaddleOCR-VL-1.5，本次升级聚焦于模型驱动的数据构建机制与渐进式训练优化。在保持0.9B轻量化架构不变的基础上，准确率与复杂场景适应能力均显著提升。由于两代模型结构一致，开发者和企业用户可平滑迁移，免去适配成本。

PaddleOCR系列在文档理解赛道上持续迭代。从PaddleOCR-VL到VL-1.5，再到如今的1.6，每代版本都展现出清晰的技术演进路径。上一代VL-1.5首次支持异形框定位，在真实场景中已展现强大解析能力。目前该项目GitHub Star数突破79.2K，超越谷歌开源的Tesseract OCR，成为全球开发者最受欢迎的开源OCR项目之一。

PaddleOCR-VL-1.6现已正式登陆PaddleOCR官网，提供网页端及API调用。模型代码与权重同步开源至GitHub和Hugging Face，全球开发者可自由下载使用。

PaddleOCR官方网站：paddleocr.com
GitHub仓库：github.com/PaddlePaddle/PaddleOCR
Hugging Face模型：huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

上一篇谷歌Gemini模型：Google I/O 2026筹备全攻略 下一篇GrapheneOS Speech Services v2 深度评测：隐私语音服务重大更新

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

PaddleOCR-VL-1.6 文档解析准确率 96.33% 刷新 SOTA 记录

相关阅读

最新教程

最新资讯