PaddleOCR-VL-1.6 文档解析准确率 96.33% 刷新 SOTA 记录

2026-06-03阅读 0热度 0
SOTA

96.33%的准确率,综合性能全球第一,超越Gemini-3-Pro、GPT-5.2等知名模型——百度最新发布的PaddleOCR-VL-1.6,将文档理解能力再次推上新高度。

△在OmniDocBench v1.6上,PaddleOCR-VL-1.6在多项能力中实现SOTA

在OmniDocBench v1.6权威评测中,该模型综合得分达到96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等竞品。在面向真实复杂场景的Real5-OmniDocBench评测中,它拿下93.19%的总分,领先Gemini-3-Pro近4个百分点。从扫描件到弯折文档,从屏幕拍照到光照变化、倾斜文档,五大真实场景下均表现强势。

在文本、公式、表格等核心识别项上,PaddleOCR-VL-1.6全面领先主流开源与闭源方案。尤其在表格、古籍、生僻字等高难度场景提升显著,印章识别、Spotting定位、图表理解等能力同步增强,为文档数字化落地提供实质性支撑。

PaddleOCR-VL-1.6基于文心大模型训练,是文心多模态能力的关键组成部分。支持超100种语言,覆盖170多个国家和地区。相较上一代PaddleOCR-VL-1.5,本次升级聚焦于模型驱动的数据构建机制与渐进式训练优化。在保持0.9B轻量化架构不变的基础上,准确率与复杂场景适应能力均显著提升。由于两代模型结构一致,开发者和企业用户可平滑迁移,免去适配成本。

PaddleOCR系列在文档理解赛道上持续迭代。从PaddleOCR-VL到VL-1.5,再到如今的1.6,每代版本都展现出清晰的技术演进路径。上一代VL-1.5首次支持异形框定位,在真实场景中已展现强大解析能力。目前该项目GitHub Star数突破79.2K,超越谷歌开源的Tesseract OCR,成为全球开发者最受欢迎的开源OCR项目之一。

PaddleOCR-VL-1.6现已正式登陆PaddleOCR官网,提供网页端及API调用。模型代码与权重同步开源至GitHub和Hugging Face,全球开发者可自由下载使用。

  • PaddleOCR官方网站:paddleocr.com
  • GitHub仓库:github.com/PaddlePaddle/PaddleOCR
  • Hugging Face模型:huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策