百度千帆发布端到端文档智能模型Qianfan-OCR：4B参数，登顶OmniDocBench

2026-05-06阅读 0热度 0

其他

百度千帆端到端文档智能模型：Qianfan-OCR以4B参数量问鼎OmniDocBench

百度千帆于3月19日发布端到端文档智能模型Qianfan-OCR。该模型基于统一视觉语言架构设计，仅以4B参数即可完成从文档解析、版面分析到文字识别与深度语义理解的全流程任务。在多项权威基准测试中，其性能表现已确立领先地位。

目前，Qianfan-OCR已在千帆平台企业版上线，供开发者与企业用户直接调用。同时，百度已在HuggingFace平台开源模型权重，此举大幅降低了技术应用与社区研究门槛。

该模型的核心能力由数据充分验证。在综合文档理解基准OmniDocBench v1.5中，Qianfan-OCR以93.12的分数位居端到端模型榜首。于OCRBench测试中，其成绩显著超越同规模通用视觉模型及专用OCR模型。在关键信息提取等高阶任务中，该模型于多个公开榜单的总分亦实现突破，综合表现优于Google Gemini 3-Pro等顶级商业模型。

百度千帆发布端到端文档智能模型Qianfan-OCR：4B参数，登顶OmniDocBench

面对图表理解这一复杂场景，其端到端架构优势更为显著。Qianfan-OCR在ChartQA、ChartBench等六项主流图表理解评测中，斩获五项最优成绩，印证了其在结构化解析与多模态逻辑推理方面的顶尖能力。

这凸显了传统OCR技术路线的固有瓶颈。主流方案通常采用“检测、识别、大语言模型理解”的级联架构。该多阶段流程虽成熟，但存在误差逐级累积的显著风险。更关键的是，在离散的文本提取过程中，文档原有的版面结构、视觉关联等富信息极易丢失，导致其在处理复杂图表与表单时，理解深度与准确性受限。

Qianfan-OCR的突破在于对架构的根本性重塑。通过统一的视觉语言模型，它能从文档图像直接端到端地输出结构化理解结果。这一设计保证了从视觉信号输入到信息结构化输出的全过程连贯性，完整保留了文档的原始视觉上下文。本质上，它实现了从“视觉感知”到“语义理解”的单步跨越，使其在执行需要高精度结构一致性的任务时，具备更强的鲁棒性与准确性。

Qianfan-OCR在文档一体化智能理解上确立的优势，不仅验证了其模型设计的有效性，更明确了端到端技术路径的行业前瞻性。这预示着文档智能的核心范式，正从“多模块拼接”的工程化阶段，加速演进至“单一模型统一”的认知新阶段。

百度千帆发布端到端文档智能模型Qianfan-OCR：4B参数，登顶OmniDocBench

百度千帆端到端文档智能模型：Qianfan-OCR以4B参数量问鼎OmniDocBench

相关阅读

最新教程

最新资讯