百度千帆发布端到端文档智能模型Qianfan-OCR:4B参数,登顶OmniDocBench
百度千帆端到端文档智能模型:Qianfan-OCR以4B参数量问鼎OmniDocBench
百度千帆于3月19日发布端到端文档智能模型Qianfan-OCR。该模型基于统一视觉语言架构设计,仅以4B参数即可完成从文档解析、版面分析到文字识别与深度语义理解的全流程任务。在多项权威基准测试中,其性能表现已确立领先地位。
目前,Qianfan-OCR已在千帆平台企业版上线,供开发者与企业用户直接调用。同时,百度已在HuggingFace平台开源模型权重,此举大幅降低了技术应用与社区研究门槛。
该模型的核心能力由数据充分验证。在综合文档理解基准OmniDocBench v1.5中,Qianfan-OCR以93.12的分数位居端到端模型榜首。于OCRBench测试中,其成绩显著超越同规模通用视觉模型及专用OCR模型。在关键信息提取等高阶任务中,该模型于多个公开榜单的总分亦实现突破,综合表现优于Google Gemini 3-Pro等顶级商业模型。

面对图表理解这一复杂场景,其端到端架构优势更为显著。Qianfan-OCR在ChartQA、ChartBench等六项主流图表理解评测中,斩获五项最优成绩,印证了其在结构化解析与多模态逻辑推理方面的顶尖能力。
这凸显了传统OCR技术路线的固有瓶颈。主流方案通常采用“检测、识别、大语言模型理解”的级联架构。该多阶段流程虽成熟,但存在误差逐级累积的显著风险。更关键的是,在离散的文本提取过程中,文档原有的版面结构、视觉关联等富信息极易丢失,导致其在处理复杂图表与表单时,理解深度与准确性受限。
Qianfan-OCR的突破在于对架构的根本性重塑。通过统一的视觉语言模型,它能从文档图像直接端到端地输出结构化理解结果。这一设计保证了从视觉信号输入到信息结构化输出的全过程连贯性,完整保留了文档的原始视觉上下文。本质上,它实现了从“视觉感知”到“语义理解”的单步跨越,使其在执行需要高精度结构一致性的任务时,具备更强的鲁棒性与准确性。
Qianfan-OCR在文档一体化智能理解上确立的优势,不仅验证了其模型设计的有效性,更明确了端到端技术路径的行业前瞻性。这预示着文档智能的核心范式,正从“多模块拼接”的工程化阶段,加速演进至“单一模型统一”的认知新阶段。