中科大与小红书开源SOTA OCR,文档结构还原测评
当处理海量文档中错综复杂的图表、表格及多语言内容时,传统 OCR 方案的局限性暴露无遗。症结在于:多数 OCR 引擎仅擅长纯文本识别,一旦遇到公式、UI 布局或结构化图表等复杂视觉元素,往往直接粗暴地将其裁剪为图片片段。最终结果——文档结构支离破碎,关键语义关联遗失殆尽,根本无法支撑高质量的信息提取与内容重构。
针对这一痛点,华中科技大学与小红书 hi lab 联合开源了一款全新工具——dots.mocr。其底层逻辑截然不同:它能够将文档内的文字、图表、表格乃至所有视觉组件统一解析为结构化数据。更关键的是,该工具甚至支持将图形直接转化为可编辑的 SVG 代码。这意味着文档理解的深度与广度实现了实质性跨越,在处理复杂文档的自动化管线中,已达到行业领先水平。
目前,HyperAI 官网(hyper.ai)的教程板块已经上线了「dots.mocr 多模态文档解析教程」,你可以直接在线体验这种全新的文档解析范式。
demo 运行
1. 进入 hyper.ai 首页后,选择「教程」页面,或者点击「查看更多教程」,找到「dots.mocr 多模态文档解析教程」,点击「在线运行此教程」。
2. 页面跳转后,点击右上角的「Clone」,把该教程克隆到自己的容器中。
注:页面右上角支持切换语言,提供中文和英文两种选择,下面以英文版为例展示操作步骤。
3. 选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,然后根据需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月)」,点击「Continue job execution(继续执行)」。
4. 等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。
效果演示
1. 页面跳转后,点击左侧的 README 页面,进入后点击上方的 Run(运行)。
2. 待运行完成,点击右侧的 API 地址跳转至 demo 页面。
成果展示












