中科大与小红书开源SOTA OCR，文档结构还原测评

2026-06-12阅读 0热度 0

SOTA

当处理海量文档中错综复杂的图表、表格及多语言内容时，传统 OCR 方案的局限性暴露无遗。症结在于：多数 OCR 引擎仅擅长纯文本识别，一旦遇到公式、UI 布局或结构化图表等复杂视觉元素，往往直接粗暴地将其裁剪为图片片段。最终结果——文档结构支离破碎，关键语义关联遗失殆尽，根本无法支撑高质量的信息提取与内容重构。

针对这一痛点，华中科技大学与小红书 hi lab 联合开源了一款全新工具——dots.mocr。其底层逻辑截然不同：它能够将文档内的文字、图表、表格乃至所有视觉组件统一解析为结构化数据。更关键的是，该工具甚至支持将图形直接转化为可编辑的 SVG 代码。这意味着文档理解的深度与广度实现了实质性跨越，在处理复杂文档的自动化管线中，已达到行业领先水平。

目前，HyperAI 官网（hyper.ai）的教程板块已经上线了「dots.mocr 多模态文档解析教程」，你可以直接在线体验这种全新的文档解析范式。

demo 运行

1. 进入 hyper.ai 首页后，选择「教程」页面，或者点击「查看更多教程」，找到「dots.mocr 多模态文档解析教程」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角的「Clone」，把该教程克隆到自己的容器中。

注：页面右上角支持切换语言，提供中文和英文两种选择，下面以英文版为例展示操作步骤。

3. 选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，然后根据需求选择「Pay As You Go（按量付费）」或「Daily Plan/Weekly Plan/Monthly Plan（包日/周/月）」，点击「Continue job execution（继续执行）」。