SOTA OCR模型开源:华中科大与小红书dots.mocr还原文档结构
处理包含密集图表、复杂表格及多语种混排的文档时,传统OCR引擎的局限性暴露无遗。其核心瓶颈在于只擅长纯文本提取,一旦遇到图表、数学公式、UI界面等非文本视觉元素,便会粗暴截取为图片——导致原始文档的结构崩塌,上下文语义断裂,最终无法实现高精度的信息抽取与结构化重建。
解决方案已经落地。华中科技大学与小红书hi lab联合开源的dots.mocr,提供了一条高效路径。该模型能够将文档中的文本、图表、表格等全部视觉元素,统一转化为结构化数据,并且可直接将图形输出为可编辑的SVG代码。这意味着文档理解的维度与精度显著提升,在自动化处理复杂文档的实战场景中,已具备行业领先水准。
现在,OpenBayes官网教程区正式推出了「dots.mocr 多模态文档解析教程」,支持在线即时运行,零门槛体验新一代多模态文档解析工作流。
立即在线运行:https://go.openbayes.com/anjRI
下面进入实操演示,验证实际表现。
运行效果演示
01 环境配置与启动
1. 访问 OpenBayes.com,进入「公共教程」模块,搜索并打开「dots.mocr 多模态文档解析」教程。
2. 在教程详情页右上角点击「克隆」,将该教程复制至个人容器。
3. 配置算力资源,选择「NVIDIA GeForce RTX 5090」搭配「PyTorch」镜像,单击「继续执行」启动任务。
4. 等待资源调度就绪,状态切换为「运行中」后,点击「打开工作空间」进入Jupyter Workspace界面。
02 实际效果验证
进入工作空间后,选中左侧的README文件,再点击顶部工具栏的「运行」按钮。
待程序执行完毕,点击右侧显示的API地址,即可自动跳转至Demo交互界面。
以下为真实的解析效果截图:
完整教程地址:https://go.openbayes.com/anjRI











