SOTA OCR模型开源:华中科大与小红书dots.mocr还原文档结构

2026-06-15阅读 0热度 0
SOTA

处理包含密集图表、复杂表格及多语种混排的文档时,传统OCR引擎的局限性暴露无遗。其核心瓶颈在于只擅长纯文本提取,一旦遇到图表、数学公式、UI界面等非文本视觉元素,便会粗暴截取为图片——导致原始文档的结构崩塌,上下文语义断裂,最终无法实现高精度的信息抽取与结构化重建。

解决方案已经落地。华中科技大学与小红书hi lab联合开源的dots.mocr,提供了一条高效路径。该模型能够将文档中的文本、图表、表格等全部视觉元素,统一转化为结构化数据,并且可直接将图形输出为可编辑的SVG代码。这意味着文档理解的维度与精度显著提升,在自动化处理复杂文档的实战场景中,已具备行业领先水准。

现在,OpenBayes官网教程区正式推出了「dots.mocr 多模态文档解析教程」,支持在线即时运行,零门槛体验新一代多模态文档解析工作流。

立即在线运行:https://go.openbayes.com/anjRI

下面进入实操演示,验证实际表现。

运行效果演示

01 环境配置与启动

1. 访问 OpenBayes.com,进入「公共教程」模块,搜索并打开「dots.mocr 多模态文档解析」教程。

2. 在教程详情页右上角点击「克隆」,将该教程复制至个人容器。

3. 配置算力资源,选择「NVIDIA GeForce RTX 5090」搭配「PyTorch」镜像,单击「继续执行」启动任务。

4. 等待资源调度就绪,状态切换为「运行中」后,点击「打开工作空间」进入Jupyter Workspace界面。

02 实际效果验证

进入工作空间后,选中左侧的README文件,再点击顶部工具栏的「运行」按钮。

待程序执行完毕,点击右侧显示的API地址,即可自动跳转至Demo交互界面。

以下为真实的解析效果截图:

完整教程地址:https://go.openbayes.com/anjRI

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策