PaddleOCR-VL-1.5 PDF转MD懒人整合包:界面微调评测

2026-06-17阅读 0热度 0
人工智能

前言

这次继续把 FastAPI 的界面改成 Gradio 界面——前者更适合 API 调用,后者则更适合交互式操作。简单来说,就是把底层逻辑换了一层更友好的外衣。

本期更新主要集中在两个方向:

  • 只保留了 PDF 转 Markdown 和图片转 Markdown 两个功能,其他像 JSON、HTML、Excel 等格式都拿掉了。原因很简单:这两个场景的实用需求最强,其他格式转换在日常工作中间出现频率极低。
  • 只提供 GPU 版本,不再保留 CPU 版本。VL1.5 这个模型对显存要求不低,CPU 跑的耗时确实太长,等不起。所以如果你的机器没有 8GB 左右显存,可能需要绕道了。

下面是两个版本的对比图:

懒人包使用

使用方式没什么门槛——直接双击 start.bat 就行了。

接下来就是等待终端启动,大概十几秒吧:

启动成功后,浏览器会自动弹出网页界面。你只需要注意一个点——输出的 Markdown 文件会存放在 runtime 文件夹下的 outputs 目录里

Tips

目前试了几种 OCR 方案,只有这个 VL1.5 在 PDF 转 Markdown 上,识别率和排版效果都能打。其他方案,比如小红书的 OCR 根本不解析图片,PaddleOCR 的 PP-StructureV3 解析正确率还行,但 Markdown 排版总会有换行错乱等细节问题。

当然,代价是显存占用偏高。根据测试环境,VL1.5 大概需要 8GB 左右的显存才能流畅运行。如果你的显卡是 6GB 或者更低的,可能需要慎重考虑。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策