LiteParse 是由 LlamaIndex 团队开源的一款文档解析库,核心采用 Rust 编写,定位十分清晰:完全本地运行,无需云端依赖、不调用大模型、也不需要 API Key。主打轻量和高速解析。
实测一份超过 400 页的 PDF,解析耗时仅 1 秒,结果相当惊艳。但平心而论,仔细评估后会发现,这几乎是目前它最显著的亮点。适用场景相对有限,遇到需要 OCR 处理的文档时,可以接入外部模型如 PaddleOCR。这部分我没来得及实测,但如果真能做到比直接调用外部 OCR 更快捷,那就非常有价值了。
另一个值得尝试的实战场景:把文字识别任务交给它,让更强大的模型专门处理表格、图片等复杂元素。这样速度、准确率与成本三者有望达到平衡,听起来相当理想。
概述
LiteParse 是 LlamaIndex 团队开源的一款 PDF 解析库,核心由 Rust 实现,基于 PDFium 进行文本抽取,内置 Tesseract OCR 引擎。设计理念非常明确:纯本地运行,不需要任何云服务、LLM 接口或 API Key。
这里需要厘清 LlamaParse 与 LiteParse 的区别。LlamaParse 是 LlamaIndex 的云端文档解析服务,擅长处理复杂表格、多栏排版、手写体等棘手文档。LiteParse 则是其轻量本地版本,更适合快速批量处理、离线环境以及数据隐私敏感的场景。两者相互补充,不存在替代关系。
下图展示了 LiteParse 的完整工作流程:
LiteParse 整体架构流程图
来看几个关键特性:
- Rust 性能底座:核心全部用 Rust 实现,解析 3 页 PDF 耗时不到 1 秒
- 多语言绑定:Node.js、Python、Rust、浏览器 WASM 四种用法任意选择,CLI 命令完全一致
- 灵活 OCR 系统:内置 Tesseract 零配置即可使用,还支持 HTTP OCR Server(可接入 EasyOCR、PaddleOCR 等)
- 多格式输入:支持 PDF、DOCX、XLSX、PPTX 以及多种图片格式,Office 文档通过 LibreOffice 自动转换
- Bounding Box:每个文本块都附带精确坐标,后续 AI 流水线可直接使用
- Agent Skill 支持:一行命令即可安装到编码 Agent 中,Claude Code、Cursor、Qoder 都能直接调用
安装
三行命令任选其一,安装后都会获得统一的 lit CLI 命令:
# Node.js(推荐,实测使用此路径)
npm i -g @llamaindex/liteparse
# Python
pip install liteparse
# Rust
cargo install liteparse
安装完成后验证:
$ lit --version
2.0.0
有个小插曲:npm registry 上显示的包版本为 2.0.4,但实际安装后 lit --version 显示 2.0.0。可能是版本号未同步到 binary 中,不过不影响正常使用。
实测
用一份真实的 MiniMax IPO 辅导备案报告(3 页中文 PDF)进行测试:
文本解析(关闭 OCR):
$ lit parse minimax-ipo-counseling.pdf --no-ocr -o output.txt
[liteparse] extract: 949.4ms (3 pages)
[liteparse] ocr: 0.0ms
[liteparse] project: 3.6ms
[liteparse] total: 953.1ms
不到 1 秒完成 3 页,提取出 113 行文本、5120 字节。正文标题、表格内容、公司基本情况全部成功抓取:
关于 MiniMax Group Inc.首次公开发行股票并上市辅导备案报告
成立日期 2021 年 6 月 30 日
注册资本 50,000 美元
辅导协议签署时间 2026 年 5 月 29 日
JSON 格式输出(带 Bounding Box):
$ lit parse minimax-ipo-counseling.pdf --format json --no-ocr -o output.json
[liteparse] extract: 5.6ms (3 pages)
[liteparse] total: 6.0ms
第二次运行由于有缓存,仅耗时 6 毫秒。JSON 中每个文本块都携带坐标信息,共 47KB 结构化数据。
默认 OCR 模式:
$ lit parse minimax-ipo-counseling.pdf --target-pages "1"
[liteparse] extract: 29.9ms (1 pages)
[liteparse] ocr render: 2.3ms (0 pages)
[liteparse] ocr: 0.0ms
[liteparse] total: 37.8ms
这里有个智能判断:该 PDF 本身包含可提取文本,因此 OCR 模块直接跳过(0 pages),避免无意义的重复处理。
截图生成:
$ lit screenshot minimax-ipo-counseling.pdf --target-pages "1-3" --dpi 150 -o ./screenshots
生成 3 张 PNG,每张 1240×1754 分辨率,8-bit RGBA。此功能对需要多模态 LLM 处理文档的场景非常实用。
批量解析:
$ lit batch-parse ./inputs ./outputs --format text --no-ocr --extension .pdf
[liteparse] found 1 files to process
[liteparse] batch complete: 1 succeeded, 0 failed
一条命令递归扫描目录,批量输出结果,效率很高。
Agent Skill
LiteParse 可以直接安装为编码 Agent 的 Skill,这是它的一个杀手级特性:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
安装完成后,编码 Agent 就能直接解析 PDF、生成截图、提取文本。Claude Code、Cursor、Qoder 等 Agent 工具均支持。实测安装后 npx skills list 能看到 liteparse 已成功注册。
使用场景举例:
- 让 Agent 直接解析合同 PDF 抽取关键条款
- 批量截图文档页面供多模态 LLM 理解
- 在 Agent 工作流中直接嵌入文档解析环节
OCR 配置
内置 Tesseract 零配置即可使用,指定语言即可:
# 中文
lit parse document.pdf --ocr-language chi_sim
# 法语
lit parse document.pdf --ocr-language fra
# 关闭 OCR(纯文本 PDF)
lit parse document.pdf --no-ocr
如果需要更高精度,可以接入一个 HTTP OCR Server:
# 启动 PaddleOCR Server
cd liteparse/ocr/paddleocr && python server.py
# 指定 OCR Server 解析
lit parse document.pdf --ocr-server-url http://localhost:8828/ocr
OCR API 规范相当简单:一个 POST /ocr 端点,接收图片,返回 { results: [{ text, bbox, confidence }] }。如果有需要,自己实现一个也并不复杂。
优缺点
优点:
- 速度极快,得益于 Rust 底层,3 页 PDF 不到 1 秒
- 安装简便,npm/pip/cargo 三选一,开箱即用
- OCR 系统设计灵活,内置 Tesseract,可插拔外部服务
- Agent Skill 支持使其在 AI 工作流中如虎添翼
- 纯本地运行,数据不出门,合规无忧
局限:
- 表格抽取仅为空间文本重建,不做结构化表格识别(严肃表格场景需配合 LlamaParse 云端版)
- 多栏排版、复杂版式的还原能力有限
- 当前 Skill 文档与 CLI 实际参数存在不一致(例如截图命令
--pages vs --target-pages),新项目迭代频繁可以理解
总结
LiteParse 的定位非常清晰:轻量、本地、快速的文档解析底座。它适合需要批量处理 PDF、对延迟敏感、注重数据隐私的场景。它不试图解决所有文档解析难题,但在擅长的领域做得足够好。
如果你正在构建 RAG 管线预处理、Agent 工具链搭建,或者需要离线文档处理,这个工具值得一试。