K星开源!知识库史诗级更新:像素级原生搜索
为什么你需要像素级搜索?传统RAG的痛点
知识库构建离不开RAG,传统做法是先将网页、PDF、文档剥离为纯文本,再执行分块、向量化、检索,最后交由大模型作答。这套流程处理纯文本内容表现良好,但一旦涉及表格、图表、版式布局、信息图或复杂网页结构,极易丢失关键上下文信息。
人类浏览网页时依赖视觉整体感知,为何AI检索偏偏要先剥离页面为文本?PixelRAG将网页和文档渲染为截图,直接基于图像内容进行检索,让模型完整保留页面的原始视觉结构。
PixelRAG 核心原理:以截图替代文本解析
PixelRAG 是一个像素原生的开源视觉RAG项目,它将网页、PDF、图片等文档渲染为截图切片,直接对这些图像构建向量索引并执行检索。这样,大模型就能利用表格、图表、布局、信息图等传统文本解析容易遗漏的信息来给出精确回答。
不仅可以按文本内容搜索文档,还能按文档视觉呈现效果进行搜索。
功能特点
1. 以截图替代文本解析
PixelRAG 的核心并不是先将网页HTML或PDF解析成纯文本,而是将页面渲染为截图切片。这最大限度地保留了页面原始的视觉信息,包括表格结构、图表位置、页面布局、字号层级以及信息密度。
2. 更适合处理复杂视觉文档
传统RAG在处理复杂表格、图表、论文截图、仪表盘、网页报告时,常因解析失败或结构丢失导致回答错误。PixelRAG 通过视觉检索,让模型看到更接近人眼观察到的页面内容,尤其适合视觉结构密集的知识材料。
3. 支持网页、PDF和图片等多种输入
项目提供的 pixelshot 命令可将网页、PDF、本地文件渲染为截图 tiles。用户可以对单个网页截图,也可以将本地文档批量转换为可检索的视觉数据。
4. 内置完整检索流水线
PixelRAG 不只是一款截图工具,还提供了从文档渲染、切块、嵌入、构建 FAISS 索引到启动搜索 API 的全链路流程。
5. 使用视觉嵌入模型进行检索
采用经过网页截图数据 LoRA 微调的 Qwen3-VL-Embedding 模型,将页面截图嵌入到可检索的向量空间。相比传统文本向量,该方法更适合检索页面中的视觉内容。
6. 可作为 Claude Code 插件使用
PixelRAG 提供 pixelbrowse 插件,让 Claude Code 通过截图形式查看网页,而非仅读取网页 HTML。这样 AI 就能更准确地理解网页中的图表、表格以及页面排版。
DEMO 演示:2800万张维基百科的视觉检索
为直观展示像素原生检索的能力,官方制作了一个极具说服力的演示,有效证明了这套方案的可行性。
直接截取了 2800 多万张维基百科页面截图。
例如搜索“元素周期表”,仅需 2 秒即可完成。
该方案效果更佳,但未必更廉价——这 2800 万张图片的向量化工作并非由我完成,具体成本未知。
传统 RAG 中信息与样式丢失的体验确实令人困扰。现在能直接检索到带样式的页面内容,体验非常出色。
如需对数据做进一步处理,可直接借助视觉模型来完成后续步骤。
小提示
- 适用场景:当你的知识库包含大量表格、图表、信息图、复杂网页截图(如产品说明、研究报告、学术论文)时,PixelRAG 相比传统 RAG 效果提升显著。
- 部署注意:截图切片需要一定的渲染能力(如使用 Playwright 或 Puppeteer),建议在服务器上预先配置好浏览器环境。
- 成本权衡:视觉嵌入模型(Qwen3-VL-Embedding)的向量化计算成本高于文本嵌入,但检索精度更高。对于小规模文档(数千页以内),成本可控。
- 与 Claude Code 集成:安装
pixelbrowse插件后,Claude Code 即可“看到”网页截图,适用于需要 AI 理解网页设计、数据可视化的场景。
常见问题
Q1:PixelRAG 是否支持所有类型的PDF或网页?
A: 支持常见网页(HTML)和PDF文件。对于PDF,项目使用渲染引擎(如 Chromium)逐页转为截图,因此任何能被浏览器渲染的PDF都能处理。不过,扫描件(纯图片PDF)需要额外的OCR预处理,当前版本未包含此功能,建议先对扫描件进行文字识别。
Q2:PixelRAG 的检索准确率比传统RAG高多少?
A: 官方未发布精确对比数据,但从演示(2800万张维基百科图片的2秒检索)来看,对于包含表格、图表、布局的页面,PixelRAG 能直接匹配视觉特征(如颜色、位置、形状),而传统RAG可能丢失这些结构信息。实际使用中,若检索内容依赖视觉布局(例如图表中的趋势、表格中的行列关系),PixelRAG 的优势非常明显。
项目链接
https://github.com/StarTrail-org/PixelRAG