RAGFlow企业开源知识库使用教程与部署指南

2026-06-18阅读 0热度 0

使用教程

上一篇章介绍了企业开源智能体Dify的使用教程，可以翻翻前面的内容回顾一下。当时外部连接知识库时选了RAGFlow，今天就来好好拆解一下这个工具的具体用法。

安装启动

项目Clone到本地之后，同样用Docker方式进行安装。具体安装方式和Dify类似，但有一点要注意：如果使用CPU，安装时用：

docker compose -f docker-compose.yml up -d

如果是GPU，则用：

docker compose -f docker-compose-gpu.yml up -d

具体安装流程可以参照官方文档提供的下图：

这里要提醒一句：不推荐个人电脑安装RAGFlow，无论是Mac还是Windows系统，坑比较多。建议直接上Linux服务器，配置也尽量高一些。官方推荐的最低配置如下：

综合推荐配置：CPU至少8核，内存最低32G，硬盘直接上固态，空间尽可能大。有条件的话上GPU最好，推荐RTX 4060保底。

为什么RAGFlow的硬件配置要求这么高，远高于Dify？最核心的原因是：它是最接近企业级的RAG知识库系统。对文档进行embedding处理时会消耗大量显存和算力，它背后能处理的远不只是文档里的文字，还提供了一系列OCR（光学字符识别）、TSR（表结构识别）和DLR（文档布局识别）等视觉模型来深度处理文档。此外，在往向量数据库（默认是Faiss，但可配置成其他数据库）存储时，尤其是初始构建索引阶段，CPU和内存的消耗也非常可观。

使用前配置

启动之后，先别急着往里塞文件，配置工作得走在前面。

首先，需要在设定中添加并配置一些模型。配置方法和之前写过的配置Dify中模型的方法一样——添加API-KEY或一些Secret。但作为一款专业的RAG知识库系统，除了最低需要Embedding模型和Chat模型外，强烈建议再配置Rerank、TTS、Img2txt等模型。

配置完后，还需要把默认模型也设置好。

其次，企业在使用时，权限设置这一步不能省略。这块内容比较多，这里就不详细展开了。

最后，如果你的知识库要对外开放API，让其他系统调用，记得创建API KEY。

功能介绍

下面进入核心功能。从界面来看有5个模块，但最核心的其实就两个：知识库（重中之重）和聊天，其他三个更多是辅助角色。有人可能要说了，平台也有Agent智能体功能啊。但实际用下来，只能说简单的场景还能应付，复杂场景下支持力度有限，算不上好用。

先从非核心功能快速过一遍：

文件管理

顾名思义，就是管理你上传的各种知识库文件，没什么特别需要解释的。

搜索

偏重于对知识库文件内容进行检索，会显示内容出处（检索片段）。

这个功能和最上面的【聊天】菜单需要区分开。官方也对二者的区别做了说明：

相对而言，AI Chat（聊天菜单）的检索策略更丰富、更灵活，并且支持多轮对话。后面演示聊天功能时，大家能直观感受到差异。

Agent

从下图可以看到，预置了一些智能体模板，但数量不多。

整体使用以拖拽组件形成工作流为主，和Dify的用法差不多，这里不再重复讲解了。例如下面创建的HP客服智能体：

由于可用的组件和扩展性有限，加上产品定位是知识库，Agent只能起到辅助作用。当然，如果不想再找其他智能体产品，想在RAGFlow上一站搞定，也没问题。

知识库

在知识库菜单，先创建一个新的知识库：

创建后可以看到左侧有三个菜单：

数据集：后续上传文件的地方。
检索测试：对已构建的知识库进行简单搜索测试。
第三个也是最最最重要、最最最复杂的部分：创建知识库时的各种设置。如果缺少RAG基础，强烈建议先补一下相关知识，否则这个菜单很难用明白。总的来说，如果别人已经创建好知识库你只管用，那没问题；但如果你要自己创建知识库，RAG和大模型方向的知识储备是必不可少的，否则用起来会磕磕绊绊。

配置中的基础部分

包含【知识库名称】、【知识库图片】、【描述】和【权限】。前三部分很直观，重点说下【权限】。

可以看到，权限部分除了对用户权限进行管理，还可以设置每个用户的具体操作权限——读、写和管理，颗粒度做得比较细。

配置中的文档解析部分

这部分最复杂也最核心。先看两个最固定的选项：【PDF解析器】和【嵌入模型】。

嵌入模型：没什么多说的，就是从配置好的模型厂商下选一个Embedding模型即可。但有一个坑要注意：如果知识库创建后检索时报错，很可能是在embedding过程中间出了问题。比如之前选择了百度bge-large-zh这个模型，检索时会出现一二维向量不匹配的错误，换成阿里的text-embedding-v3后重新向量化一遍就好了。

PDF解析器：看名字就知道，专门针对PDF格式。除了自添加的Img2txt模型外，默认提供DeepDoc和Native两个模型。选择Native会加快Embedding速度，因为只提取PDF纯文本内容；如果还想提取PDF中图片里的文字，可以选择DeepDoc或自添加的Img2txt模型，但解析时间会相应增加。

如果不知道某项设置怎么用，可以把鼠标移到项目旁边的问号“？”上，会显示含义和使用方法，也可以跳转到官方文档查看更详细的说明。

切片方法

这是RAGFlow整体工具最核心的部分，也是它成为最接近企业级知识库的原因——提供了多种不同的切片方法，支持对各种不同类型的文档进行精准切片。

默认的切片选项是【General】，它的使用方法和切片配置项对应下图绿色部分：

换成【Q&A】切片方式后，使用方法和切片配置项都会随之变化（下图绿色部分）。

再换一下，切片方法换成【Manual】，又变了，这次支持更复杂的PDF格式：

到这里应该能感受到它的强大了：针对不同的使用场景，提供了多种切片方法，每个方法都有自己的切片规则、使用方法和支持的文档类型。值得一提的是，有的切片方法还支持知识图谱，可以让知识库检索更精准（GraphRAG稍微复杂，可以私下查一下，这里不展开）。每个具体切片类型的使用方法直接参照官方文档即可。下面介绍具体的切片类型：

切片类型	适用场景	支持格式
General	通用，适用于大多数场景，支持OCR	PDF、Doc、Excel、PPT、IMAGE、HTML等
Q&A	知识问答场景，需构建Q&A键值对	Excel、CSV、TXT
Resume	个人简历搜索场景，左右结构	DOCX、PDF、TXT
Manual	复杂PDF解析，文档分层多、格式复杂多变	PDF
Table	表格解析场景	Excel、CSV、TXT
Paper	论文解析场景	PDF
Book	书籍解析	Word、PDF、TXT
Laws	法律文件解析	Word、PDF、TXT
Presentation	PPT幻灯片切片	PPT、PDF
One	文档只有整体一部分的场景（如单页文档）	Word、Excel、PDF、TXT
Tag	标签场景。注意：Tag很特殊，以“标签”作为分块方法的知识库不参与RAG检索过程，每个文本分块是独立的标签和标签描述的文本对	Excel、CSV、TXT

下面演示一次实际的解析过程。手头有一份PDF文档《筑基御寒智胜未来：AI引领企业级降本增效新篇章》，属于研究报告性质，内容较复杂——既有文本、图表，也有图片。所以选择【Manual】切片方式，然后保存。

【数据集】菜单部分

切换到【数据集】菜单，上传知识库文件进行解析。可以选择创建时立即解析，或者先上传、稍后手动解析，都很灵活。

可以看到当前解析状态，有进度提示。这一步会比较慢，不用一直在页面等着，去做别的事，每次回到这个页面都能看到实时解析状态。

解析成功。

【检索测试】菜单部分

解析成功后，进入【检索测试】菜单。在测试内容中输入“打造 AI 驱动的企业级降本增效之路”，结果出来了。这个例子没有选择Rerank模型，如果想让检索效果更好，把相似度最高的结果排在最前面，可以加上Rerank模型。

到这里，RAGFlow最核心的【知识库】功能就讲解完了。可以结合自己的业务场景，选择合适的切片方法和参数配置（必要时考虑构建知识图谱），让文件向量化过程更高效，后续检索更精准。

聊天

最后一个大菜单：【聊天】。前面已经解释过它和【搜索】菜单的区别，下面看看具体怎么用。

进入聊天后，先新建一个助理：【聊天】->【新建助理】。在【助理设置】选项卡中，填写【助理名称】并选择一个【知识库】。这里选择之前创建过的人工智能资料解析知识库。

切换到【提示引擎】选项卡，必须填写系统提示词。这里先用默认的，其中引用了一个knowledge参数，所以要确保最底部的变量中包含knowledge参数并且是启用状态。

最后，切换到【模型设置】选项卡，必须选择一个聊天模型。这里选了deepseek-chat，其他参数保持默认，点击【确定】保存。

接下来就可以测试了。在刚才新建的助理菜单中，点击“+”号新建一个会话，输入查询内容，比如“第一章讲了什么”，然后回车或点击最右下角的【发送】按钮。

可以看到检索出了结果，并且给出了引用的知识库文件。

总结一下：【聊天】这一步就是传统的Chatbot——提前设置选定知识库（可选一个或多个），选定一个Chat对话模型，设定好提示词，然后提问对话。里面的检索参数这里都用的默认值，后续可以根据实际需求调整。如果不清楚各个参数的作用，建议先掌握RAG基础，然后参考每个项目旁边的问号“？”或官方文档去理解每一个参数的具体含义。

结语

到这里，RAGFlow的基础使用就讲完了。整体上串了一遍平台的使用流程，关于创建知识库和聊天这两个核心功能，演示时大部分参数也用了默认值。里面还藏着很多设置技巧和细节没有展开——包括知识图谱这种高级用法，后续会继续更新文章。至少看完这篇文章，能明白RAGFlow是做什么的、支持哪些切片方式、整体使用起来是什么感觉，这些理解已经足够了。