RAGFlow企业开源知识库使用教程与部署指南
上一篇章介绍了企业开源智能体Dify的使用教程,可以翻翻前面的内容回顾一下。当时外部连接知识库时选了RAGFlow,今天就来好好拆解一下这个工具的具体用法。
安装启动
项目Clone到本地之后,同样用Docker方式进行安装。具体安装方式和Dify类似,但有一点要注意:如果使用CPU,安装时用:
docker compose -f docker-compose.yml up -d
如果是GPU,则用:
docker compose -f docker-compose-gpu.yml up -d
具体安装流程可以参照官方文档提供的下图:
这里要提醒一句:不推荐个人电脑安装RAGFlow,无论是Mac还是Windows系统,坑比较多。建议直接上Linux服务器,配置也尽量高一些。官方推荐的最低配置如下:
综合推荐配置:CPU至少8核,内存最低32G,硬盘直接上固态,空间尽可能大。有条件的话上GPU最好,推荐RTX 4060保底。
为什么RAGFlow的硬件配置要求这么高,远高于Dify?最核心的原因是:它是最接近企业级的RAG知识库系统。对文档进行embedding处理时会消耗大量显存和算力,它背后能处理的远不只是文档里的文字,还提供了一系列OCR(光学字符识别)、TSR(表结构识别)和DLR(文档布局识别)等视觉模型来深度处理文档。此外,在往向量数据库(默认是Faiss,但可配置成其他数据库)存储时,尤其是初始构建索引阶段,CPU和内存的消耗也非常可观。
使用前配置
启动之后,先别急着往里塞文件,配置工作得走在前面。
首先,需要在设定中添加并配置一些模型。配置方法和之前写过的配置Dify中模型的方法一样——添加API-KEY或一些Secret。但作为一款专业的RAG知识库系统,除了最低需要Embedding模型和Chat模型外,强烈建议再配置Rerank、TTS、Img2txt等模型。
配置完后,还需要把默认模型也设置好。
其次,企业在使用时,权限设置这一步不能省略。这块内容比较多,这里就不详细展开了。
最后,如果你的知识库要对外开放API,让其他系统调用,记得创建API KEY。
功能介绍
下面进入核心功能。从界面来看有5个模块,但最核心的其实就两个:知识库(重中之重)和聊天,其他三个更多是辅助角色。有人可能要说了,平台也有Agent智能体功能啊。但实际用下来,只能说简单的场景还能应付,复杂场景下支持力度有限,算不上好用。
先从非核心功能快速过一遍:
文件管理
顾名思义,就是管理你上传的各种知识库文件,没什么特别需要解释的。
搜索
偏重于对知识库文件内容进行检索,会显示内容出处(检索片段)。
这个功能和最上面的【聊天】菜单需要区分开。官方也对二者的区别做了说明:
相对而言,AI Chat(聊天菜单)的检索策略更丰富、更灵活,并且支持多轮对话。后面演示聊天功能时,大家能直观感受到差异。
Agent
从下图可以看到,预置了一些智能体模板,但数量不多。
整体使用以拖拽组件形成工作流为主,和Dify的用法差不多,这里不再重复讲解了。例如下面创建的HP客服智能体:
由于可用的组件和扩展性有限,加上产品定位是知识库,Agent只能起到辅助作用。当然,如果不想再找其他智能体产品,想在RAGFlow上一站搞定,也没问题。
知识库
在知识库菜单,先创建一个新的知识库:
创建后可以看到左侧有三个菜单:
- 数据集:后续上传文件的地方。
- 检索测试:对已构建的知识库进行简单搜索测试。
- 第三个也是最最最重要、最最最复杂的部分:创建知识库时的各种设置。如果缺少RAG基础,强烈建议先补一下相关知识,否则这个菜单很难用明白。总的来说,如果别人已经创建好知识库你只管用,那没问题;但如果你要自己创建知识库,RAG和大模型方向的知识储备是必不可少的,否则用起来会磕磕绊绊。
配置中的基础部分
包含【知识库名称】、【知识库图片】、【描述】和【权限】。前三部分很直观,重点说下【权限】。
可以看到,权限部分除了对用户权限进行管理,还可以设置每个用户的具体操作权限——读、写和管理,颗粒度做得比较细。
配置中的文档解析部分
这部分最复杂也最核心。先看两个最固定的选项:【PDF解析器】和【嵌入模型】。
嵌入模型:没什么多说的,就是从配置好的模型厂商下选一个Embedding模型即可。但有一个坑要注意:如果知识库创建后检索时报错,很可能是在embedding过程中间出了问题。比如之前选择了百度bge-large-zh这个模型,检索时会出现一二维向量不匹配的错误,换成阿里的text-embedding-v3后重新向量化一遍就好了。
PDF解析器:看名字就知道,专门针对PDF格式。除了自添加的Img2txt模型外,默认提供DeepDoc和Native两个模型。选择Native会加快Embedding速度,因为只提取PDF纯文本内容;如果还想提取PDF中图片里的文字,可以选择DeepDoc或自添加的Img2txt模型,但解析时间会相应增加。
如果不知道某项设置怎么用,可以把鼠标移到项目旁边的问号“?”上,会显示含义和使用方法,也可以跳转到官方文档查看更详细的说明。
切片方法
这是RAGFlow整体工具最核心的部分,也是它成为最接近企业级知识库的原因——提供了多种不同的切片方法,支持对各种不同类型的文档进行精准切片。
默认的切片选项是【General】,它的使用方法和切片配置项对应下图绿色部分:
换成【Q&A】切片方式后,使用方法和切片配置项都会随之变化(下图绿色部分)。
再换一下,切片方法换成【Manual】,又变了,这次支持更复杂的PDF格式:
到这里应该能感受到它的强大了:针对不同的使用场景,提供了多种切片方法,每个方法都有自己的切片规则、使用方法和支持的文档类型。值得一提的是,有的切片方法还支持知识图谱,可以让知识库检索更精准(GraphRAG稍微复杂,可以私下查一下,这里不展开)。每个具体切片类型的使用方法直接参照官方文档即可。下面介绍具体的切片类型:
| 切片类型 | 适用场景 | 支持格式 |
|---|---|---|
| General | 通用,适用于大多数场景,支持OCR | PDF、Doc、Excel、PPT、IMAGE、HTML等 |
| Q&A | 知识问答场景,需构建Q&A键值对 | Excel、CSV、TXT |
| Resume | 个人简历搜索场景,左右结构 | DOCX、PDF、TXT |
| Manual | 复杂PDF解析,文档分层多、格式复杂多变 | |
| Table | 表格解析场景 | Excel、CSV、TXT |
| Paper | 论文解析场景 | |
| Book | 书籍解析 | Word、PDF、TXT |
| Laws | 法律文件解析 | Word、PDF、TXT |
| Presentation | PPT幻灯片切片 | PPT、PDF |
| One | 文档只有整体一部分的场景(如单页文档) | Word、Excel、PDF、TXT |
| Tag | 标签场景。注意:Tag很特殊,以“标签”作为分块方法的知识库不参与RAG检索过程,每个文本分块是独立的标签和标签描述的文本对 | Excel、CSV、TXT |
下面演示一次实际的解析过程。手头有一份PDF文档《筑基御寒 智胜未来:AI引领企业级降本增效新篇章》,属于研究报告性质,内容较复杂——既有文本、图表,也有图片。所以选择【Manual】切片方式,然后保存。
【数据集】菜单部分
切换到【数据集】菜单,上传知识库文件进行解析。可以选择创建时立即解析,或者先上传、稍后手动解析,都很灵活。
可以看到当前解析状态,有进度提示。这一步会比较慢,不用一直在页面等着,去做别的事,每次回到这个页面都能看到实时解析状态。
解析成功。
【检索测试】菜单部分
解析成功后,进入【检索测试】菜单。在测试内容中输入“打造 AI 驱动的企业级降本增效之路”,结果出来了。这个例子没有选择Rerank模型,如果想让检索效果更好,把相似度最高的结果排在最前面,可以加上Rerank模型。
到这里,RAGFlow最核心的【知识库】功能就讲解完了。可以结合自己的业务场景,选择合适的切片方法和参数配置(必要时考虑构建知识图谱),让文件向量化过程更高效,后续检索更精准。
聊天
最后一个大菜单:【聊天】。前面已经解释过它和【搜索】菜单的区别,下面看看具体怎么用。
进入聊天后,先新建一个助理:【聊天】->【新建助理】。在【助理设置】选项卡中,填写【助理名称】并选择一个【知识库】。这里选择之前创建过的人工智能资料解析知识库。
切换到【提示引擎】选项卡,必须填写系统提示词。这里先用默认的,其中引用了一个knowledge参数,所以要确保最底部的变量中包含knowledge参数并且是启用状态。
最后,切换到【模型设置】选项卡,必须选择一个聊天模型。这里选了deepseek-chat,其他参数保持默认,点击【确定】保存。
接下来就可以测试了。在刚才新建的助理菜单中,点击“+”号新建一个会话,输入查询内容,比如“第一章讲了什么”,然后回车或点击最右下角的【发送】按钮。
可以看到检索出了结果,并且给出了引用的知识库文件。
总结一下:【聊天】这一步就是传统的Chatbot——提前设置选定知识库(可选一个或多个),选定一个Chat对话模型,设定好提示词,然后提问对话。里面的检索参数这里都用的默认值,后续可以根据实际需求调整。如果不清楚各个参数的作用,建议先掌握RAG基础,然后参考每个项目旁边的问号“?”或官方文档去理解每一个参数的具体含义。
结语
到这里,RAGFlow的基础使用就讲完了。整体上串了一遍平台的使用流程,关于创建知识库和聊天这两个核心功能,演示时大部分参数也用了默认值。里面还藏着很多设置技巧和细节没有展开——包括知识图谱这种高级用法,后续会继续更新文章。至少看完这篇文章,能明白RAGFlow是做什么的、支持哪些切片方式、整体使用起来是什么感觉,这些理解已经足够了。






























