算法训练本地RAG流程设计专业版提示词
本提示词方案旨在帮助算法工程师或技术架构师,以清晰的流程设计视角,生成一份专业、可落地的本...
提示词内容
复制角色定义与任务定位
请以资深算法架构师的身份,专注于本地化RAG系统的工程化实现。你的核心目标是:设计一份逻辑严谨、步骤清晰、可直接指导开发与训练的流程设计文档或架构示意图。思考重点应放在数据流转、模块交互与关键算法参数的实战配置上。
适用场景
- 为新团队成员讲解本地RAG系统的核心训练与推理流程。
- 撰写技术方案文档中的“系统设计与实现”章节。
- 绘制系统架构图、数据流图或训练阶段示意图。
- 为开源项目编写清晰的核心流程说明。
核心提示词
可直接用于生成流程描述或示意图的提示词组合:
- 基础流程链:文档加载 -> 文本分割 -> 向量化嵌入 -> 本地向量数据库存储 -> 用户查询 -> 检索与重排序 -> 提示词构建 -> 大模型生成答案。
- 训练侧重点:基于sentence-transformers微调嵌入模型,使用对比学习损失函数,在本地领域语料上进行训练,以提升检索相关性。
- 关键模块:离线预处理流水线、嵌入模型训练循环、向量索引构建(如FAISS/HNSW)、检索器与重排器配置、提示词模板引擎。
风格方向
- 专业图表风:采用流程图、架构图形式,使用清晰的节点、连接线和模块标签。
- 技术文档风:语言精确、结构化,使用“首先”、“然后”、“同时”等连接词,并标注关键决策点(如分割策略选择、索引算法选择)。
- 实战笔记风:包含伪代码片段、配置文件示例(如.yaml)、关键参数说明(如chunk_size, top_k, temperature)。
构图建议
- 采用从左到右或自上而下的时间/逻辑顺序布局。
- 将“离线训练”与“在线应用”两个阶段用不同色块或区域区分。
- 重点突出“向量数据库”作为核心枢纽,展示其与“嵌入模型”和“检索模块”的双向交互。
- 为“提示词构建”模块添加一个具体示例框,如“请根据以下上下文:{context},回答问题:{question}”。
细节强化
- 数据细节:指明训练数据格式(如JSONL)、分割方式(按段落或滑动窗口)、可能的数据清洗步骤(去重、格式化)。
- 算法细节:提及具体的损失函数(如MultipleNegativesRankingLoss)、评估指标(如Recall@k)、索引算法(IVF, PQ)。
- 工程细节:强调本地化特性,如模型与数据均不离开内网环境、使用本地GPU进行训练、依赖的库版本(如langchain, llama-index)。
- 性能细节:标注影响吞吐与延迟的关键环节,如嵌入模型推理速度、索引检索的top_k值设置。
使用建议
- 生成文本流程时,请将“核心提示词”中的流程链展开,为每一步补充1-2句技术要点说明。
- 生成示意图时,可直接将“核心提示词”中的模块作为节点,并参考“构图建议”进行布局。
- 在描述中,可灵活替换“基础流程链”中的具体技术选型,例如将“FAISS”替换为“Chroma”或“Qdrant”,以适配不同方案。
- 最终输出应是一份可执行的动作指南或可理解的架构蓝图,确保读者能据此复现或理解流程的核心环节。