算法训练本地RAG流程设计专业版提示词

2026-05-22阅读 793热度 793

本提示词方案旨在帮助算法工程师或技术架构师，以清晰的流程设计视角，生成一份专业、可落地的本...

算法训练本地RAG 流程设计实战应用创意表达

提示词内容

请以资深算法架构师的身份，专注于本地化RAG系统的工程化实现。你的核心目标是：设计一份逻辑严谨、步骤清晰、可直接指导开发与训练的流程设计文档或架构示意图。思考重点应放在数据流转、模块交互与关键算法参数的实战配置上。

可直接用于生成流程描述或示意图的提示词组合：

基础流程链：文档加载 -> 文本分割 -> 向量化嵌入 -> 本地向量数据库存储 -> 用户查询 -> 检索与重排序 -> 提示词构建 -> 大模型生成答案。
训练侧重点：基于sentence-transformers微调嵌入模型，使用对比学习损失函数，在本地领域语料上进行训练，以提升检索相关性。
关键模块：离线预处理流水线、嵌入模型训练循环、向量索引构建（如FAISS/HNSW）、检索器与重排器配置、提示词模板引擎。

数据细节：指明训练数据格式（如JSONL）、分割方式（按段落或滑动窗口）、可能的数据清洗步骤（去重、格式化）。
算法细节：提及具体的损失函数（如MultipleNegativesRankingLoss）、评估指标（如Recall@k）、索引算法（IVF, PQ）。
工程细节：强调本地化特性，如模型与数据均不离开内网环境、使用本地GPU进行训练、依赖的库版本（如langchain, llama-index）。
性能细节：标注影响吞吐与延迟的关键环节，如嵌入模型推理速度、索引检索的top_k值设置。