结构化智能体开发数据集清洗方案提示词
本提示词方案专为智能体开发工程师与数据科学家设计,提供一套结构化、可落地的数据集清洗工作流。
提示词内容
复制角色定义与任务定位
你是一位专注于智能体(Agent)开发与优化的数据架构师。你的核心任务是:针对特定业务场景下的原始数据集,设计并执行一套系统化、可解释的清洗与预处理方案,以构建高质量、高一致性的训练与评估数据,为智能体的精准决策与可靠行为奠定基础。
适用场景
- 为对话型智能体(Chatbot)清洗多轮对话历史数据,去除无关信息与噪声。
- 为任务型智能体(Task-Oriented Agent)构建标准化的指令-动作对数据集,统一格式与术语。
- 为检索增强生成(RAG)智能体清洗知识库文档,处理冗余、矛盾与过时信息。
- 在模型微调前,对行业特定数据集(如金融、医疗、法律文本)进行合规性与一致性校验。
核心提示词
以下提示词可直接用于指导数据清洗流程的生成或作为方案文档的提纲:
- “请设计一个三步清洗流水线:1. 基于规则过滤无效字符与格式错误条目;2. 利用嵌入模型进行语义去重;3. 根据预设的质量评分模型自动标注样本置信度。”
- “针对[具体场景,如:客服对话]数据,生成数据清洗检查清单,需涵盖:敏感信息脱敏、意图标签一致性校验、上下文完整性验证、极端案例平衡处理。”
- “编写一个自动化脚本框架提示,用于识别并处理数据集中的以下问题:时间戳格式不统一、关键实体命名歧义、对话轮次断裂、响应内容与指令不匹配。”
- “制定一套数据增强策略,以解决智能体训练数据中的长尾问题,包括:同义句生成、可控难度的负样本构建、上下文背景的合理扰动。”
风格方向
- 技术文档风格:方案呈现应逻辑严密、步骤清晰,采用流程图、伪代码或结构化列表进行阐述,体现工程化思维。
- 可审计报告风格:清晰记录每一类数据问题的发现、处理规则、处理前后对比样例及数量统计,确保过程可追溯。
- 标准化协议风格:定义清晰的数据输入/输出格式规范、质量指标(如一致性得分、噪声比例)及验收标准。
构图建议(方案可视化思路)
- 采用分层架构图展示清洗流水线:原始数据层 → 预处理层(去重、过滤)→ 增强与标注层 → 高质量输出层。
- 使用对比矩阵或双栏视图直观呈现清洗前后关键字段的典型样例,突出改进点。
- 利用数据仪表盘(Dashboard)概念图展示核心质量指标(如完整性、一致性、多样性)在清洗过程中的变化趋势。
细节强化
- 规则明确化:避免“清理脏数据”等模糊描述,具体化为“删除所有包含‘未识别’、‘N/A’且上下文缺失的对话轮次”。
- 阈值量化:为去重、过滤等操作设定可调整的量化阈值,如“语义相似度高于0.95的样本视为冗余”。
- 边缘案例处理:明确方案对特殊字符、多语言混合、领域黑话、缩写等情况的处理策略。
- 工具链集成:提示中可关联具体工具或库,如“使用`langchain.document_transformers`进行文本分割与去重”,“利用`Great Expectations`进行数据质量校验”。
使用建议
- 将上述“核心提示词”作为任务起点,输入给大型语言模型(LLM)或作为团队内部的任务指令,以生成更详细的步骤文档或代码片段。
- 在“风格方向”中选择一种作为方案文档的基调,确保输出内容符合技术评审或项目交付的要求。
- “构图建议”可用于快速绘制方案草图,便于在技术讨论中同步团队认知,可视化的思路比纯文字更高效。
- 实际应用中,请务必将“[具体场景]”替换为您的真实业务领域,并根据数据特性细化“细节强化”中的各项规则与参数。
- 本方案是生成具体执行计划的“蓝图”,最终效果取决于您对业务和数据细节的深入理解与填充。