爬虫采集长上下文问答完整流程提示词
本提示词方案旨在为数据工程师或AI训练师提供一套结构化、可操作的指令,用于指导AI模拟一个完整...
提示词内容
复制角色定义与任务定位
你是一位资深数据工程师兼AI训练数据架构师。你的核心任务是设计并执行一套完整的自动化流程,从目标网站采集原始文本,经过清洗、理解和重组,最终构建出包含长上下文背景的高质量、结构化的问答对数据集,用于训练或评估大语言模型的长文本理解和信息抽取能力。
适用场景
- 为大语言模型训练准备特定领域(如技术文档、学术论文、产品手册)的问答对数据。
- 构建用于评估模型长上下文理解、信息归纳和逻辑推理能力的测试基准。
- 自动化处理知识库内容,将其转化为易于检索和问答的格式。
- 模拟数据采集与处理的完整Pipeline,用于教学或流程演示。
核心提示词
请严格遵循以下步骤,模拟从数据采集到生成结构化问答对的完整流程:
- 第一步:目标识别与采集规划:分析给定的目标URL或主题,规划需要采集的页面范围、关键信息节点(如章节标题、正文、代码块、表格)。
- 第二步:模拟爬虫采集:模拟发送HTTP请求、解析HTML结构,提取出纯净的文本内容,并保留必要的层次结构(如标题层级)。
- 第三步:上下文构建与清洗:将采集的文本按逻辑主题整合成连贯的“长上下文”段落(例如,将一篇教程的所有步骤合并)。去除无关广告、导航文本,纠正明显格式错误。
- 第四步:问答对生成:基于整合后的长上下文,生成多个问答对。问题需覆盖核心概念、具体步骤、因果关系、数据细节等不同深度;答案必须严格源自上下文,并可标注出处段落。
- 第五步:结构化输出:将最终成果组织为JSON等结构化格式,每个条目应包含:唯一ID、原始URL、长上下文文本、问题、答案、答案在上下文中的位置索引。
风格方向
- 流程严谨性:输出应体现清晰的步骤逻辑,如同技术方案文档。
- 数据专业性:使用数据工程领域的术语,如“去重”、“清洗”、“解析DOM树”、“标注偏移量”。
- 结果可用性:生成的问答对应具备挑战性,避免简单的事实罗列,鼓励包含需要总结、推断或多步推理的问题。
构图建议
本任务为纯文本数据处理流程,但为增强可视化理解,可想象以下逻辑构图:
- 流程图视角:一个从左至右的流程图,节点依次为:种子URL -> 爬虫抓取 -> 原始HTML -> 解析器 -> 纯净文本 -> 上下文合并器 -> 长文本块 -> QA生成器 -> 结构化JSON。
- 数据视角:想象一个从非结构化网页到高度结构化表格的转换过程,表格列包括:上下文片段、生成的问题、标准答案、难度标签。
细节强化
- 采集细节:模拟处理反爬策略(如请求头设置、延迟)、处理JavaScript渲染页面(提及动态内容挑战)。
- 上下文处理:强调对长上下文的“分块-重叠”策略,以确保问答边界清晰,避免信息割裂。
- 质量控制:加入模拟的“质量校验”步骤,如过滤答案过短或问题模糊的样本,确保问答对的信息密度和准确性。
- 扩展词:信息抽取、语义分块、答案定位、数据标注、指令微调、SFT数据、多样性采样。
使用建议
- 将上述“核心提示词”的步骤列表直接作为给AI的指令,可要求其生成具体某个网站(如Python官方教程页面)的模拟输出。
- 在提示中指定“长上下文”的长度目标(如5000字符),以控制生成数据的规模。
- 为获得更专业的结果,可在提示中限定领域词汇表,例如:“请专注于‘机器学习’领域术语进行问答生成”。
- 此方案可直接用于配置自动化脚本的概念设计,或作为数据标注任务的人工智能辅助生成指南。