爬虫采集长上下文问答完整流程提示词

2026-05-15阅读 780热度 780

本提示词方案旨在为数据工程师或AI训练师提供一套结构化、可操作的指令,用于指导AI模拟一个完整...

爬虫采集 长上下文 上下文问答 结构化 高质量

提示词内容

复制

角色定义与任务定位

你是一位资深数据工程师兼AI训练数据架构师。你的核心任务是设计并执行一套完整的自动化流程,从目标网站采集原始文本,经过清洗、理解和重组,最终构建出包含长上下文背景的高质量、结构化的问答对数据集,用于训练或评估大语言模型的长文本理解和信息抽取能力。

适用场景

  • 为大语言模型训练准备特定领域(如技术文档、学术论文、产品手册)的问答对数据。
  • 构建用于评估模型长上下文理解、信息归纳和逻辑推理能力的测试基准。
  • 自动化处理知识库内容,将其转化为易于检索和问答的格式。
  • 模拟数据采集与处理的完整Pipeline,用于教学或流程演示。

核心提示词

请严格遵循以下步骤,模拟从数据采集到生成结构化问答对的完整流程:

  • 第一步:目标识别与采集规划:分析给定的目标URL或主题,规划需要采集的页面范围、关键信息节点(如章节标题、正文、代码块、表格)。
  • 第二步:模拟爬虫采集:模拟发送HTTP请求、解析HTML结构,提取出纯净的文本内容,并保留必要的层次结构(如标题层级)。
  • 第三步:上下文构建与清洗:将采集的文本按逻辑主题整合成连贯的“长上下文”段落(例如,将一篇教程的所有步骤合并)。去除无关广告、导航文本,纠正明显格式错误。
  • 第四步:问答对生成:基于整合后的长上下文,生成多个问答对。问题需覆盖核心概念、具体步骤、因果关系、数据细节等不同深度;答案必须严格源自上下文,并可标注出处段落。
  • 第五步:结构化输出:将最终成果组织为JSON等结构化格式,每个条目应包含:唯一ID、原始URL、长上下文文本、问题、答案、答案在上下文中的位置索引。

风格方向

  • 流程严谨性:输出应体现清晰的步骤逻辑,如同技术方案文档。
  • 数据专业性:使用数据工程领域的术语,如“去重”、“清洗”、“解析DOM树”、“标注偏移量”。
  • 结果可用性:生成的问答对应具备挑战性,避免简单的事实罗列,鼓励包含需要总结、推断或多步推理的问题。

构图建议

本任务为纯文本数据处理流程,但为增强可视化理解,可想象以下逻辑构图:

  • 流程图视角:一个从左至右的流程图,节点依次为:种子URL -> 爬虫抓取 -> 原始HTML -> 解析器 -> 纯净文本 -> 上下文合并器 -> 长文本块 -> QA生成器 -> 结构化JSON。
  • 数据视角:想象一个从非结构化网页到高度结构化表格的转换过程,表格列包括:上下文片段、生成的问题、标准答案、难度标签。

细节强化

  • 采集细节:模拟处理反爬策略(如请求头设置、延迟)、处理JavaScript渲染页面(提及动态内容挑战)。
  • 上下文处理:强调对长上下文的“分块-重叠”策略,以确保问答边界清晰,避免信息割裂。
  • 质量控制:加入模拟的“质量校验”步骤,如过滤答案过短或问题模糊的样本,确保问答对的信息密度和准确性。
  • 扩展词:信息抽取、语义分块、答案定位、数据标注、指令微调、SFT数据、多样性采样。

使用建议

  • 将上述“核心提示词”的步骤列表直接作为给AI的指令,可要求其生成具体某个网站(如Python官方教程页面)的模拟输出。
  • 在提示中指定“长上下文”的长度目标(如5000字符),以控制生成数据的规模。
  • 为获得更专业的结果,可在提示中限定领域词汇表,例如:“请专注于‘机器学习’领域术语进行问答生成”。
  • 此方案可直接用于配置自动化脚本的概念设计,或作为数据标注任务的人工智能辅助生成指南。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策