高质量爬虫采集PRD需求文档提示词

2026-05-07阅读 366热度 366

本提示词方案旨在帮助产品经理、技术负责人或需求分析师，系统化地生成一份高质量、结构清晰的爬...

爬虫采集 PRD 需求文档高质量结构化

提示词内容

角色定义与任务定位

请以“资深产品经理兼数据需求架构师”的身份，与“技术开发团队”进行沟通。你的核心目标是：撰写一份专业、无歧义、可直接指导开发的《爬虫采集需求文档》，确保数据采集任务的目标、范围、规则与技术实现路径清晰明确，规避后续开发中的理解偏差与返工风险。

适用场景

为内部数据中台或业务部门规划定向数据采集项目。
向外包技术团队或内部开发小组交付爬虫开发任务。
规范数据来源，为机器学习、市场分析或竞品研究提供结构化数据供给。

核心提示词

（以下提示词模块可直接组合使用，填入具体项目信息）

项目概述：编写一份关于“[具体数据主题，如：电商平台商品价格]”数据采集的需求文档。项目名称为“[项目名称]”，核心目标是采集“[目标网站或APP]”中关于“[具体数据字段，如：商品标题、价格、销量、评论]”的结构化数据，用于支撑“[具体业务用途，如：价格监控报告]”。
采集范围与目标：明确界定采集的网站/栏目URL列表（或启动URL），以及需要翻页/遍历的深度。定义清晰的数据采集边界，例如：仅采集列表页前10页、仅采集特定时间范围内的信息、排除某些特定卖家或商品类目。
数据字段定义：以表格形式列出每个待采集字段的名称、中文描述、示例值、是否必填、以及在后端数据库中的建议字段类型（如：VARCHAR, INT, DATETIME）。例如：字段名`product_price`，描述“商品当前售价”，示例“129.00”，必填是，类型`DECIMAL(10,2)`。
反爬策略与伦理要求：声明必须遵守的爬虫伦理，包括遵守目标网站的robots.txt协议、设置合理的请求频率（如：每秒请求数低于1）、使用代理IP池轮换、以及采集数据仅用于声明过的内部分析用途。明确是否需要处理登录、验证码、动态JS加载等技术难点。
交付物与质量要求：指定数据交付格式（如：JSON文件、CSV文件或直接入库到MySQL/MongoDB），数据更新频率（如：每日全量更新/增量更新），以及数据质量校验规则（如：字段缺失率低于1%、数据去重规则）。

风格方向

文档风格：采用技术规范文档的严谨、结构化写作风格，避免口语化和模糊词汇（如“大概”、“可能”）。
表达基调：客观、精确、可验证。多使用“必须”、“应当”、“禁止”等明确要求的词语，并对关键术语进行统一定义。

构图建议（信息组织框架）

顶层结构：建议文档按“1. 项目背景与目标 -> 2. 采集范围与边界 -> 3. 详细数据字段定义 -> 4. 技术实现要求与约束 -> 5. 交付与验收标准 -> 6. 附录（URL列表、示例响应片段）”的顺序组织。
重点突出：使用加粗或小标题突出“禁止事项”和“核心质量指标”，将技术细节（如请求头设置、解析XPath/CSS选择器）放入独立章节或附录。

细节强化

提供示例：在附录中，提供1-2个目标页面的HTML片段，并标注出关键数据对应的提取路径（XPath或CSS选择器），这是消除开发歧义最有效的方法。
预设异常处理：明确说明当遇到网络超时、页面结构变更、数据缺失等情况时，期望的应对策略（如：重试3次、记录错误日志并跳过、触发告警通知）。
明确协作节点：定义产品、开发、测试各方在需求评审、测试数据验收等环节的输入输出物与确认标准。

使用建议

在使用本提示词生成PRD初稿后，务必邀请技术负责人进行评审，针对“技术实现要求”部分进行细化补充。
将“核心提示词”中的括号“[ ]”内容替换为您的具体项目信息，即可快速搭建文档骨架。
此方案产出的内容，可直接用于创建Confluence文档、GitHub Issue或项目管理工具（如Jira）中的开发任务描述，实现需求与开发的无缝对接。

高质量爬虫采集PRD需求文档提示词

提示词内容

角色定义与任务定位

适用场景

核心提示词

风格方向

构图建议（信息组织框架）

细节强化

使用建议

常见问题

相关提示词

最新教程

最新资讯