高质量爬虫采集PRD需求文档提示词
本提示词方案旨在帮助产品经理、技术负责人或需求分析师,系统化地生成一份高质量、结构清晰的爬...
提示词内容
复制角色定义与任务定位
请以“资深产品经理兼数据需求架构师”的身份,与“技术开发团队”进行沟通。你的核心目标是:撰写一份专业、无歧义、可直接指导开发的《爬虫采集需求文档》,确保数据采集任务的目标、范围、规则与技术实现路径清晰明确,规避后续开发中的理解偏差与返工风险。
适用场景
- 为内部数据中台或业务部门规划定向数据采集项目。
- 向外包技术团队或内部开发小组交付爬虫开发任务。
- 规范数据来源,为机器学习、市场分析或竞品研究提供结构化数据供给。
核心提示词
(以下提示词模块可直接组合使用,填入具体项目信息)
- 项目概述:编写一份关于“[具体数据主题,如:电商平台商品价格]”数据采集的需求文档。项目名称为“[项目名称]”,核心目标是采集“[目标网站或APP]”中关于“[具体数据字段,如:商品标题、价格、销量、评论]”的结构化数据,用于支撑“[具体业务用途,如:价格监控报告]”。
- 采集范围与目标:明确界定采集的网站/栏目URL列表(或启动URL),以及需要翻页/遍历的深度。定义清晰的数据采集边界,例如:仅采集列表页前10页、仅采集特定时间范围内的信息、排除某些特定卖家或商品类目。
- 数据字段定义:以表格形式列出每个待采集字段的名称、中文描述、示例值、是否必填、以及在后端数据库中的建议字段类型(如:VARCHAR, INT, DATETIME)。例如:字段名`product_price`,描述“商品当前售价”,示例“129.00”,必填是,类型`DECIMAL(10,2)`。
- 反爬策略与伦理要求:声明必须遵守的爬虫伦理,包括遵守目标网站的robots.txt协议、设置合理的请求频率(如:每秒请求数低于1)、使用代理IP池轮换、以及采集数据仅用于声明过的内部分析用途。明确是否需要处理登录、验证码、动态JS加载等技术难点。
- 交付物与质量要求:指定数据交付格式(如:JSON文件、CSV文件或直接入库到MySQL/MongoDB),数据更新频率(如:每日全量更新/增量更新),以及数据质量校验规则(如:字段缺失率低于1%、数据去重规则)。
风格方向
- 文档风格:采用技术规范文档的严谨、结构化写作风格,避免口语化和模糊词汇(如“大概”、“可能”)。
- 表达基调:客观、精确、可验证。多使用“必须”、“应当”、“禁止”等明确要求的词语,并对关键术语进行统一定义。
构图建议(信息组织框架)
- 顶层结构:建议文档按“1. 项目背景与目标 -> 2. 采集范围与边界 -> 3. 详细数据字段定义 -> 4. 技术实现要求与约束 -> 5. 交付与验收标准 -> 6. 附录(URL列表、示例响应片段)”的顺序组织。
- 重点突出:使用加粗或小标题突出“禁止事项”和“核心质量指标”,将技术细节(如请求头设置、解析XPath/CSS选择器)放入独立章节或附录。
细节强化
- 提供示例:在附录中,提供1-2个目标页面的HTML片段,并标注出关键数据对应的提取路径(XPath或CSS选择器),这是消除开发歧义最有效的方法。
- 预设异常处理:明确说明当遇到网络超时、页面结构变更、数据缺失等情况时,期望的应对策略(如:重试3次、记录错误日志并跳过、触发告警通知)。
- 明确协作节点:定义产品、开发、测试各方在需求评审、测试数据验收等环节的输入输出物与确认标准。
使用建议
- 在使用本提示词生成PRD初稿后,务必邀请技术负责人进行评审,针对“技术实现要求”部分进行细化补充。
- 将“核心提示词”中的括号“[ ]”内容替换为您的具体项目信息,即可快速搭建文档骨架。
- 此方案产出的内容,可直接用于创建Confluence文档、GitHub Issue或项目管理工具(如Jira)中的开发任务描述,实现需求与开发的无缝对接。