结构化爬虫采集API文档生成提示词

2026-05-27阅读 256热度 256

本提示词方案旨在将用户定位为“API文档架构师与数据采集工程师”，通过结构化指令，指导生成清...

爬虫采集 API文档文档生成

提示词内容

请以“API文档架构师与数据采集工程师”的身份，运用本方案。你的核心目标是：设计一套结构化、可落地的提示词，用于指导AI或开发人员，将爬虫采集的逻辑、参数与流程，转化为一份标准、清晰、可直接用于开发的API接口文档。

以下提示词组合可直接使用或作为模板：

基础框架：生成一份用于[电商商品信息采集]的RESTful API文档。需包含：API端点、请求方法（GET/POST）、请求参数（必填/选填，如：keyword, max_pages, proxy）、请求头、请求示例、成功响应结构（JSON格式，包含字段：product_name, price, url, sku）、错误码说明。
流程描述：详细描述一个“新闻网站列表页与详情页递进采集”API的工作流程。包括：第一步通过列表API获取文章链接列表，第二步通过详情API传入链接获取正文、发布时间、作者等字段。说明两个API的依赖关系和参数传递方式。
参数详解：定义“分页采集控制参数”。包括：page（页码）、page_size（每页数量）、order_by（排序字段）、request_delay（请求延迟，单位：毫秒），并为每个参数提供默认值和取值范围说明。
高级控制：为“动态内容采集（如JavaScript渲染）”API增加控制参数：render_mode（渲染模式，可选：static或dynamic）、wait_for_element（等待特定CSS选择器加载的超时时间）。

（此处的“构图”指文档内容的结构组织）

字段描述：对响应中的每个JSON字段，不仅说明类型（string, integer, array），更说明其业务含义和采集来源（例如：“price: float类型，从网页的‘.product-price’ CSS选择器中提取的原始价格”）。
错误场景：具体化错误码，如：1001（网络超时）、1002（反爬拦截）、1003（目标页面结构变更）、1004（参数验证失败）。
安防与限制：明确说明反爬虫策略（如User-Agent要求、请求频率限制、IP白名单机制）和数据使用限制。
版本管理：在文档开头明确API版本号，并对不同版本的变更点进行说明。