结构化爬虫采集API文档生成提示词

2026-05-27阅读 256热度 256

本提示词方案旨在将用户定位为“API文档架构师与数据采集工程师”,通过结构化指令,指导生成清...

爬虫采集 API文档 文档生成

提示词内容

复制

角色定义与任务定位

请以“API文档架构师与数据采集工程师”的身份,运用本方案。你的核心目标是:设计一套结构化、可落地的提示词,用于指导AI或开发人员,将爬虫采集的逻辑、参数与流程,转化为一份标准、清晰、可直接用于开发的API接口文档。

适用场景

  • 为自研的网络爬虫或数据采集工具编写对外提供的API接口说明。
  • 将复杂的爬虫采集任务(如电商数据抓取、舆情监控、价格追踪)模块化,并定义成标准API服务。
  • 在团队协作或项目交付中,需要生成统一、规范的采集服务文档。
  • 构建数据采集平台,需要为不同数据源生成对应的API调用文档。

核心提示词

以下提示词组合可直接使用或作为模板:

  • 基础框架:生成一份用于[电商商品信息采集]的RESTful API文档。需包含:API端点、请求方法(GET/POST)、请求参数(必填/选填,如:keyword, max_pages, proxy)、请求头、请求示例、成功响应结构(JSON格式,包含字段:product_name, price, url, sku)、错误码说明。
  • 流程描述:详细描述一个“新闻网站列表页与详情页递进采集”API的工作流程。包括:第一步通过列表API获取文章链接列表,第二步通过详情API传入链接获取正文、发布时间、作者等字段。说明两个API的依赖关系和参数传递方式。
  • 参数详解:定义“分页采集控制参数”。包括:page(页码)、page_size(每页数量)、order_by(排序字段)、request_delay(请求延迟,单位:毫秒),并为每个参数提供默认值和取值范围说明。
  • 高级控制:为“动态内容采集(如JavaScript渲染)”API增加控制参数:render_mode(渲染模式,可选:static或dynamic)、wait_for_element(等待特定CSS选择器加载的超时时间)。

风格方向

  • 技术规范型:模仿OpenAPI/Swagger风格,强调结构的严谨性、术语的准确性。使用“必须”、“应当”、“可以”等RFC2119关键词。
  • 开发者友好型:语言平实,侧重示例和常见问题。提供多种编程语言(如Python的requests库、cURL命令)的调用示例。
  • 平台集成型:文档结构清晰对应到数据采集平台的UI模块,如“数据源配置”、“字段映射”、“调度设置”,方便非开发者理解。

构图建议

(此处的“构图”指文档内容的结构组织)

  • 总分总结构:开篇概述API功能和适用场景,中间分模块详述,最后总结注意事项和最佳实践。
  • 流程图引导:用文字描述或建议绘制“API调用与数据流转流程图”,清晰展示从发起请求到获取数据的完整路径。
  • 模块化分区:将文档划分为“概述”、“认证”、“接口详情”、“响应数据”、“错误处理”、“速率限制”、“示例”等独立区块。

细节强化

  • 字段描述:对响应中的每个JSON字段,不仅说明类型(string, integer, array),更说明其业务含义和采集来源(例如:“price: float类型,从网页的‘.product-price’ CSS选择器中提取的原始价格”)。
  • 错误场景:具体化错误码,如:1001(网络超时)、1002(反爬拦截)、1003(目标页面结构变更)、1004(参数验证失败)。
  • 安防与限制:明确说明反爬虫策略(如User-Agent要求、请求频率限制、IP白名单机制)和数据使用限制。
  • 版本管理:在文档开头明确API版本号,并对不同版本的变更点进行说明。

使用建议

  • 在使用核心提示词时,将方括号[]内的内容(如[电商商品信息采集])替换为你的具体采集目标。
  • 生成文档后,务必用实际调用进行测试,根据测试结果反向优化提示词中对参数和响应结构的描述。
  • 可以要求AI分步骤生成:先输出文档大纲,再针对每个接口填充细节,最后整合成完整文档,便于迭代修改。
  • 将“核心提示词”中的不同组合(基础框架、流程描述等)融合使用,可以生成更全面、深入的API文档。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策