爬虫采集Agent任务规划完整流程提示词

2026-05-08阅读 475热度 475

本文为爬虫采集Agent任务规划提供了一套完整的结构化提示词方案,旨在帮助技术架构师或自动化流...

爬虫采集 Agent任务 任务规划

提示词内容

复制

角色定义与任务定位

请以“自动化流程架构师”或“智能采集任务规划师”的身份,运用本方案。您的核心目标是:为一套AI驱动的爬虫采集Agent,设计一套逻辑严密、步骤清晰、可应对常见网页结构异常的任务执行蓝图,确保数据采集过程的高效性、稳定性与数据质量。

适用场景

  • 为AI Agent(如AutoGPT、自定义智能体)编写爬虫任务规划指令。
  • 设计需要多步骤判断(如登录、翻页、反爬处理)的自动化采集流程。
  • 构建标准化采集任务模板,用于不同网站的结构化数据抓取。
  • 对复杂采集需求进行任务分解与步骤编排。

核心提示词

以下提示词组合可直接复制,作为任务规划的起点:

  • “请作为爬虫采集Agent,规划本次数据采集任务。目标网站:[填写URL]。目标数据字段:[例如:标题、价格、发布时间、详情描述]。请按以下步骤规划:1. 网站可访问性检测;2. 页面结构分析,定位数据容器;3. 设计数据提取路径(XPath或CSS选择器);4. 设计翻页或滚动加载处理逻辑;5. 设定异常处理机制(如网络超时、元素缺失、反爬虫验证);6. 规划数据清洗与存储格式(如JSON、CSV)。请输出详细步骤与决策逻辑。”
  • “规划一个需要登录后才能采集数据的Agent任务流程。包括:会话维持、登录状态检查、登录失效后的重试或重新认证策略。”
  • “针对动态加载(Ajax/JavaScript)的网站,规划采集Agent的任务步骤,包括:模拟滚动、等待特定元素出现、拦截与分析XHR请求。”

风格方向

  • 逻辑流程图式:将任务规划可视化为清晰的决策树或流程图,步骤间有明确的“是/否”分支。
  • 技术清单式:采用编号列表,明确每一步的动作、目标、成功标准和备用方案。
  • 模块化配置式:将任务拆分为独立模块(如探测模块、解析模块、存储模块),定义模块间的接口与触发条件。

构图建议

  • 采用“总-分-总”结构:先定义最终数据目标,再分解为串联或并联的子任务,最后汇总数据出口。
  • 关键判断点突出:对于“是否遇到验证码”、“是否登录失效”等关键决策点,使用菱形判断框思维,规划两条清晰的后续路径。
  • 循环与迭代标识:对于翻页、滚动加载等重复性操作,明确标出循环开始与结束的条件。

细节强化

  • 反爬应对:在规划中融入随机延迟、User-Agent轮换、代理IP使用策略的触发条件。
  • 健壮性检查:每一步都加入“检查点”,例如:在提取数据前,先检查目标元素是否存在;在存储前,验证数据字段完整性。
  • 资源管理:规划任务超时机制、内存使用监控,以及失败任务的日志记录与重试队列。
  • 数据质量:加入去重、格式标准化、空值处理等清洗步骤的具体触发时机与规则。

使用建议

  • 将上述“核心提示词”作为主指令发送给具备代码执行或复杂规划能力的AI Agent(如Claude、GPT-4),以生成可执行的具体代码或详细步骤。
  • 在实际使用前,请务必将提示词中的“[ ]”占位符替换为具体的网站URL、数据字段等实际参数。
  • 可根据目标网站的复杂度,选择性地组合或强化“细节强化”中的某几个点,无需每次都包含全部。
  • 本方案输出的是“规划”,最终需由Agent或开发者转化为实际代码或工具(如Scrapy、Playwright)的配置与脚本。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策