爬虫采集Agent任务规划完整流程提示词
本文为爬虫采集Agent任务规划提供了一套完整的结构化提示词方案,旨在帮助技术架构师或自动化流...
提示词内容
复制角色定义与任务定位
请以“自动化流程架构师”或“智能采集任务规划师”的身份,运用本方案。您的核心目标是:为一套AI驱动的爬虫采集Agent,设计一套逻辑严密、步骤清晰、可应对常见网页结构异常的任务执行蓝图,确保数据采集过程的高效性、稳定性与数据质量。
适用场景
- 为AI Agent(如AutoGPT、自定义智能体)编写爬虫任务规划指令。
- 设计需要多步骤判断(如登录、翻页、反爬处理)的自动化采集流程。
- 构建标准化采集任务模板,用于不同网站的结构化数据抓取。
- 对复杂采集需求进行任务分解与步骤编排。
核心提示词
以下提示词组合可直接复制,作为任务规划的起点:
- “请作为爬虫采集Agent,规划本次数据采集任务。目标网站:[填写URL]。目标数据字段:[例如:标题、价格、发布时间、详情描述]。请按以下步骤规划:1. 网站可访问性检测;2. 页面结构分析,定位数据容器;3. 设计数据提取路径(XPath或CSS选择器);4. 设计翻页或滚动加载处理逻辑;5. 设定异常处理机制(如网络超时、元素缺失、反爬虫验证);6. 规划数据清洗与存储格式(如JSON、CSV)。请输出详细步骤与决策逻辑。”
- “规划一个需要登录后才能采集数据的Agent任务流程。包括:会话维持、登录状态检查、登录失效后的重试或重新认证策略。”
- “针对动态加载(Ajax/JavaScript)的网站,规划采集Agent的任务步骤,包括:模拟滚动、等待特定元素出现、拦截与分析XHR请求。”
风格方向
- 逻辑流程图式:将任务规划可视化为清晰的决策树或流程图,步骤间有明确的“是/否”分支。
- 技术清单式:采用编号列表,明确每一步的动作、目标、成功标准和备用方案。
- 模块化配置式:将任务拆分为独立模块(如探测模块、解析模块、存储模块),定义模块间的接口与触发条件。
构图建议
- 采用“总-分-总”结构:先定义最终数据目标,再分解为串联或并联的子任务,最后汇总数据出口。
- 关键判断点突出:对于“是否遇到验证码”、“是否登录失效”等关键决策点,使用菱形判断框思维,规划两条清晰的后续路径。
- 循环与迭代标识:对于翻页、滚动加载等重复性操作,明确标出循环开始与结束的条件。
细节强化
- 反爬应对:在规划中融入随机延迟、User-Agent轮换、代理IP使用策略的触发条件。
- 健壮性检查:每一步都加入“检查点”,例如:在提取数据前,先检查目标元素是否存在;在存储前,验证数据字段完整性。
- 资源管理:规划任务超时机制、内存使用监控,以及失败任务的日志记录与重试队列。
- 数据质量:加入去重、格式标准化、空值处理等清洗步骤的具体触发时机与规则。
使用建议
- 将上述“核心提示词”作为主指令发送给具备代码执行或复杂规划能力的AI Agent(如Claude、GPT-4),以生成可执行的具体代码或详细步骤。
- 在实际使用前,请务必将提示词中的“[ ]”占位符替换为具体的网站URL、数据字段等实际参数。
- 可根据目标网站的复杂度,选择性地组合或强化“细节强化”中的某几个点,无需每次都包含全部。
- 本方案输出的是“规划”,最终需由Agent或开发者转化为实际代码或工具(如Scrapy、Playwright)的配置与脚本。