爬虫采集多轮指令编排专业版提示词
本提示词方案旨在将用户定位为“智能爬虫流程架构师”,提供一套从目标分析、指令分解到策略优化...
提示词内容
复制角色定义与任务定位
请以“智能爬虫流程架构师”的身份,运用本方案。你的核心目标是:针对一个复杂的数据采集需求,系统性地设计、编排并优化一套可执行的多轮指令序列,将模糊的采集目标转化为清晰、稳定、高效的自动化操作流程。
适用场景
- 需要从结构复杂、交互多变的网站(如需要登录、翻页、动态加载)采集数据。
- 采集任务涉及多步骤决策,例如先搜索列表,再逐个进入详情页提取字段,最后处理分页。
- 需要编写专业、健壮、可复用的采集脚本或配置,而非一次性简单抓取。
- 应对反爬机制,需要设计包含等待、随机化、错误处理等策略的完整流程。
核心提示词(多轮指令编排框架)
第一轮:目标分析与策略制定
- 提示词示例:“我将采集[目标网站]的[产品列表信息]。请扮演资深爬虫工程师,首先分析该网站的数据加载方式(静态HTML/动态JS/AJAX接口),识别主要反爬措施(如频率限制、验证码),并据此提出初始采集策略与潜在风险点。”
第二轮:指令分解与步骤编排
- 提示词示例:“基于上一轮分析,请将‘采集所有产品详情’的总目标,分解为具体的、线性的操作指令序列。例如:1. 模拟登录(如需);2. 进入列表页;3. 解析列表页获取每个产品的详情页链接;4. 循环请求每个详情页;5. 从详情页HTML中提取[名称、价格、规格、描述]等字段;6. 处理‘下一页’逻辑。请用编号步骤清晰列出。”
第三轮:细节强化与异常处理
- 提示词示例:“现在,为上述每一步骤补充技术细节和容错机制。包括:请求头(User-Agent)设置、关键元素的CSS选择器或XPath、等待页面加载的显式/隐式条件、遇到网络错误或元素缺失时的重试或跳过逻辑、以及建议的数据存储格式(如JSON、CSV)。”
第四轮:优化与模拟测试
- 提示词示例:“请从性能和隐蔽性角度优化此流程。提出:请求间隔随机化方案、代理IP的使用策略、关键步骤的验证检查点(如检查是否登录成功)。最后,用伪代码或简明代码片段描述核心循环与提取逻辑。”
风格方向
- 架构文档风格:指令表述应如技术方案文档,逻辑严谨,层次分明。
- 模块化:每个指令轮次对应一个明确的阶段(分析、拆解、实现、优化)。
- 可执行导向:提示词输出应接近可直接用于编写脚本(如Python的Scrapy、Playwright)的指导。
构图建议(流程可视化隐喻)
- 将多轮指令想象为绘制一张“数据采集流水线蓝图”。第一轮是勘测地形与规划路线;第二轮是绘制详细的管道与工序图;第三轮是在关键节点添加阀门(错误处理)和仪表盘(数据验证);第四轮是对整个流水线进行压力测试与效率优化。
- 在构思时,保持“输入(URL/初始条件)→ 处理(多轮指令)→ 输出(结构化数据)”的清晰管线思维。
细节强化
- 元素精准定位:强调使用唯一且稳定的选择器,避免依赖易变的类名或索引。
- 节奏控制:明确加入“随机延迟(如2-5秒)”、“监测特定元素出现再继续”等指令,模拟人类操作。
- 数据清洗节点:在提取指令后,加入数据清洗步骤指令,如“去除价格字段中的货币符号和空格”,“将字符串描述转换为字典”。
- 状态记录:设计指令记录成功与失败的条目,便于断点续采或日志分析。
使用建议
- 请严格按“分析→拆解→细化→优化”的四轮顺序使用核心提示词,每一轮的输出都是下一轮的输入基础。
- 在“核心提示词”部分,将方括号[]内的内容替换为您的具体任务目标,即可直接使用。
- 将最终得到的多轮指令输出,作为编写爬虫代码的详细需求说明书或注释,可极大提升开发效率和代码健壮性。
- 此方案同样适用于配置可视化爬虫工具(如八爪鱼、集搜客),帮助您理清复杂的采集逻辑。