高效爬虫采集自建Agent方案提示词
本方案旨在为技术架构师与数据工程师提供一套结构化提示词,用于构建高效、可维护的自定义网络爬...
提示词内容
复制角色定义与任务定位
请以“数据基础设施架构师”兼“自动化流程设计者”的身份,运用本方案。你的核心目标是:设计并实现一个高度自治、稳定且可扩展的网络爬虫智能体(Agent),它能理解复杂的数据采集需求,自主规划抓取路径,处理反爬机制,并结构化输出数据,最终形成一套可复用的专业级解决方案。
适用场景
- 需要绕过动态加载、登录验证或复杂反爬策略的定向数据采集。
- 构建企业级数据中台的初始数据获取层,要求高稳定性和可监控性。
- 为特定垂直领域(如电商价格监控、舆情分析、学术文献聚合)定制长期运行的采集Agent。
- 将零散的爬虫脚本重构为模块化、可自我诊断与修复的智能体系统。
核心提示词
以下提示词可直接组合或单独用于与AI协作开发、生成代码或配置方案:
- 主任务定义:“设计一个具备自适应解析能力的爬虫Agent,核心任务是从[目标网站域名]中,持续抓取[具体数据类别,如商品详情、新闻正文、评论列表],并输出为结构化的JSON/CSV格式。”
- 能力规划:“为该Agent集成以下能力链:1) 动态User-Agent轮换与IP代理池管理;2) 基于XPath/CSS Selector与正则表达式的多模式解析器;3) 请求频率智能调控与异常状态(如403、验证码)识别与响应模块;4) 数据去重与增量更新逻辑。”
- 架构指令:“采用模块化设计,明确划分调度中心(Scheduler)、下载器(Downloader)、解析器(Parser)、数据管道(Item Pipeline)和监控告警(Monitor)模块。使用[如Python Scrapy框架、或Node.js Puppeteer集群]作为技术栈实现。”
风格方向
- 工业级稳健风格:强调错误处理、日志记录、熔断机制。代码结构清晰,注释完备,配置外部化。
- 自适应学习风格:Agent应能根据网站结构调整解析策略,可集成轻量级ML模型识别页面布局变化。
- 低干扰与伦理风格:遵循robots.txt,设计合理的请求延迟,避免对目标服务器造成压力,明确数据使用边界。
构图建议(方案结构蓝图)
- 顶层架构图:以“控制中枢”为核心,向外辐射连接“资源调度”、“任务队列”、“解析引擎”、“存储集群”和“监控面板”等组件,体现数据流与控制流。
- 逻辑流程图:描绘从“种子URL注入”开始,经历“优先级调度”、“请求封装”、“响应处理”、“数据提取”、“持久化存储”到“状态反馈”的闭环流程。
- 部署视图:展示Agent在Docker容器或K8s Pod中的部署形态,以及它与消息队列(如Redis)、数据库、对象存储的关联关系。
细节强化
- 反爬对抗细节:模拟鼠标移动轨迹,管理Cookie会话池,实现JavaScript渲染(通过无头浏览器集成),设置随机化请求间隔。
- 数据质量细节:设计数据清洗管道,包括字段格式标准化、非法字符过滤、空值校验与关联性验证。
- 性能与扩展细节:实现分布式任务队列,支持横向扩展多个下载器;设计缓存层避免重复抓取;考虑断点续抓与状态持久化方案。
使用建议
- 将“核心提示词”中的括号内容替换为您的具体参数,直接输入给代码生成AI(如GitHub Copilot、ChatGPT),以生成基础代码框架。
- 在调试阶段,使用“细节强化”中的要点作为Prompt,针对性地优化Agent的特定模块,例如:“为上述解析器增加对AJAX动态加载内容的捕获支持”。
- “构图建议”可用于生成架构文档或向团队阐述设计思路,也可作为提示词的一部分,要求AI生成对应的系统设计图(Mermaid/PlantUML代码)。
- 整个方案应迭代使用:先构建最小可行Agent,再依据运行日志和监控反馈,逐步融入更复杂的风格与细节强化点。