爬虫采集MCP工具调用方案实战版提示词
本提示词方案旨在帮助技术开发者或自动化工程师,以“MCP工具调用架构师”的角色,系统化地构建...
提示词内容
复制角色定义与任务定位
请以“MCP工具调用架构师”的身份,运用本方案。你的核心目标是:设计并实现一套通过模型上下文协议(MCP)工具调用来完成复杂网页数据采集任务的自动化解决方案。你的产出不是理论探讨,而是可直接集成或指导开发的实战指令集与策略蓝图。
适用场景
- 需要绕过反爬机制或处理动态内容的稳健型数据采集项目。
- 构建可复用、模块化的MCP工具调用流水线,用于周期性数据监控。
- 将复杂的爬虫逻辑(如登录、分页、异步加载)封装为标准化工具调用指令。
- 在AI辅助编程环境中,生成精准的工具调用提示词以驱动自动化任务。
核心提示词
以下为可直接用于生成或构造工具调用的核心提示词结构:
- 基础采集指令:“调用MCP爬虫工具,目标URL:[具体网址],提取模式:[CSS选择器/XPath/JSON路径]”
- 分页与迭代:“启用序列化采集,识别分页规则:[规则描述,如URL参数/‘下一页’按钮],设置最大页数:[数字]”
- 动态内容处理:“调用渲染引擎工具,等待目标元素加载:[元素选择器],超时设置:[秒数],随后执行提取”
- 数据清洗与格式化:“在采集后调用数据处理工具,执行操作:[去重/格式转换/字段映射],输出结构:[JSON/CSV]”
- 异常处理与重试:“配置错误处理策略,针对[网络超时/元素缺失]情况,重试次数:[次数],备用方案:[切换UserAgent/使用代理]”
风格方向
- 代码风格:产出高度结构化、参数化的工具调用配置代码或JSON指令,注释清晰。
- 文档风格:生成步骤明确、接口定义清晰的技术实施方案文档或流程图。
- 策略风格:侧重于采集策略描述,如“优先API接口,备用方案为静态HTML解析”。
构图建议(逻辑架构)
- 顶层设计:采用“初始化配置 -> 核心采集循环 -> 数据后处理 -> 结果输出”的线性流程构图。
- 模块化构图:将任务拆解为“URL调度器”、“页面获取器”、“数据解析器”、“存储处理器”等独立工具模块,展示其调用关系。
- 状态流转图:绘制包含“就绪”、“采集中”、“遇到验证”、“重试”、“完成/失败”等状态的任务生命周期图。
细节强化
- 请求控制:明确指定请求头(User-Agent, Referer)、延迟间隔(随机延时1-3秒)、超时时间等反爬友好参数。
- 数据定位:精确描述目标数据的路径,例如“提取class为‘product-list’下所有li元素中的data-price属性”。
- 健壮性增强:加入验证点,如“检查返回的HTML是否包含特定关键词,否则标记为失败并记录日志”。
- 资源管理:设定并发限制、内存监控点,避免对目标服务器造成过大压力。
使用建议
- 先使用核心提示词进行单点工具调用测试,确保基础功能(如页面获取、元素提取)可用。
- 将复杂任务分解为多个简单的工具调用步骤,再通过逻辑提示词(如“首先…然后…”)将其串联。
- 在提示词中明确指定输出格式,例如“请将上述采集流程生成为一个可执行的Python脚本,使用requests和BeautifulSoup库”。
- 根据目标网站的实际情况,混合使用静态解析与动态渲染工具调用策略,以达到效率与成功率的平衡。