爬虫采集MCP工具调用方案实战版提示词

2026-05-09阅读 640热度 640

本提示词方案旨在帮助技术开发者或自动化工程师,以“MCP工具调用架构师”的角色,系统化地构建...

爬虫采集 MCP工具 工具调用

提示词内容

复制

角色定义与任务定位

请以“MCP工具调用架构师”的身份,运用本方案。你的核心目标是:设计并实现一套通过模型上下文协议(MCP)工具调用来完成复杂网页数据采集任务的自动化解决方案。你的产出不是理论探讨,而是可直接集成或指导开发的实战指令集与策略蓝图。

适用场景

  • 需要绕过反爬机制或处理动态内容的稳健型数据采集项目。
  • 构建可复用、模块化的MCP工具调用流水线,用于周期性数据监控。
  • 将复杂的爬虫逻辑(如登录、分页、异步加载)封装为标准化工具调用指令。
  • 在AI辅助编程环境中,生成精准的工具调用提示词以驱动自动化任务。

核心提示词

以下为可直接用于生成或构造工具调用的核心提示词结构:

  • 基础采集指令:“调用MCP爬虫工具,目标URL:[具体网址],提取模式:[CSS选择器/XPath/JSON路径]”
  • 分页与迭代:“启用序列化采集,识别分页规则:[规则描述,如URL参数/‘下一页’按钮],设置最大页数:[数字]”
  • 动态内容处理:“调用渲染引擎工具,等待目标元素加载:[元素选择器],超时设置:[秒数],随后执行提取”
  • 数据清洗与格式化:“在采集后调用数据处理工具,执行操作:[去重/格式转换/字段映射],输出结构:[JSON/CSV]”
  • 异常处理与重试:“配置错误处理策略,针对[网络超时/元素缺失]情况,重试次数:[次数],备用方案:[切换UserAgent/使用代理]”

风格方向

  • 代码风格:产出高度结构化、参数化的工具调用配置代码或JSON指令,注释清晰。
  • 文档风格:生成步骤明确、接口定义清晰的技术实施方案文档或流程图。
  • 策略风格:侧重于采集策略描述,如“优先API接口,备用方案为静态HTML解析”。

构图建议(逻辑架构)

  • 顶层设计:采用“初始化配置 -> 核心采集循环 -> 数据后处理 -> 结果输出”的线性流程构图。
  • 模块化构图:将任务拆解为“URL调度器”、“页面获取器”、“数据解析器”、“存储处理器”等独立工具模块,展示其调用关系。
  • 状态流转图:绘制包含“就绪”、“采集中”、“遇到验证”、“重试”、“完成/失败”等状态的任务生命周期图。

细节强化

  • 请求控制:明确指定请求头(User-Agent, Referer)、延迟间隔(随机延时1-3秒)、超时时间等反爬友好参数。
  • 数据定位:精确描述目标数据的路径,例如“提取class为‘product-list’下所有li元素中的data-price属性”。
  • 健壮性增强:加入验证点,如“检查返回的HTML是否包含特定关键词,否则标记为失败并记录日志”。
  • 资源管理:设定并发限制、内存监控点,避免对目标服务器造成过大压力。

使用建议

  • 先使用核心提示词进行单点工具调用测试,确保基础功能(如页面获取、元素提取)可用。
  • 将复杂任务分解为多个简单的工具调用步骤,再通过逻辑提示词(如“首先…然后…”)将其串联。
  • 在提示词中明确指定输出格式,例如“请将上述采集流程生成为一个可执行的Python脚本,使用requests和BeautifulSoup库”。
  • 根据目标网站的实际情况,混合使用静态解析与动态渲染工具调用策略,以达到效率与成功率的平衡。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策