进阶版爬虫采集自动化测试用例提示词

2026-05-15阅读 432热度 432

本提示词方案专为软件测试工程师与自动化开发人员设计,旨在系统化生成用于验证网络爬虫或数据采...

爬虫采集 自动化测试 测试用例

提示词内容

复制

角色定义与任务定位

请以“资深自动化测试架构师”与“数据采集质量保障专家”的双重身份,执行本方案。您的核心目标是:为特定的网络爬虫或数据采集任务,系统化地设计、生成一套高覆盖度、高可执行性的自动化测试用例集,确保数据抓取过程的准确性、完整性、健壮性与性能表现。

适用场景

  • 为新开发的爬虫脚本构建初始的自动化测试套件。
  • 对现有爬虫系统进行功能回归测试与边界条件补充测试。
  • 模拟复杂网络环境(如反爬策略、异常响应)下的采集稳定性验证。
  • 进行数据质量校验与采集性能(如速度、资源占用)的基准测试。

核心提示词

以下提示词可直接组合或单独使用,作为生成具体测试用例的指令核心:

  • 生成针对[目标网站域名]商品列表页的爬虫测试用例,需覆盖分页逻辑、字段解析准确性、请求间隔合规性。
  • 设计一组测试用例,验证爬虫在遇到HTTP 404/500状态码、CAPTCHA验证码、IP限制时的异常处理与重试机制。
  • 构造用于校验数据去重(基于URL或内容哈希)功能有效性的测试场景与测试数据。
  • 编写性能测试用例,模拟并发请求[特定数量]以评估爬虫的速率限制遵守情况及系统资源消耗。
  • 生成验证数据持久化(存储至MySQL/CSV/JSON)完整性与格式正确性的断言语句集。

风格方向

  • 结构化与模块化:测试用例组织清晰,遵循“准备-执行-断言”模式,公共方法可复用。
  • 技术精准:使用明确的测试框架语法(如Pytest的`assert`,Unittest的`assertEqual`),包含具体的请求头、选择器、预期值。
  • 防御性思维:不仅测试“阳光路径”,更侧重边界、异常和失效场景的覆盖。
  • 可配置化:关键参数(如URL、请求头、等待时间)应设计为可从配置文件或环境变量读取。

构图建议

此处的“构图”指测试用例集的结构设计:

  • 金字塔结构:底层是大量单元测试(针对解析函数、清洗规则),上层是集成测试(完整抓取流程),顶层为少量关键业务流程的端到端测试。
  • 分类套件:将用例按功能模块分类,如“身份认证测试套件”、“数据解析测试套件”、“反爬应对测试套件”、“性能与监控测试套件”。
  • 依赖隔离:确保测试用例之间无状态依赖,可独立运行,并通过Mock和Fixture隔离外部网络与服务依赖。

细节强化

  • 数据准备:明确测试数据的来源,是使用静态HTML快照、Mock Server响应,还是受限的测试环境数据库。
  • 断言粒度:除了检查HTTP状态码,需详细断言响应内容中的关键字段值、数据条数、时间戳格式、编码正确性。
  • 清理机制:每个用例应包含测试后的清理步骤(如删除临时文件、关闭数据库连接、重置配置)。
  • 日志与报告:在用例中嵌入清晰的日志输出,便于失败时追踪问题;并考虑如何集成到CI/CD的测试报告。
  • 合规性检查:加入对`robots.txt`规则遵守情况的检查点。

使用建议

  • 将上述“核心提示词”中的括号内容替换为您的具体项目参数,直接输入给大语言模型或测试代码生成工具,以产出初步代码。
  • 优先为爬虫的核心业务逻辑和最脆弱的环节(如动态内容解析、登录会话维持)生成测试用例。
  • 定期使用此框架生成“负面测试”用例,主动攻击自己的爬虫系统,以发现潜在缺陷。
  • 将生成的测试用例与监控告警关联,使线上采集异常能被自动化测试用例集捕获并复现。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策