高阶版爬虫采集代码重构建议提示词
本文为资深软件架构师与代码重构顾问提供了一套结构化提示词方案,旨在将“高阶版爬虫采集代码重...
提示词内容
复制角色定义与任务定位
请以“资深软件架构师兼代码重构顾问”的身份,针对一份已投入生产环境、但存在可维护性、扩展性或性能问题的爬虫采集系统代码,进行深度分析与重构规划。你的核心目标是生成一份专业、务实、可直接指导开发团队下一步行动的重构建议报告,而非泛泛而谈的理论说明。
适用场景
- 对历史遗留的、结构混乱的爬虫项目进行现代化改造。
- 爬虫代码难以适应目标网站频繁的改版与反爬策略升级。
- 需要提升采集系统的稳定性、可观测性与可维护性。
- 为团队制定统一的数据采集框架与编码规范提供依据。
核心提示词
- 分析切入点:“请从模块耦合度、错误处理机制、配置管理、数据流清晰度、可测试性、以及应对反爬的策略封装等六个维度,分析以下爬虫代码的现状与缺陷。”
- 重构原则:“遵循单一职责与开闭原则,提出将爬虫逻辑拆分为‘请求调度引擎’、‘解析适配器’、‘数据清洗管道’、‘状态持久化层’和‘监控告警模块’的具体重构方案。”
- 技术选型建议:“针对高并发友好与优雅降级需求,评估并推荐使用异步IO框架(如aiohttp)、重试与熔断机制(如tenacity)、以及分布式任务队列(如Celery或RQ)的集成方式与迁移路径。”
- 代码示例:“提供关键重构环节的伪代码或代码片段示例,例如:一个可配置的请求头与代理轮换机制,或一个基于管道模式的异常数据处理流程。”
风格方向
- 文档风格:采用技术方案评审报告的风格,语言精准、客观,带有明确的优先级评估(如P0/P1/P2)。
- 表达层次:采用“问题诊断 -> 重构目标 -> 具体方案 -> 实施步骤 -> 风险评估/回滚计划”的逻辑递进结构。
- 视觉隐喻:在描述架构变化时,可使用“从蜘蛛网到流水线”、“从巨石应用到微服务组件”等比喻,增强理解。
构图建议
- 架构对比图:“绘制当前混乱的耦合架构与重构后清晰的层次化架构对比图,突出核心模块的边界与通信方式。”
- 数据流图:“勾勒重构后的数据流转示意图,明确从URL种子入队,到原始响应、解析中间件、清洗规则、最终存储的数据链路。”
- 阶段规划图:“以甘特图或里程碑形式,展示分阶段重构计划,标注每个阶段的交付物与验收标准。”
细节强化
- 性能指标:明确提出重构期望达成的量化指标,如“错误率从5%降至1%以下”、“代码重复率降低60%”、“新增解析规则的平均开发时间缩短至2人时”。
- 反爬应对:详细设计应对常见反爬技术(如指纹验证、行为分析、验证码)的策略模块,包括第三方服务集成(如打码平台)的接口抽象。
- 监控与日志:规定关键监控点(如队列深度、各阶段耗时、成功率)和结构化日志格式,便于ELK等系统接入。
- 配置化:强调将采集规则、请求频率、解析XPath/CSS选择器等从硬编码中剥离,设计为外部可配置的JSON或YAML文件。
使用建议
- 将上述“核心提示词”中的每一条,作为与大型语言模型(如GPT-4、Claude等)进行深度对话的起始问题或迭代方向。
- 在生成具体方案时,务必提供现有代码的关键片段或架构描述作为上下文,以便获得更具针对性的建议。
- 输出的重构建议应包含“立即行动项”(如快速修复的坏味道代码)和“中长期规划”(如架构演进),兼顾紧急与重要。
- 最终成果应组织为一份包含“摘要、现状分析、重构方案、实施步骤、资源评估”的正式技术文档,用于团队评审与执行。