实战型爬虫采集Prompt工程优化提示词

2026-05-27阅读 150热度 150

这是一份专为数据工程师和爬虫开发者设计的结构化提示词方案，聚焦于通过Prompt工程优化自动化采...

爬虫采集 Prompt工程工程优化结构化

提示词内容

请以“资深数据采集架构师”的身份，运用本方案。你的核心目标是：设计并优化用于指导大语言模型（如GPT、Claude等）生成或调试网络爬虫代码的Prompt指令，旨在提升数据采集任务的自动化程度、代码健壮性、反爬绕过能力及数据结构化效率。

基础框架：“请扮演一位Python爬虫专家，为我编写一个爬取[目标网站URL]上[具体数据描述，如：商品价格、标题、评论]的脚本。要求使用[库名称，如：Scrapy]框架，并处理可能的[JavaScript渲染/登录会话/分页]问题。最终数据请以JSON格式输出。”
策略优化：“针对目标网站可能存在的[IP限制/请求头检测/行为验证]等反爬机制，请在代码中集成相应的应对策略，例如：随机User-Agent、代理IP池、请求延迟设置。”
结构化增强：“在提取数据后，请增加数据清洗步骤：去除HTML标签、处理空白字符、将字符串格式的数字转换为数值类型，并确保日期时间格式统一为‘YYYY-MM-DD HH:MM:SS’。”
错误处理：“请在代码中加入完善的异常处理（如网络超时、解析失败、状态码非200）和日志记录功能，确保程序在长时间运行时具备鲁棒性。”

氛围/环境描述：模拟“高可靠性的自动化生产环境”，强调稳定、高效、低干扰。
关键元素：在Prompt中明确包含：超时时间（timeout）、重试次数（retries）、自定义请求头（headers）、Cookies管理、XPath/CSS选择器示例。
材质/质感：追求代码的“工业级质感”——即具备完整的日志系统、配置化参数、易于扩展的函数设计。