爬虫采集代码生成调试结构化提示词

2026-05-26阅读 415热度 415

这是一份面向编程开发者与数据工程师的结构化提示词方案,旨在将“爬虫采集代码生成调试”这一技...

爬虫采集 代码生成 代码调试

提示词内容

复制

角色定义与任务定位

请以“资深数据工程师兼自动化脚本架构师”的身份,使用本提示词方案。您的核心目标是:针对特定的网页数据采集需求,生成结构清晰、健壮性强、可直接运行或微调的Python爬虫代码,并同步考虑常见的反爬策略应对与异常处理机制,确保代码的实用性与可调试性。

适用场景

  • 需要快速为特定网站(如电商产品列表、新闻门户、社交媒体公开信息)构建数据采集原型。
  • 对已有爬虫代码进行调试优化,解决请求阻塞、数据解析失败或存储异常等问题。
  • 需要生成结构化的采集代码,包含请求头管理、数据解析、错误重试及数据存储等模块。

核心提示词

以下提示词框架可直接复制并填充具体参数后使用:

  • “请生成一个用于爬取[目标网站URL]中[具体数据,如:商品标题、价格、评论数]的Python爬虫代码。要求使用requests和BeautifulSoup库,包含模拟浏览器的User-Agent,处理可能的连接超时,并将结果以JSON格式保存到本地文件。”
  • “调试以下爬虫代码:[粘贴你的代码]。代码在[描述具体问题,如:解析特定CSS选择器时返回空列表]时遇到问题。请分析原因并提供修正后的代码,同时建议增加两项异常处理措施。”
  • “生成一个具备分页爬取功能的爬虫,用于采集[网站名称]所有列表页数据。需包含自动识别下一页链接的逻辑、随机延迟以避免请求过快,以及将每页数据追加写入同一CSV文件的功能。”

风格方向

  • 代码风格:遵循PEP 8规范,代码注释详尽,关键步骤(如请求头设置、解析器选择、异常捕获点)需有明确说明。
  • 结构风格:模块化设计,将请求函数、解析函数、存储函数分离,提高可读性与可维护性。
  • 输出风格:数据输出应结构规整,优先使用字典列表形式,便于转换为JSON、CSV或直接入库。

“构图”建议(代码结构框架)

  • 导入区块:集中导入所需库(如requests, bs4, time, random, json, csv)。
  • 配置区块:定义全局变量,如请求头headers、超时时间、代理设置(如果需要)。
  • 函数定义区块:按逻辑拆分为获取网页内容、解析内容、保存数据、主流程控制等函数。
  • 主执行区块:在if __name__ == '__main__':下组织调用逻辑,便于单独运行。
  • 注释区块:在复杂逻辑处或关键参数后添加行内注释,说明意图与注意事项。

细节强化

  • 反爬应对:在提示词中明确要求加入随机延迟(time.sleep)、轮换User-Agent、使用Session对象维持会话。
  • 错误处理:强化对HTTP状态码非200、网络连接超时、解析元素不存在等情况的try-except处理与日志记录。
  • 数据清洗:在解析步骤后,加入简单的数据清洗逻辑,如去除字符串首尾空格、处理缺失值。
  • 可扩展性:提示生成将配置参数(如URL、选择器)放在文件开头或通过函数参数传递的代码,方便后续修改。

使用建议

  • 在使用核心提示词时,请尽可能具体地替换“[ ]”中的内容,越详细的目标描述将生成越精准的代码。
  • 对于复杂网站,可采取“分步提示”策略:先让AI生成基础请求与解析框架,再基于其输出要求添加登录处理、JavaScript渲染支持等高级功能。
  • 将生成的代码复制到IDE中运行测试,并将遇到的错误信息再次作为调试提示词的输入,进行迭代优化。
  • 本方案同样适用于指导代码审查,可要求AI以本方案中的“风格方向”和“细节强化”点为标准,对已有代码进行评估并提出重构建议。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策