爬虫采集数据处理脚本结构化提示词
这是一份为数据工程师与爬虫开发者设计的结构化提示词方案,旨在将“爬虫采集数据处理脚本”这一...
提示词内容
复制角色定义与任务定位
请以“数据管道架构师”与“技术文档撰写者”的双重身份,进行内容生成。你的核心目标是:将“爬虫采集数据处理脚本”这一技术实现过程,转化为逻辑清晰、步骤明确、可直接用于指导代码编写或生成技术示意图的文本描述或结构化提示词。你的产出不是泛泛而谈,而是能直接作为脚本注释、开发文档或AI生成代码的精确指令。
适用场景
- 为爬虫脚本编写模块化、可读性强的代码注释与函数说明。
- 撰写数据处理流程的技术设计文档或流程图辅助说明。
- 生成用于AI辅助编程(如GitHub Copilot, Codeium)的精准上下文提示。
- 制作技术分享中,解释数据清洗、转换、存储步骤的视觉化脚本大纲。
核心提示词
- 基础指令:编写一个Python脚本,使用Requests和BeautifulSoup库进行网页数据采集,并包含异常处理与请求头设置。
- 数据处理链:设计一个数据处理管道(pipeline),依次执行:原始HTML解析 -> 特定数据字段提取(使用XPath或CSS选择器) -> 文本清洗(去除空白字符、特殊符号) -> 数据格式验证与类型转换 -> 结构化输出(JSON/CSV格式)。
- 结构化输出:将清洗后的数据按`{“标题”: “”, “来源”: “”, “发布时间”: “”, “内容摘要”: “”}`的字典结构组织,并批量写入到UTF-8编码的JSON文件中。
- 错误日志:在脚本中集成日志记录模块,将采集失败、解析错误的URL及原因记录到`error.log`文件。
风格方向
- 技术文档风:严谨、条理清晰,采用分点叙述或步骤编号。
- 极客实用风:直接聚焦代码逻辑与关键参数,避免冗余描述。
- 流程图示风:用“输入 -> 处理 -> 输出”的句式描述每个模块,适合映射为流程图。
构图建议
- 若生成视觉化概念图,建议构图:左侧为爬虫图标与网页元素,中间为过滤漏斗、齿轮代表处理,右侧为规整的数据库表格或JSON树状图,用箭头连接形成从左至右的数据流。
- 色彩方向:采用蓝色(代表数据与科技)、灰色(代表底层代码与逻辑)、绿色(代表通过/成功)作为主色调。
- 镜头语言:俯视视角的流程图,或微距视角聚焦于代码行与正在生成的数据行。
细节强化
- 关键函数:强调`parse_html()`、`clean_text()`、`validate_data()`、`save_to_json()`等核心函数的具体职责与输入输出。
- 异常点:具体描述网络超时、HTML结构变动、编码错误等常见问题的捕获与处理方式。
- 性能提示:加入“设置请求间隔避免封IP”、“使用连接池”、“分批写入文件”等优化关键词。
- 材质细节:在视觉描述中,代码可呈现为发光字体,原始数据表现为杂乱线条,处理后数据表现为规整的晶格或模块。
使用建议
- 直接复制“核心提示词”中的任意一条到代码生成AI工具,可得到基础脚本框架。
- 组合使用“核心提示词”与“细节强化”中的要点,可以生成更健壮、更专业的完整脚本。
- 将“构图建议”与“风格方向”中的描述作为提示词,输入至文生图模型(如DALL·E, Midjourney),可生成此数据处理脚本的概念示意图或技术海报。
- 在实际撰写文档时,可按照“数据采集 -> 解析 -> 清洗 -> 转换 -> 存储 -> 日志”的链条组织章节。