菜鸟AI AI提示词 · 教程 · 资讯

首页>提示词

爬虫采集数据集清洗方案实战版提示词

2026-05-14阅读 125热度 125

本提示词方案专为数据工程师与分析师设计，提供一套从爬虫采集到数据集清洗的完整、可落地的结构...

爬虫采集数据集清洗数据清洗数据抓取高质量

提示词内容

角色定义与任务定位

请以数据管道工程师或数据分析项目经理的身份，运用此方案。您的核心目标是：构建一套自动化、可复现的流程，将原始、杂乱的爬虫采集数据，转化为高质量、结构规整、可直接用于下游分析与建模的洁净数据集。

适用场景

从电商、社交媒体、新闻网站等渠道爬取的非结构化或半结构化数据清洗。
为机器学习模型训练准备特征数据前的关键预处理阶段。
构建内部数据仓库或数据湖时，对多源异构数据进行标准化整合。
定期数据报表生成前，确保数据一致性、准确性与完整性的例行任务。

核心提示词（可直接使用或组合）

基础清洗流程：去除HTML/JS标签 → 处理缺失值（标记、填充或删除） → 标准化日期/时间格式 → 统一文本编码（如UTF-8） → 去除重复记录。
文本字段处理：对“商品描述”或“评论”字段进行分词、去除停用词、提取关键词，并进行词干化或词形还原。
数值字段校验：识别并处理异常值（使用IQR或Z-score方法），将字符串形式的数字（如“1，200”）转换为浮点型，统一货币或单位。
结构化字段解析：从JSON字符串字段中提取特定键值，将嵌套字典扁平化，或将一列包含多个类别的字符串拆分为多列独热编码。
质量验证检查：计算清洗后数据集的缺失率、重复率，输出字段类型分布报告，并抽样对比清洗前后的数据样本。

风格方向（流程与文档风格）

模块化脚本风格：将清洗流程分解为独立的、可配置的函数模块（如去重模块、解析模块、验证模块），便于维护与迭代。
日志驱动风格：在关键步骤（如丢弃记录、格式转换失败时）输出详细的处理日志，便于追踪数据流向和问题定位。
报告导向风格：流程最终自动生成一份数据清洗报告，包含处理步骤摘要、数据量变化、主要问题统计及建议。

构图建议（流程架构设计）

主干流程线性构图：设计“原始数据输入 → 初步探查 → 逐字段清洗 → 整合校验 → 洁净数据输出”的主线，逻辑清晰。
并行处理分支：对于互不依赖的字段（如“用户名”清洗与“价格”清洗），可设计并行处理分支以提升效率。
反馈循环设计：在“质量验证”环节后，设置条件判断。若未通过验证，则返回特定步骤重新处理或触发警报。

细节强化

容错处理：对日期解析等易失败操作，使用try-except结构，并提供默认值或标记为待审查。
内存优化：处理大型数据集时，采用分块读取与处理（如Pandas的chunksize），避免内存溢出。
标识保留：清洗过程中始终保留每条记录的唯一标识符（如原始ID），确保数据可追溯。
配置外置：将需要频繁修改的参数（如停用词列表、异常值阈值、关键字段名）置于外部配置文件或字典中。

使用建议

优先使用Pandas、NumPy进行数据操作，用BeautifulSoup或正则表达式处理HTML残留，复杂文本处理可引入NLTK或Jieba。
在正式全量清洗前，务必用小样本（如1000条）进行全流程测试，验证逻辑并预估处理时间。
将核心提示词中的步骤转化为具体的、有注释的代码脚本，并封装为命令行工具或Jupyter Notebook，方便团队复用。
清洗方案不是一次性的，应根据数据源的变化和下游分析的新需求，定期评审和更新清洗规则。

上一篇高效美妆护肤复杂任务拆解提示词 下一篇运维监控模型微调计划完整流程提示词

常见问题

这个提示词适合哪些模型使用？提示词效果不稳定怎么优化？能不能批量生成同类内容？查看更多提示词模板

相关提示词

AI提示词05-14

爬虫采集数据集清洗方案实战版提示词

本提示词方案专为数据工程师与分析师设计，提供一套从...

最新教程

BAUHAUS框架的安装与环境配置详细步骤 AI 驱动的 video enhancer 工具安装与基础配置指南使用AI拜年黑科技工具的具体步骤与配置方法 AI 驱动的 video enhancer 工具安装与基础配置指南使用AI拜年黑科技工具的具体步骤与配置方法 DEEPSEEK 本地部署常见问题与解决方案

最新资讯

AI赋能员工培训：专业制度设计与效率提升全攻略年度员工规章制度总结撰写指南：详细范文与实用提示词员工考勤制度高效建立指南：详细范文与实操提示词 AI设计软件测评：2024年重塑行业格局的五大核心工具初中历史教研计划制定指南：高效范文与实用提示词解析 AI简化员工制度撰写指南：高效范文与实用提示词解析 AI简化员工制度撰写：高效范文与提示词指南 AI软件SD全称：2024年企业提升开发效率与竞争力的权威指南

欢迎回来 登录或注册后，可保存提示词和历史记录

用户

密码

登录后可同步收藏、历史记录和常用模板

用户

设置密码

确认密码

注册即表示同意服务条款与隐私政策