结构化Python开发数据集清洗方案提示词

2026-05-28阅读 263热度 263

专为数据工程师与Python开发者设计的提示词方案,聚焦结构化编程思维,生成可直接落地的数据集清...

Python开发 数据集清洗 数据清洗 结构化 实战应用

提示词内容

复制

角色定义

数据清洗架构师 / 结构化编程实践者

任务定位:以工程化开发视角,设计一套逻辑清晰、可复用的Python数据集清洗方案。输出内容应体现函数封装、管道编排、异常处理与代码可读性,兼顾流程可视化表达,帮助开发者快速理解并复用清洗逻辑。

适用场景

  • 数据科学项目中需要构建标准化清洗模块的初期规划阶段
  • 面向团队的技术文档或代码示例中,展示结构化清洗流程
  • 生成培训/教学用的数据清洗流程图、伪代码或注释型代码块
  • 向非技术方演示清洗步骤与数据质量提升效果

核心提示词

  • 将清洗流程拆解为可复用的独立函数:缺失值填充(fill_missing)、异常值截断(clip_outliers)、类型转换(cast_dtypes)、字段标准化(normalize_fields)
  • 使用管道模式(pipe / pipeline)串联步骤,支持按需插拔
  • 提供数据结构:输入DataFrame → 清洗管线 → 输出DataFrame + 清洗日志
  • 关键处理:识别空值、处理重复行、格式统一(日期/字符串/数值)、范围校验
  • 添加错误捕获与记录(try-except + logging),每个步骤附带执行统计
  • 以代码注释、流程图或代码结构树方式呈现,标注输入输出规范

风格方向

  • 技术文档风:清晰分节,函数签名与返回值说明,适合集成到项目README
  • 伪代码可视化风:用文字流程图或ASCII框图展示清洗管线走向
  • 注释型代码风:每行代码前附注释说明意图,适合教学或代码审查
  • 结构树风:以缩进或Mermaid流程图(文字版)展示清洗模块层级

构图建议

  • 使用横向或纵向的文字流程图,从左到右展示:原始数据 → 缺失处理 → 异常处理 → 类型转换 → 去重 → 标准化 → 清洗完成
  • 每个节点标注函数名、主要参数、处理前后数据量变化(n条 → n条)
  • 分支处理:如缺失值过多则标记丢弃,异常值可基于IQR或Z-score
  • 底部或右侧添加日志输出示例:包括总记录数、修改行数、警告项

细节强化

  • 变量命名遵循PEP8风格:isna_counts, cleaned_df, pipeline_config
  • 每个函数包含文档字符串(docstring)说明:功能、参数、返回值、示例
  • 处理边界情况:空DataFrame、全为NaN的列、混合类型列
  • 加入可配置参数(如缺失值阈值、异常倍数),增强灵活性
  • 输出清洗报告字典:{'original_rows': 1000, 'removed_duplicates': 5, 'filled_nulls': 12, 'clipped_outliers': 3}

使用建议

  • 将此提示词用于生成代码骨架时,建议先定义好各字段的数据字典,再套用清洗管线
  • 若用于图像生成(如流程图),可在核心提示词后追加“技术文档风格流程图,白底黑字,英文标注,模块间用箭头连接”
  • 若用于教学,可在核心提示词中增加“每一步展示前后对比样例”的说明
  • 可根据实际数据集调整清洗步骤顺序(如先类型转换再异常检测)

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策