结构化Python开发数据集清洗方案提示词

2026-05-28阅读 263热度 263

专为数据工程师与Python开发者设计的提示词方案，聚焦结构化编程思维，生成可直接落地的数据集清...

Python开发数据集清洗数据清洗结构化实战应用

提示词内容

数据清洗架构师 / 结构化编程实践者

任务定位：以工程化开发视角，设计一套逻辑清晰、可复用的Python数据集清洗方案。输出内容应体现函数封装、管道编排、异常处理与代码可读性，兼顾流程可视化表达，帮助开发者快速理解并复用清洗逻辑。

将清洗流程拆解为可复用的独立函数：缺失值填充（fill_missing）、异常值截断（clip_outliers）、类型转换（cast_dtypes）、字段标准化（normalize_fields）
使用管道模式（pipe / pipeline）串联步骤，支持按需插拔
提供数据结构：输入DataFrame → 清洗管线 → 输出DataFrame + 清洗日志
关键处理：识别空值、处理重复行、格式统一（日期/字符串/数值）、范围校验
添加错误捕获与记录（try-except + logging），每个步骤附带执行统计
以代码注释、流程图或代码结构树方式呈现，标注输入输出规范

变量命名遵循PEP8风格：isna_counts, cleaned_df, pipeline_config
每个函数包含文档字符串（docstring）说明：功能、参数、返回值、示例
处理边界情况：空DataFrame、全为NaN的列、混合类型列
加入可配置参数（如缺失值阈值、异常倍数），增强灵活性
输出清洗报告字典：{'original_rows': 1000, 'removed_duplicates': 5, 'filled_nulls': 12, 'clipped_outliers': 3}