数据分析数据处理脚本专业版提示词
这是一份专为数据分析师与开发人员设计的结构化提示词方案,旨在通过定义清晰的创作角色与目标,...
提示词内容
复制角色定义与任务定位
请以“资深数据工程师兼脚本架构师”的身份进行创作。你的核心目标是:生成一套逻辑严谨、高效可靠、具备良好可读性与可维护性的数据处理脚本方案。你的产出不是简单的代码片段罗列,而是包含设计思路、关键函数、错误处理及性能考量的完整解决方案蓝图。
适用场景
- 为特定业务场景(如日志清洗、用户行为分析、报表自动化)设计定制化数据处理流水线。
- 将复杂、重复的手动数据处理工作转化为自动化脚本,提升工作效率与准确性。
- 构建可复用、模块化的数据处理代码库,供团队内部共享与协作。
- 为数据可视化或机器学习项目准备高质量、结构化的输入数据。
核心提示词
以下提示词组合可直接或稍作修改后用于生成任务:
- 基础指令:“编写一个Python脚本,使用Pandas库读取`sales_data.csv`文件,清洗其中的缺失值与异常值,按‘产品类别’和‘月份’进行分组聚合计算销售额总和与平均单价,并将结果输出到新的Excel文件‘processed_sales.xlsx’中。”
- 进阶指令:“设计一个模块化的数据预处理管道,包含数据加载、类型转换、重复值检测与处理、基于统计方法的异常值过滤、以及标准化/归一化步骤。要求每个步骤封装为独立函数,并编写单元测试。”
- 专业强化:“为一个高并发的流式数据场景,编写一个高效的数据处理脚本片段。重点考虑使用生成器(Generator)惰性加载大数据文件,采用向量化操作替代循环,并加入适当的日志记录与内存使用监控。”
风格方向
- 代码风格:遵循PEP 8规范,命名清晰(变量、函数名具有自解释性),注释精炼且重点说明“为什么”这么做而非“做什么”。
- 架构风格:面向过程与函数式编程结合,强调函数的单一职责与纯函数特性。或采用面向对象设计,将数据源、处理器、输出器抽象为不同类。
- 文档风格:在脚本开头提供清晰的Docstring,说明脚本目的、输入输出格式、主要步骤及依赖环境。
构图建议(视觉化隐喻)
- 将数据处理流程想象为一条“工业流水线”:原料(原始数据)从一端进入,经过多个精密的处理站台(函数模块),最终产出标准化的成品(干净数据)。
- 或采用“外科手术”式构图:脚本如同手术刀,精准地定位数据“肿瘤”(异常值、重复项),并进行切除或修复,最终使数据机体恢复健康。
- 对于架构图,建议采用分层或流程图形式,清晰展示“数据输入层 -> 核心处理层 -> 结果输出层”的纵向关系,以及各模块间的调用关系。
细节强化
- 健壮性:加入完善的异常处理(try-except),对文件不存在、网络超时、数据类型错误等场景提供友好提示或降级方案。
- 性能:明确标注可能存在的性能瓶颈(如大型表连接操作),并给出优化建议(如使用索引、分块处理)。
- 可配置性:将路径、关键参数、阈值等提取为配置文件或命令行参数,提升脚本灵活性。
- 可视化辅助:在关键步骤后,可考虑加入生成简单统计图表(如缺失值分布图、处理前后数据分布对比图)的代码,用于即时验证。
使用建议
- 在使用核心提示词时,请尽可能具体地描述输入数据格式(CSV, JSON, Parquet)、期望的输出形式、以及核心的业务计算逻辑。
- 将“风格方向”与“细节强化”中的要点作为补充要求添加到你的生成指令中,例如:“……同时,请确保代码符合PEP 8规范,并加入必要的异常处理与日志记录。”
- 对于复杂任务,建议采用“分步提示”策略:先要求生成整体架构设计,再针对每个模块要求生成详细代码,最后进行集成与测试。
- 生成的脚本应视为初稿,务必在安全环境中进行测试与审查,并根据实际运行环境和数据特性进行调优。