数据分析Python脚本编写专业版提示词

2026-05-29阅读 220热度 220

本方案为数据分析Python脚本编写提供专业级提示词,先定义开发者角色与目标,再拆解出可落地的代...

数据分析 Python脚本编写 数据处理

提示词内容

复制

角色定义与任务定位

你应以资深数据分析工程师或Python开发者的身份,为需要快速完成数据清洗、统计建模或自动化报表任务的团队(或自己)编写一套专业、可维护的脚本。目标是:让脚本既满足当下分析需求,又具备良好的可读性、扩展性与异常处理能力,成为团队内部的数据处理标准模板。

适用场景

  • 从CSV、Excel、数据库等源批量导入并清洗数据(缺失值、异常值、重复值处理)
  • 执行分组统计、透视表、时间序列分析等常规探索性数据分析
  • 生成可视化图表(matplotlib/seaborn)并导出为报告附件
  • 将处理结果自动写入数据库或生成汇总Excel文件
  • 构建可复用的数据管道(ETL脚本),支持定时任务或参数化运行

核心提示词

以下提示词可直接复制到ChatGPT或代码生成工具中,用于描述脚本的核心逻辑:

  • “用pandas读取多个CSV文件,按日期列合并,处理缺失值(数值列填充中位数,分类列填充众数),检测并删除超过3个标准差的异常值”
  • “按用户ID分组,计算每月消费总额和消费频次,生成宽表格式,保留注册日期和活跃天数作为额外维度”
  • “使用seaborn绘制每个分组的箱线图,按指标列分面,保存为600dpi的PNG图片并添加标题和图例”
  • “将最终数据写入MySQL数据库的analysis_results表,如果表已存在则先删除再重建,写入时批量commit”
  • “添加argparse参数解析,支持–input_path、–output_mode(excel/db)、–date_range等可选参数”

风格方向

  • 代码规范:严格遵循PEP8,变量名使用snake_case,常量全大写;每行不超过79字符,函数与类之间空两行
  • 注释风格:每个函数头部用docstring描述参数、返回值和示例;关键步骤(如数据透视、合并)旁边加行内注释说明业务含义
  • 模块化:将数据读取、清洗、分析、可视化、导出分别封装为独立函数或类,主程序仅调用流程
  • 日志与调试:使用logging模块记录INFO和WARNING级别日志,异常捕获时输出完整traceback并记录到文件

脚本结构建议

  • 文件头部:模块说明、作者、版本、依赖库清单(requirements.txt引用)
  • 配置区:定义文件路径、数据库连接参数、控制阈值(如缺失率上限)等全局变量
  • 数据读取模块:支持多种格式自动嗅探(csv/xlsx/parquet),统一返回DataFrame并校验列名
  • 清洗模块:分步骤处理——空值、重复、异常、类型转换,每个步骤可作为独立可开关的执行单元
  • 分析模块:聚合统计、相关性计算、特征工程等,结果以字典或DataFrame列表形式返回
  • 可视化模块:接收分析结果,调用绘图函数并保存图像,支持多图拼接
  • 输出模块:灵活选择Excel(多sheet)、数据库、CSV,并提供进度条反馈
  • 主函数、入口点:if __name__ == "__main__": 调用argparse解析参数,依次执行各模块并捕获顶层异常

细节强化

  • 性能优化:对大数据集使用chunksize分块读取,用cudf替换pandas(如果GPU可用),尽量减少链式操作中的中间副本
  • 错误处理:每个文件读取时包裹try/except,记录失败的文件名并跳过;聚合函数遇到空分组时返回NaN而非报错
  • 内存管理:及时del不再使用的大变量,并调用gc.collect();对DataFrame使用inplace减少拷贝
  • 可复现性:在所有随机采样、模型训练步骤前设置seed,并将seed作为参数暴露在配置中
  • 国际化:列名、注释使用英文为主,中文仅用于业务注释;时区统一为UTC,在输出时转为本地时间

使用建议

  • 将核心提示词中的每一条作为独立Prompt输入到代码生成工具中,逐个迭代生成对应的函数体,不要一次性要求生成完整脚本(避免遗漏细节)
  • 运行前先手动准备一批小样本数据(10~100行)做单元测试,确保清洗与分析逻辑正确
  • 将生成的脚本放入项目目录,配合`pre-commit hook`进行PEP8自动检查和类型标注提示(mypy)
  • 对落库输出部分,建议先在本地SQLite数据库测试,通过后再切换到生产环境MySQL/PostgreSQL
  • 每次修改后更新docstring中的版本号,并生成README.md说明输入输出格式

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策