高效数据分析代码生成调试提示词
本提示词方案专为数据分析师与开发人员设计,提供一套结构化、可执行的指令框架,旨在高效生成、...
提示词内容
复制角色定义与任务定位
请以“数据分析与自动化开发专家”的身份,运用本提示词方案。您的核心目标是:针对具体的数据分析任务,快速生成准确、高效、可复用的代码,并系统性地诊断、修复代码中的逻辑错误、性能瓶颈或兼容性问题,最终交付可直接投入生产环境或支持决策的可靠分析结果。
适用场景
- 为周期性业务报表(如销售周报、用户活跃日报)编写自动化数据提取与清洗脚本。
- 在探索性数据分析(EDA)阶段,快速生成数据分布、相关性检验及异常值检测代码。
- 将复杂的业务逻辑(如用户分群规则、指标计算口径)转化为可执行的程序代码。
- 调试因数据格式突变、边界条件未处理或库版本不兼容导致的脚本运行错误。
- 优化现有数据分析代码的执行效率,处理大规模数据集时的内存与速度问题。
核心提示词
以下为可直接使用或组合的核心指令模板,请将【】内的内容替换为您的具体需求。
- 生成指令:“使用Python pandas和matplotlib,编写一个完整的脚本,用于分析【某电商平台订单数据】。要求:1. 读取CSV文件并处理缺失值;2. 计算每月销售额与环比增长率;3. 绘制销售额趋势折线图与月度销售额占比饼图。请给出完整代码与注释。”
- 调试指令:“以下代码用于计算用户留存率,但在计算第7日留存时出现KeyError。请逐行分析错误原因,提供修复后的代码,并解释修复逻辑。【附上问题代码】”
- 优化指令:“现有这段数据分组聚合代码在处理百万行数据时速度很慢。请使用向量化操作或更高效的方法(如使用NumPy、优化pandas操作)重写它,并比较性能提升。【附上原代码】”
- 解释指令:“请以步骤化方式解释这段【时间序列预测ARIMA模型】代码的每一关键部分的作用,特别是参数p,d,q的选择依据和模型诊断部分。”
风格方向
- 代码风格:追求工业级代码的严谨性,强调可读性(清晰的变量命名、充分的注释)、模块化(功能函数化)和健壮性(异常处理、日志记录)。
- 输出风格:分析结果输出应兼具机器可读性(如结构化的DataFrame、JSON)与人类可读性(格式清晰的控制台打印、自动生成的Markdown报告)。
- 沟通风格:在解释代码或问题时,采用“问题定位-原因分析-解决方案-预防建议”的逻辑链条,语言精准、专业。
构图建议(逻辑结构)
将代码生成与调试过程视为一个逻辑“构图”,建议按以下结构组织您的提示词或思考:
- 远景(目标定义):明确本次数据分析要解决的商业或研究问题是什么。
- 中景(流程框架):规划数据流水线——数据加载→清洗/预处理→转换/计算→可视化/报告。
- 近景(代码块):聚焦当前步骤的具体实现,一个提示词集中解决一个子任务(如“如何用pivot_table实现数据透视”)。
- 特写(调试焦点):当出现错误时,将提示词焦点缩放到具体的报错行、异常值或性能热点上。
细节强化
- 数据规格:在提示词中明确数据规模(行、列)、格式(CSV, JSON, SQL)、编码及关键字段的含义。
- 环境约束:指定或询问Python版本、主要库(pandas, numpy, scikit-learn, plotly)的版本要求。
- 错误处理:要求代码包含对常见问题(如文件不存在、数据为空、除零错误)的容错机制。
- 可视化规范:指定图表类型、颜色主题(如Set2色系)、图表尺寸、标注要求(标题、轴标签、图例)。
- 性能指标:在优化时,提出具体的衡量标准,如“将运行时间从10秒降低到2秒以内”或“将内存占用减少50%”。
使用建议
- 分步迭代:对于复杂任务,采用“分步请求,迭代验证”的策略。先生成核心逻辑代码,运行无误后再逐步添加异常处理、日志和优化。
- 提供上下文:在调试时,务必提供完整的错误信息回溯、相关数据样例以及您的预期输出。
- 指定输出格式:明确要求AI以“代码块”形式输出代码,并对关键步骤提供“文字解释”,便于您直接复制和后续审查。
- 结合行业知识:在提示词中融入行业术语(如金融的“夏普比率”、电商的“GMV”),能使生成的代码更贴合业务实际。
- 安全与合规:生成涉及敏感数据处理的代码时,务必自行加入数据脱敏、权限检查等合规性逻辑。