BI报表数据集清洗方案高阶版提示词
本提示词方案旨在为数据工程师、BI分析师及数据治理专家提供一套结构化、可落地的数据集清洗高阶...
提示词内容
复制角色定义与任务定位
请以资深数据治理架构师的身份,并设定为即将启动的复杂BI报表项目,设计一份详尽、专业且可执行的数据集清洗与预处理方案蓝图的核心目标。你的产出不是基础数据清洗步骤罗列,而是一份能体现系统性思维、风险预判与质量管控的高阶流程可视化文档。
适用场景
- 为跨部门、多数据源的战略性BI报表项目制定数据预处理标准操作程序(SOP)。
- 向项目团队或客户展示数据清洗的完整逻辑、关键节点与质量门控。
- 作为数据质量评估报告的技术方案部分,阐明数据准备阶段的严谨性。
- 用于新入职数据工程师的流程培训与工作指引。
核心提示词
可直接用于生成方案图或流程图的提示词组合:
- 主流程框架:BI报表数据集清洗高阶流程图,包含数据探查、规则定义、清洗执行、质量验证、文档输出五大阶段,采用泳道图形式区分数据源、处理逻辑与输出结果。
- 关键操作节点:异常值检测与处理策略(箱线图标识、稳健统计量替换)、缺失值插补模型选择(多重插补、KNN)、数据一致性约束(主外键关系校验、业务规则映射)。
- 质量监控点:设置数据质量检查点(DQC),包含完整性、唯一性、一致性、准确性、时效性(CUCAT)指标仪表盘草图。
风格方向
- 视觉风格:专业、清晰、现代的极简主义商务图表风格。避免卡通或过于花哨的元素。
- 色彩系统:采用低饱和度专业配色。用深蓝色表示“输入/源数据”,绿色表示“处理/转换过程”,橙色表示“检查/验证环节”,灰色表示“输出/文档化”,红色醒目标注“异常/驳回路径”。
- 整体质感:扁平化设计,带有细微的阴影和连接线,体现流程的层次感和逻辑流向。
构图建议
- 采用横向构图,从左至右展示时间或逻辑顺序,从上至下区分不同责任方(如数据团队、业务团队)的泳道。
- 核心流程置于视觉中心,关键决策点(如“是否通过验证?”)用菱形节点突出,并引出分支路径。
- 在流程图周边或底部,以小面板或图例形式展示核心清洗规则示例(如:日期格式标准化:YYYY-MM-DD;异常值定义:超出平均值±3个标准差)。
细节强化
- 流程细节:在“数据探查”阶段,加入“数据剖析报告”图标;在“规则定义”阶段,可视化“业务规则词典”或“数据质量规则库”的概念。
- 技术细节:在清洗节点旁,可标注示例技术工具或方法,如“使用Python Pandas进行数据类型转换”、“应用SQL窗函数进行重复记录排名”。
- 文档化输出:最终输出物应包括“清洗日志”、“数据血缘关系图”、“更新后的数据字典”,在流程末端以文件图标样式呈现。
使用建议
- 将上述“核心提示词”作为生成图像的主干描述,并结合“风格方向”与“构图建议”进行细化,即可直接输入至AI绘图工具(如Midjourney, DALL·E 3)生成高阶流程图。
- 在实际项目应用中,可根据本方案提示词生成的蓝图,使用Visio、Draw.io或Miro等工具绘制更详细的实施方案图。
- 此方案提示词侧重于“方案设计图”,若需生成具体的“数据清洗代码”或“SQL脚本”,需在此基础上调整角色定位为“数据开发工程师”。