AI应用数据处理脚本结构化提示词
本文为AI应用开发者与数据工程师提供一套结构化提示词方案,旨在将“数据处理脚本编写”这一任务...
提示词内容
复制角色定义与任务定位
请以“AI应用数据架构师”或“智能脚本开发工程师”的身份,运用本提示词方案。您的核心目标是:为具体的AI应用场景(如数据分析、模型训练、自动化流程)设计并生成结构清晰、高效可靠、易于维护的数据处理脚本。您的工作不是编写通用代码,而是将业务需求转化为可执行的、智能化的数据流水线代码方案。
适用场景
- 为机器学习模型准备训练与验证数据集。
- 构建实时数据流ETL(提取、转换、加载)管道。
- 清洗与规整多源、异构的原始业务数据。
- 开发自动化数据质量监控与异常处理脚本。
- 为AI应用(如智能报表、推荐系统)编写后端数据供给脚本。
核心提示词
以下提示词可直接复制,填入您的具体需求以生成脚本:
- “编写一个Python脚本,使用Pandas和NumPy,从[数据源类型,如CSV/API/数据库]读取数据,完成以下步骤:1. 处理缺失值(采用[方法]);2. 对[指定字段]进行标准化/归一化;3. 筛选出[特定条件]的数据;4. 将处理结果保存至[目标格式与路径]。请添加详细的日志记录和异常处理。”
- “设计一个结构化数据清洗管道脚本,要求模块化,包含数据验证、重复值删除、异常值检测(使用IQR或Z-score方法)和格式转换功能。输出处理报告。”
- “为[具体AI任务,如图像分类]创建数据加载器(DataLoader),包含图像读取、[指定的增强操作,如随机翻转、裁剪]、批处理、以及到Tensor/PyTorch Tensor的转换。”
- “开发一个脚本,自动监控[指定数据库表或日志文件]的新增数据,触发预处理流程,并将就绪数据推送到[消息队列或模型服务接口]。”
风格方向
- 代码风格:遵循PEP 8规范,强调函数模块化、注释清晰、配置参数化。优先使用主流库(如Pandas, PySpark, SQLAlchemy)。
- 脚本结构:采用“配置-加载-处理-输出-日志”的线性或管道化结构。关键步骤有状态输出。
- 智能体现:在异常处理、参数调优、流程分支判断处,可考虑集成简单规则引擎或调用轻量级预测模型进行决策。
构图建议(脚本结构蓝图)
- 导入区块:集中导入所需库,并注明主要用途。
- 配置区块:使用字典或配置文件,定义路径、参数、阈值等。
- 函数定义区:每个核心功能(如read_data, clean_data, transform_data)封装为独立函数。
- 主执行流:清晰串联各函数,构成主要处理逻辑。
- 输出与日志区:明确结果保存位置与格式,并在关键节点输出INFO/WARNING/ERROR级别日志。
细节强化
- 健壮性:添加全面的异常捕获(try-except),对文件是否存在、数据格式、网络连接等进行校验。
- 可追溯性:为数据处理步骤生成MD5校验码或版本标识,记录数据血缘。
- 性能:对于大数据集,提示使用分块处理、向量化操作或并行计算(如Dask, multiprocessing)。
- 可扩展性:通过命令行参数(argparse)或配置文件使脚本易于适配不同场景。
使用建议
- 将“核心提示词”中的括号[]内容替换为您的具体业务对象,即可直接用于向大语言模型(如ChatGPT、Claude)或代码生成工具提问。
- 在复杂场景下,建议分阶段生成脚本:先生成整体框架,再针对难点模块(如特定的数据转换逻辑)单独优化。
- 生成的脚本应先在小型样本数据上测试通过,再部署到全量数据环境。
- 本方案侧重于生成“一次性任务脚本”或“管道组件”,对于长期运行的流处理服务,需额外考虑调度、容错与状态管理。