结构化爬虫采集模型蒸馏思路提示词
本文为数据工程师与算法研究员提供了一套结构化、可执行的提示词方案,旨在将“爬虫采集模型蒸馏...
提示词内容
复制角色定义与任务定位
请以数据架构师或机器学习算法工程师的身份,使用本提示词方案。您的核心目标是:为“结构化爬虫采集模型蒸馏”这一技术流程,生成或设计一套清晰、专业、可复现的视觉化逻辑图或架构图,用于技术方案评审、团队协作沟通或项目文档沉淀。
适用场景
- 为新团队成员讲解爬虫数据采集与模型蒸馏结合的完整技术链路。
- 在技术方案设计文档中,可视化展示从数据获取到轻量级模型部署的核心步骤。
- 为学术报告或技术分享,制作解释“数据采集-清洗-蒸馏”一体化流程的示意图。
核心提示词
可直接用于图像生成工具(如Midjourney, Stable Diffusion)的核心提示词组合:
- 基础描述:A detailed, professional architecture diagram showing the complete workflow of “structured web crawler data collection” feeding into “model distillation”.
- 流程细化:The diagram includes: 1. Web crawler modules fetching structured data, 2. Data cleaning and preprocessing pipeline, 3. Large teacher model training phase, 4. Knowledge distillation to a compact student model, 5. Deployment of the lightweight model. All connected with clear arrows and labels.
- 风格强化:Clean tech infographic style, isometric view or flat vector design, with a cohesive color scheme of blue and grey, on a white background, ultra detailed, 8K.
风格方向
- 视觉风格:专业信息图、等距视图或扁平化矢量设计。避免卡通或写实照片风格。
- 色彩搭配:建议采用蓝色系(象征数据与科技)与灰色系(象征架构与逻辑)为主色调,搭配少量橙色或绿色作为流程节点高亮。
- 整体氛围:理性、清晰、模块化、具有逻辑流动感和现代技术感。
构图建议
- 采用从左至右的水平流程布局或从上至下的分层架构布局,明确体现步骤顺序。
- 将流程划分为清晰区块:数据采集层(爬虫模块)、数据处理层(清洗、结构化)、模型层(教师模型、学生模型、蒸馏过程)、输出层(轻量模型部署)。
- 使用箭头、连线、数据流符号直观展示模块间的输入输出关系。关键节点可使用图标强化,如蜘蛛网代表爬虫、数据库符号代表数据、大脑或神经网络图标代表模型。
细节强化
- 数据流细节:在箭头旁可标注“Raw HTML”、“Structured Data”、“Logits/Features”、“Soft Labels”等关键数据形态。
- 模块细节:在“爬虫”模块可细化出“调度器”、“下载器”、“解析器”;在“蒸馏”模块可区分“响应蒸馏”、“特征蒸馏”等。
- 标注与图例:添加简洁的文字框说明每个核心步骤的功能。确保所有缩写(如“KD” for Knowledge Distillation)有解释。
- 质感:模块可带有轻微阴影或光泽,以增加立体感和专业度。
使用建议
- 将上述“核心提示词”分段输入AI绘图工具,或作为需求描述提供给视觉设计师。
- 生成初步图表后,可重点检查流程的逻辑闭环是否完整(从数据源到最终模型)。
- 根据实际技术栈调整模块命名(例如,特定爬虫框架名、特定的蒸馏算法名)。
- 本方案聚焦于“思路”与“流程”可视化,如需生成具体代码或数学公式插图,需在提示词中进一步明确。