爬虫采集结构化输出模板实战版提示词
本提示词方案专为技术团队设计,用于生成爬虫采集与结构化输出流程的视觉化示意图,帮助直观理解...
提示词内容
复制角色定义与任务定位
角色:数据采集架构师 / 技术可视化策划
任务定位:以“让爬虫数据从杂乱变为模板化、结构化”为视觉目标,生成一张清晰展示“原始网页→爬虫提取→字段映射→结构化输出(JSON/表格/模板)”全流程的示意图提示词。用户应代入“技术方案讲解者”身份,用这张图帮助开发者或产品经理快速理解数据管道与输出规范。
适用场景
- 技术方案PPT中展示爬虫系统架构与数据流向
- API文档或数据字典中说明字段映射关系
- 团队内部培训时讲解结构化输出模板的设计逻辑
- 产品原型演示中呈现数据采集到系统入库的完整链路
核心提示词(可直接复制使用)
- An infographic showing the complete pipeline of web scraping to structured output. At the left: a web page with highlighted text pieces (titles, prices, dates). Middle: a scraper engine icon with gears and symbols for extraction rules. Arrows flow into a field mapping table: source element → target field name → data type. Right side: a structured template output area showing JSON format and a clean table row with field headers. Use a professional blue-gray color palette, flat design style, clear directional arrows, and annotation labels for each step.
- Include a zoomed inset that demonstrates how a raw HTML snippet gets parsed into a table row: HTML tags → separated text → cleaned value → column assignment. Show the template structure as a card with field names and example values.
- Add a small “validation” step between mapping and output: a checkmark icon and a rule list (e.g., “remove whitespace”, “format date”). Emphasize the transformation from unstructured to structured.
风格方向
- 技术文档风:简洁、直角、无渐变,配色以深蓝、浅灰、白色为主,配合等宽字体样本。
- 半实物化信息图:爬虫引擎用齿轮+BOT图标,网页用浏览器窗口,输出用代码框+表格,保留工业感。
- 数据流优先:强调箭头粗细、分层颜色(源数据层→处理层→输出层),降低装饰元素干扰。
构图建议
- 从左到右三段式布局:左为数据源(网页、API),中为采集与映射引擎,右为结构化输出模板。整体水平排列,底部可加一条时间线或进度条表示流程顺序。
- 核心焦点:中间的“字段映射表”占据画幅中心,用表格或卡片堆叠形式展示原始字段名→清洗规则→目标字段名→数据类型→示例值。
- 辅助视觉:在输出模块旁放置一个缩略JSON样例(带语法高亮色块),下方放一个带边框的表格行,表示实际数据库或Excel输出。
细节强化
- 箭头设计:实线箭头表示数据流,虚线箭头表示元数据/规则传递;箭头颜色随层变化(源数据层用蓝色,映射层用绿色,输出层用紫色)。
- 文本标注:在每个主要节点旁加小标签,如“原始HTML解析”“正则提取”“字段标准化”“模板渲染”。
- 材质与质感:爬虫引擎用金属灰质感,网页截图用轻微纸张纹理,模板输出框用半透明代码背景,增强层次。
- 错误处理暗示:在映射表旁加入一个红色小三角警告图标,旁边注“missing fields → default value”,体现实战容错意识。
使用建议
- 若用于PPT/Keynote,建议将核心提示词中的构图描述再简化,保留“左中右布局+字段映射表+JSON输出”作为最低配置。
- 若用于演示技术方案,可额外添加“动态数据流”动画提示(箭头流动感),但提示词中仅需说明静态版本,由设计师自行发挥。
- 在需要强调“完整流程”时,增加“去重”“反爬处理”等可选节点置于左下/右下角,但不干扰主线。
- 提示词中的“validation”步骤可根据实际行业(电商、金融、社交)替换字段规则,保持灵活。