专业版爬虫采集企业知识库问答提示词
这是一份面向数据工程师与知识库架构师的专业提示词方案,旨在通过精准的爬虫采集与问答设计,构...
提示词内容
复制角色定义与任务定位
请以“企业知识库数据架构师”与“智能问答系统设计师”的双重身份,执行本方案。您的核心目标是:设计并实施一套高效的网络爬虫策略,从指定的、高质量的信源中精准采集非结构化数据,并对其进行清洗、重组与标注,最终转化为结构清晰、语义明确、可直接用于训练或支撑企业智能问答系统的知识条目。
适用场景
- 为企业内部Wiki、产品手册、技术文档库构建初始知识数据源。
- 从竞品官网、行业白皮书、权威技术博客中采集信息,用于竞争分析与市场情报。
- 为客服机器人、员工自助服务系统准备标准问答对(Q&A)训练数据。
- 对分散在多个旧版系统或网页中的政策、流程文档进行统一采集与结构化归档。
核心提示词
以下提示词可直接用于指导爬虫配置或作为数据清洗规则的核心描述:
- 采集目标指令:“请以深度优先策略,爬取 [目标网站域名] 站点下所有‘/docs/’及‘/help/’路径的页面,提取正文主内容区(排除导航、页脚、广告),并保留标题(H1-H3)层级结构。”
- 问答对生成指令:“请将上述采集的每一篇文档,总结为不超过5个核心问答对。问题需基于用户常见疑问视角(例如:‘如何配置X?’、‘Y功能出错怎么办?’),答案需直接引用或精炼自原文关键步骤与结论。”
- 元数据标注指令:“为每个采集的知识条目自动生成关键词标签(基于TF-IDF算法提取)、内容类型(如:操作指南、故障排查、概念说明)及信源可信度等级(高/中/低)。”
风格方向
- 数据风格:追求高度结构化、无冗余、格式统一。输出应为JSON、XML或规范的Markdown表格形式。
- 语言风格:知识条目表述需客观、精准、无歧义,模仿技术文档的严谨性,避免营销化或主观评价语言。
- 逻辑风格:问答对需遵循“问题-答案-参考依据”的强逻辑链,答案应具备可验证性。
构图建议
此处的“构图”指知识单元的结构设计:
- 采用“卡片式”知识单元:每个独立主题或问答对视为一张卡片,包含唯一ID、标题、正文、标签、信源链接、更新时间等固定字段。
- 建立“树状”知识关联:通过标签和主题分类,将分散的知识卡片组织成树状目录,便于导航和关系挖掘。
- 设计“管道式”处理流程:在提示词中明确“采集→清洗→标注→质检→入库”的流水线阶段,确保每一步产出清晰。
细节强化
- 去重与合并:设置规则,对内容相似度超过90%的采集结果进行自动去重或内容合并提示。
- 时效性标注:自动识别文档中的日期信息或版本号,并为知识卡片打上时效性标签(如:2023年更新)。
- 质量过滤:设定基础规则(如:正文长度少于100字符、图片占比过高等),自动过滤低质量或无效爬取页面。
- 安全与合规:在提示词中强调仅采集公开、允许爬取的数据,并自动屏蔽个人隐私信息(如邮箱、电话)的抓取。
使用建议
- 分步执行:建议将“核心提示词”中的指令拆解,依次应用于爬虫配置、中间件清洗和最终标注环节,形成可审计的步骤。
- 变量替换:将提示词中的 [目标网站域名] 等占位符替换为实际目标,并可扩展增加如 [爬取深度]、[目标文件类型] 等控制变量。
- 人工校验闭环:生成的问答对和知识卡片,必须引入领域专家进行抽样校验,并将校验反馈(如:答案不完整)转化为新的提示词规则,迭代优化采集逻辑。
- 组合应用:可将本方案与“知识图谱构建提示词”或“对话微调数据准备提示词”结合使用,形成从数据采集到应用落地的完整链条。