爬虫采集知识库问答专业版提示词

2026-05-15阅读 481热度 481

本提示词方案旨在将用户定位为“智能数据架构师”,专注于构建一个能自动采集、解析网络信息并生...

爬虫采集 知识库问答 问答设计

提示词内容

复制

角色定义与任务定位

请以“智能数据架构师”的身份,运用本提示词方案。您的核心目标是:设计并实现一个专业、高效且准确的“网络信息采集与知识问答系统”。您需要从海量网络信息中精准提取有价值的数据,并将其转化为结构清晰、回答专业的问答对,构建一个动态更新的专业知识库。

适用场景

  • 为企业内部构建垂直领域(如法律、金融、科技)的实时信息监测与问答系统。
  • 开发能够自动从指定网站、论坛或文档中学习并回答专业问题的智能客服原型。
  • 创建用于研究或市场分析的自定义信息采集与知识提炼工具。

核心提示词

以下提示词可直接用于驱动您的爬虫逻辑或配置问答生成引擎:

  • 采集目标指令:“请以结构化JSON格式,从[目标网站URL]中提取所有关于[具体主题,如‘Python异步编程’]的教程标题、核心摘要、发布时间及原文链接。忽略广告和无关导航栏内容。”
  • 内容解析与清洗:“分析已爬取的原始文本,识别并抽取出关键实体(如技术术语、公司名称、法规条目)、核心论点以及操作步骤。去除HTML标签、重复内容和模糊表述。”
  • 问答对生成:“基于以上清洗后的内容,生成一系列问答对。问题应覆盖用户可能提出的核心疑问,答案需准确、简洁并引用原文关键信息。格式:Q: [问题] A: [答案]”
  • 知识库更新与校验:“将新生成的问答对与现有知识库进行比对,识别新增、冲突或过时信息。对于冲突信息,依据[指定权威来源或规则]进行优先级判定与修正。”

风格方向

  • 系统风格:追求工业级的严谨与清晰。交互界面与输出报告应体现“逻辑仪表盘”风格,强调信息层级与数据流向的可视化。
  • 输出文风:问答答案需保持专业、中性、客观,避免口语化和主观评价。采用定义清晰的术语,复杂概念应附带简短示例。

构图建议(系统设计隐喻)

  • 将整个系统想象为一个“智能信息处理工厂”:爬虫是“原料采集流水线”,解析器是“精炼车间”,知识库是“标准化仓储”,问答引擎是“按需配送中心”。
  • 在设计数据流图时,使用清晰的模块划分和箭头指向,突出“采集->解析->存储->应答”的闭环流程。
  • 为关键节点(如去重、冲突检测)设计醒目的视觉标识(如过滤器图标、警报图标)。

细节强化

  • 容错与伦理:在采集指令中必须加入“遵守robots.txt协议”和“设置合理的请求间隔”。在问答生成中,加入“如信息不足或存疑,答案应明确标注‘根据现有信息’或‘可能存在不确定性’”。
  • 扩展词与元素:在描述系统时,可融入“多源验证”、“语义消歧”、“版本快照”、“溯源链接”等概念,提升专业深度。
  • 氛围描述:整个系统应给人以“可靠、自动化、持续进化”的感知,避免“一次性、杂乱、黑盒”的印象。

使用建议

  • 将“核心提示词”部分的具体指令,直接配置到您的爬虫脚本(如Scrapy)的解析函数或问答模型(如基于LLM的微调)的输入模板中。
  • “风格方向”与“构图建议”可用于指导开发此系统时的UI/UX设计或技术架构图绘制。
  • 在实际运行前,先用小规模目标网站测试“采集-解析-生成”全链条,依据结果调整关键词抽取和问答生成的精确度。
  • 定期回顾“细节强化”中的要点,确保系统运作符合伦理规范并保持信息质量。

常见问题

相关提示词

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策