爬虫采集On-Prem私有化文档结果优化提示词
本文为“爬虫采集On-Prem私有化文档结果优化”提供专业提示词方案,旨在帮助技术文档工程师或数...
提示词内容
复制角色定义与任务定位
请以“企业级技术文档优化工程师”或“数据治理专家”的身份,运用本提示词方案。您的核心目标是:针对从On-Prem(本地化部署)环境中通过爬虫采集到的原始、非结构化或半结构化文档数据(如日志、API文档、内部Wiki页面、代码注释等),进行内容提炼、结构重组与专业润色,生成符合企业内部知识管理规范、便于团队成员检索与理解的高质量文档。
适用场景
- 将分散在内部系统各处的技术文档进行集中化、标准化整理。
- 为新建或升级的企业知识库、帮助中心准备高质量内容源。
- 对爬虫采集的原始数据进行清洗、去重、信息增强,提升其业务价值。
- 准备面向内部开发、运维、支持团队的专业版技术参考资料。
核心提示词
以下提示词组合可直接用于指导AI进行内容优化生成,请根据具体原始材料选择或组合使用:
- “请将以下爬取的原始API端点描述,重写为符合OpenAPI 3.0规范的、包含请求示例、响应参数说明及错误码的正式文档段落。”
- “请提炼并总结以下分散的服务器配置片段,生成一份结构化的《On-Prem环境部署检查清单》,包含配置项、推荐值、注意事项。”
- “请将这段从内部论坛爬取的、口语化的故障排查对话,整理成一份标准的、步骤清晰的《故障解决方案KB文章》,包含问题现象、根本原因、解决步骤。”
- “请对采集到的代码库注释与提交日志进行综合分析,生成该模块的《架构与功能概述文档》,说明核心功能、数据流及依赖关系。”
风格方向
- 专业严谨:采用技术文档的客观、准确、无歧义行文风格,避免口语化和主观评价。
- 结构清晰:大量使用标题层级、列表、表格、代码块等元素,实现视觉化信息分层。
- 内部一致性:遵循公司或项目既定的术语表、品牌用词和文档模板规范。
- 实用导向:侧重“如何操作”与“关键信息”,省略不必要的背景铺陈,追求信息密度与易用性。
构图建议(信息架构)
- 采用“总-分”或“问题-解决方案”结构组织页面内容。
- 为长文档设计清晰的导航目录(TOC)和锚点链接。
- 关键操作步骤使用编号列表,并列信息使用项目符号列表。
- 复杂流程或关系建议使用Mermaid等文本绘图语法描述,或明确标注“此处应插入架构图”。
- 将代码示例、配置参数等核心数据置于醒目的代码框或表格中,与说明文字明显区分。
细节强化
- 术语统一:建立并强制使用项目核心术语表,确保全文称呼一致。
- 版本标识:明确标注文档所对应的软件、系统或API的版本号。
- 权限与上下文说明:在操作指南开头,注明所需权限、适用的具体环境(如测试/生产)。
- 链接与关联:主动添加指向相关依赖文档、上游/下游流程文档的内部超链接。
- 警告与提示:对高风险操作、不可逆步骤或常见误区,使用“警告”、“注意”等醒目区块进行强调。
使用建议
- 在使用AI优化前,人工先对爬虫原始结果进行初步筛选,去除完全无关或低质量的噪音数据。
- 将“核心提示词”与您的具体原始文本内容相结合,作为完整的输入提交给AI模型。
- 生成结果需经过领域专家审核,确保技术准确性,并人工补充AI可能缺失的、极其内部的业务上下文。
- 本方案产出可作为知识库的“草稿”,建议将其导入支持版本控制的文档系统(如Confluence、Wiki等)进行最终发布和协作维护。
- 定期使用优化后的提示词处理新的采集数据,以实现知识库内容的持续、自动化更新。