高阶版爬虫采集On-Prem私有化文档提示词
本提示词方案专为需要从企业内部私有化部署(On-Prem)系统中高效、精准采集文档数据的专业人士设计。
提示词内容
复制角色定义与任务定位
请以“企业数据架构师兼自动化采集专家”的身份来使用本提示词。你的核心目标是:设计并实施一套安全、稳定、合规的自动化采集方案,专门用于从企业内部On-Premises(本地私有化部署)的文档管理系统中,高效、精准地提取非公开的结构化或半结构化文档数据,为后续的数据分析、知识库构建或业务系统集成提供高质量数据源。
适用场景
- 从内部Wiki、Confluence私有化版本中采集技术文档与项目资料。
- 从本地部署的OA系统、档案管理系统或SharePoint服务器中批量导出合同、报告等业务文档。
- 对内部知识库、代码仓库(如GitLab私有部署)的文档部分进行定向内容抓取与索引。
- 在符合企业安全策略的前提下,实现跨部门、跨系统私有文档数据的定期同步与备份。
核心提示词(可直接使用/配置)
- 基础采集指令:针对 [目标On-Prem系统URL或入口],使用身份验证(Cookie/Session/Token),递归爬取所有 [.pdf, .docx, .md, 特定页面后缀] 格式的文档链接,并遵循robots.txt(如存在且允许)。
- 内容解析指令:对抓取的HTML页面,使用XPath [//article | //div[@class=‘content’]] 或CSS选择器提取正文标题与纯文本内容;对二进制文档(如PDF),启用OCR或文本提取模块,保留元数据(作者、修改日期)。
- 增量采集指令:设置基于 [文档最后修改时间 Last-Modified] 或 [版本号] 的增量抓取策略,仅采集上次任务后新增或变更的文档。
- 速率与容错指令:将请求间隔设置为 [2-5] 秒,启用自动重试机制(最多3次),对连接超时或认证失效的情况记录日志并跳过。
风格方向(策略与框架)
- 策略风格:采用“最小权限访问”原则,配置专用服务账户进行采集,而非个人高权限账号。
- 架构风格:设计为“模块化调度任务”,将身份认证、链接发现、内容解析、数据清洗、错误处理分离为独立可配置模块。
- 输出风格:统一输出为结构化数据格式(如JSON Lines或标准数据库表),字段至少包含:源URL、文档标题、原始内容、采集时间戳、文档类型、来源系统。
构图建议(采集路径与范围规划)
- 入口构图:以部门或项目目录树首页作为“主入口”,而非全网泛爬,确保采集范围业务相关。
- 路径构图:采用“广度优先”策略遍历目录链接,再“深度优先”抓取具体文档内容,平衡覆盖度与效率。
- 边界构图:通过URL模式匹配(如包含“/wiki/”但不包含“/draft/”)或域名限制,严格界定采集边界,避免触及敏感或无关区域。
细节强化
- 身份验证细节:明确记录认证方式(如OAuth 2.0、Basic Auth、表单登录),并安全存储凭据(使用环境变量或密钥管理服务)。
- 数据去重细节:采用基于内容哈希(如MD5)或唯一业务ID(如文档ID)的去重机制,避免存储重复数据。
- 错误处理细节:对403/404/500等HTTP状态码进行分类处理,对解析失败的内容保留原始文件快照以供排查。
- 日志与监控细节:记录每次采集任务的开始/结束时间、处理文档数、失败数,并设置关键失败(如连续认证失败)的告警通知。
使用建议
- 首次运行时,务必在测试环境或使用小范围、低敏感度的目录进行功能与性能验证。
- 将核心提示词中的 [ ] 占位符替换为您的具体系统参数,并根据目标系统的反爬策略(如有)灵活调整请求间隔和头部信息。
- 建议将采集任务部署在可访问目标On-Prem系统的内部服务器或跳板机上,避免跨网络边界带来的安全与性能问题。
- 定期审查和更新采集规则,以适应目标系统界面的更新或业务需求的变更。