菜鸟AI AI提示词 · 教程 · 资讯

首页>提示词

高阶版爬虫采集On-Prem私有化文档提示词

2026-05-14阅读 787热度 787

本提示词方案专为需要从企业内部私有化部署（On-Prem）系统中高效、精准采集文档数据的专业人士设计。

爬虫采集 On-Prem 私有化文档

提示词内容

角色定义与任务定位

请以“企业数据架构师兼自动化采集专家”的身份来使用本提示词。你的核心目标是：设计并实施一套安全、稳定、合规的自动化采集方案，专门用于从企业内部On-Premises（本地私有化部署）的文档管理系统中，高效、精准地提取非公开的结构化或半结构化文档数据，为后续的数据分析、知识库构建或业务系统集成提供高质量数据源。

适用场景

从内部Wiki、Confluence私有化版本中采集技术文档与项目资料。
从本地部署的OA系统、档案管理系统或SharePoint服务器中批量导出合同、报告等业务文档。
对内部知识库、代码仓库（如GitLab私有部署）的文档部分进行定向内容抓取与索引。
在符合企业安全策略的前提下，实现跨部门、跨系统私有文档数据的定期同步与备份。

核心提示词（可直接使用/配置）

基础采集指令：针对 [目标On-Prem系统URL或入口]，使用身份验证（Cookie/Session/Token），递归爬取所有 [.pdf, .docx, .md, 特定页面后缀] 格式的文档链接，并遵循robots.txt（如存在且允许）。
内容解析指令：对抓取的HTML页面，使用XPath [//article | //div[@class=‘content’]] 或CSS选择器提取正文标题与纯文本内容；对二进制文档（如PDF），启用OCR或文本提取模块，保留元数据（作者、修改日期）。
增量采集指令：设置基于 [文档最后修改时间 Last-Modified] 或 [版本号] 的增量抓取策略，仅采集上次任务后新增或变更的文档。
速率与容错指令：将请求间隔设置为 [2-5] 秒，启用自动重试机制（最多3次），对连接超时或认证失效的情况记录日志并跳过。

风格方向（策略与框架）

策略风格：采用“最小权限访问”原则，配置专用服务账户进行采集，而非个人高权限账号。
架构风格：设计为“模块化调度任务”，将身份认证、链接发现、内容解析、数据清洗、错误处理分离为独立可配置模块。
输出风格：统一输出为结构化数据格式（如JSON Lines或标准数据库表），字段至少包含：源URL、文档标题、原始内容、采集时间戳、文档类型、来源系统。

构图建议（采集路径与范围规划）

入口构图：以部门或项目目录树首页作为“主入口”，而非全网泛爬，确保采集范围业务相关。
路径构图：采用“广度优先”策略遍历目录链接，再“深度优先”抓取具体文档内容，平衡覆盖度与效率。
边界构图：通过URL模式匹配（如包含“/wiki/”但不包含“/draft/”）或域名限制，严格界定采集边界，避免触及敏感或无关区域。

细节强化

身份验证细节：明确记录认证方式（如OAuth 2.0、Basic Auth、表单登录），并安全存储凭据（使用环境变量或密钥管理服务）。
数据去重细节：采用基于内容哈希（如MD5）或唯一业务ID（如文档ID）的去重机制，避免存储重复数据。
错误处理细节：对403/404/500等HTTP状态码进行分类处理，对解析失败的内容保留原始文件快照以供排查。
日志与监控细节：记录每次采集任务的开始/结束时间、处理文档数、失败数，并设置关键失败（如连续认证失败）的告警通知。

使用建议

首次运行时，务必在测试环境或使用小范围、低敏感度的目录进行功能与性能验证。
将核心提示词中的 [ ] 占位符替换为您的具体系统参数，并根据目标系统的反爬策略（如有）灵活调整请求间隔和头部信息。
建议将采集任务部署在可访问目标On-Prem系统的内部服务器或跳板机上，避免跨网络边界带来的安全与性能问题。
定期审查和更新采集规则，以适应目标系统界面的更新或业务需求的变更。

上一篇进阶版教培招生论文润色改写提示词 下一篇外贸开发品牌故事写作专业版提示词

常见问题

这个提示词适合哪些模型使用？提示词效果不稳定怎么优化？能不能批量生成同类内容？查看更多提示词模板

相关提示词

AI提示词05-14

高阶版爬虫采集On-Prem私有化文档提示词

本提示词方案专为需要从企业内部私有化部署（On-Prem...

最新教程

BAUHAUS框架的安装与环境配置详细步骤 AI 驱动的 video enhancer 工具安装与基础配置指南使用AI拜年黑科技工具的具体步骤与配置方法 AI 驱动的 video enhancer 工具安装与基础配置指南使用AI拜年黑科技工具的具体步骤与配置方法 DEEPSEEK 本地部署常见问题与解决方案

最新资讯

AI降重工具精选测评：提升企业内容效率与质量的权威指南 AI写作软件测评：2024年市场机遇与未来趋势深度解析 AI柱形图绘制指南：从入门到精通的智能工具实战测评 AI写作工具测评：2024年提升创作效率的五大关键与挑战 AI降重工具权威测评：2024年学术与企业应用精选榜单 AI生成借款合同指南：专业模板与安全要点解析购房合同避坑指南：AI工具辅助审查与关键条款解析购房合同必读指南：AI辅助工具精选与权威测评

欢迎回来 登录或注册后，可保存提示词和历史记录

用户

密码

登录后可同步收藏、历史记录和常用模板

用户

设置密码

确认密码

注册即表示同意服务条款与隐私政策