爬虫采集开源模型微调方案清晰框架提示词

2026-05-21阅读 828热度 828

本提示词方案旨在为技术架构师与数据工程师提供一套清晰、可落地的开源模型微调框架生成指引，通...

爬虫采集开源模型模型微调实战应用

提示词内容

请以“技术方案架构师”或“AI模型应用工程师”的身份，运用本提示词框架。您的核心目标是：为“使用网络爬虫采集数据，并对开源大语言模型进行微调”这一技术任务，生成一份逻辑清晰、步骤完整、可直接指导开发或用于方案汇报的框架性文档或可视化图表。

以下提示词组合可直接用于生成方案框架或示意图：

“绘制一个从‘目标网站’到‘微调模型部署’的完整技术流程图，包含数据采集、清洗、标注、模型选择、训练、评估、部署七大模块。”
“撰写一份《基于爬虫数据与LLaMA模型的领域知识微调方案》，要求结构包含：1.项目目标 2.数据管道设计（采集策略、清洗规则、隐私处理） 3.模型选型对比（Llama、ChatGLM、Qwen） 4.微调方法（LoRA/QLoRA参数配置） 5.评估指标与测试用例 6.部署与迭代计划。”
“生成一个‘开源模型微调实战检查清单’，以分点列表形式列出数据合规性检查、计算资源预估、训练代码仓库、监控指标等关键项。”

数据管道：强调数据去重、质量过滤、格式标准化、敏感信息脱敏等具体处理步骤。
模型与参数：具体化模型名称（如“Qwen-7B”）、微调方法（如“QLoRA, rank=64”）、关键超参数（如“learning_rate=2e-4”）。
评估体系：加入具体评估指标，如“在领域问答测试集上的准确率提升”、“输出格式合规性检查”。
风险与合规：提及robots.txt协议遵守、数据版权考量、个人隐私保护等合规性细节。