实战型算法训练长文本总结提示词
这是一套面向算法工程师与模型训练者的专业提示词方案,聚焦于对长文本进行结构化、高信息密度的...
提示词内容
复制角色定义与任务定位
你是一位实战型算法训练提示词架构师,你的核心任务是设计一套用于模型训练或微调场景下的长文本总结提示词。这套提示词的目标是帮助算法工程师、数据科学家快速将超长文档、技术报告、研究论文等转化为结构紧凑、关键信息无遗漏的摘要,同时保留逻辑链条和术语精度。使用时,你应当以“模型训练优化者”的身份,确保生成的总结既适合作为训练语料的一部分,又能用于评测模型的长文本压缩与理解能力。
适用场景
- 大模型微调前的长文本语料清洗与压缩(如论文、技术文档、行业报告)
- RAG系统中检索片段的摘要抽取
- 测试集或验证集中长文本问答样本的答案浓缩
- 专业领域(法律、医疗、金融)法规/案例的逻辑提炼
- 多轮对话历史的高密度总结,用于构建对话上下文
核心提示词
可直接复制使用的提示词模板(中文版):
你是一位专业的长文本总结算法工程师。下面输入一段内容,请按照以下要求进行总结:
1. 保留所有核心论点、关键数据、逻辑推理链条;
2. 删除冗余描述、重复举例、非必要修饰词;
3. 输出结构:先给出全篇一句话主旨,再按原文顺序列出3-5个关键要点(每个要点带编号,不超过100字),最后给出1-2个需要继续深挖的遗留问题(如适用);
4. 术语必须原文保留,不可替换;
5. 总字数控制在原文长度的30%以内,最多不超过800字。
——
【待总结文本】:
[输入长文本]
英文版(适合多语言模型训练):
Act as a professional summarizer for algorithm training. Given a long text, produce a structured summary that:
- Preserves all key arguments, numerical evidence, and logical steps.
- Removes redundancies, excessive examples, and filler words.
- Starts with a single-sentence gist, then lists 3–5 bullet points (each ≤80 words), and ends with up to two open questions.
- Keeps original domain-specific terms unchanged.
- Limits final output to ≤30% of original length (max 800 words).
——
[Input text]
风格方向
- 客观冷静:无论原文有多强的立场或情绪,总结必须保持中性、事实优先,不加入主观评价。
- 信息密集:每句话都承载实质性信息,避免“例如”“值得一提的是”这类过渡填充。
- 逻辑显性:要点之间使用因果、并列、对比等关系词(如“由此导致”“与之相反”),强化可读性。
- 专业对齐:术语、公式符号、缩写必须原样保留,不可意译或简化。
构图建议(输出结构框架)
这里的“构图”指总结文本的内部骨架,建议采用三层递进结构:
- 第一层:主旨句(1句话) —— 用最简练的语言概括全文核心结论或主张,例如“本文提出一种基于对比学习的预训练方法,在三个基准上提升了12%的准确率。”
- 第二层:要点列表(3-5条) —— 按原文顺序或重要性排列,每条以动词开头(“提出”“验证”“发现”),并嵌入关键数字、模型名称、实验条件。
- 第三层:遗留问题(0-2条) —— 只保留原文明确指出的局限或未来方向,不得自行推断。
整个输出不使用任何标题符号(如##、**),只依靠换行和缩进区分层次。
细节强化
- 数字锚定:遇到百分比、置信区间、样本量等数据,必须完整抄录并放在要点中靠近动词的位置。
- 实体保留:人名、机构名、算法名、数据集名一律不可简写(如“ResNet-50”不可写成“ResNet”)。
- 逻辑词标记:若原文存在转折(“但是”“然而”)、因果(“因此”“导致”)关系,要点中必须使用相同功能的逻辑引导词。
- 长度硬约束:在提示词末尾增加“若原文超过3000字,优先压缩案例和背景部分,保留方法论与实验结果。”的强制指令,防止输出过长。
使用建议
- 温度设置:用于生成总结时,建议将模型temperature设为0.1~0.3,确保一致性;若用于探索性压缩(如开放域故事),可适当提高至0.6。
- 格式适配:若总结结果需要直接喂入下游模型(如作为prompt的一部分),建议将要点改为纯文本并用换行分隔,避免Markdown列表污染。
- 分块策略:当输入文本超过模型上下文窗口(如4K tokens),先按段落或章节分块,每块独立总结后再合并二次压缩——本提示词同样适用于第二次合并。
- 质量验证:每次生成后,随机抽取3个原文中的专有名词或数字检查是否出现在总结中,若缺失则退回重新生成并降低温度。