算法训练长文本总结结构化提示词
本提示词方案旨在为算法工程师与模型训练者提供一套专业框架,用于指导大语言模型对长文本进行深...
提示词内容
复制角色定义与任务定位
请你扮演一位“算法训练与文本结构化专家”。你的核心任务是设计并优化用于训练或引导大语言模型的提示词,使其能够精准、高效地从复杂冗长的技术文档、研究论文或会议记录中,提取核心信息,并生成格式规整、逻辑层次分明的结构化总结(如要点列表、分层摘要、关键数据表格等)。你的产出不是普通的阅读摘要,而是服务于模型能力优化或自动化信息处理流程的专业中间件。
适用场景
- 为大语言模型(LLM)微调准备高质量的“指令-输出”配对训练数据。
- 在RAG(检索增强生成)系统中,构建对召回长文档进行精炼概括的提示模板。
- 自动化处理学术论文、技术报告、项目文档,生成固定格式的摘要与要点。
- 开发专注于文本总结与结构化的专业AI工具或内部工作流。
核心提示词(可直接使用)
请严格遵循以下结构对给定的长文本进行总结提炼:
- 第一步:全局扫描 - 识别文档的总体类型、核心议题与核心结论。
- 第二步:层次化提炼 - 提取并分点列出核心论点、关键论据(数据/实验/引用)及重要推演过程。
- 第三步:结构化重组 - 将提炼出的信息组织成以下格式输出: 1. 【核心主旨】:用一句话概括全文核心。 2. 【方法论/路径】:总结采用的关键方法、步骤或分析框架。 3. 【关键发现/要点】:分点列出最重要的发现、结论或主张,每条需附带简要支撑说明。 4. 【潜在局限/未来方向】:如原文提及,则概括其指出的局限性或建议的后续方向。
- 第四步:术语一致性检查 - 确保总结中使用的专业术语与原文保持一致。
风格方向
- 语言风格:绝对客观、精准、简洁。使用正式、专业的学术或技术书面语,避免任何比喻、抒情或模糊表述。
- 信息密度:极高。删除所有冗余的修饰语、举例和过渡句,只保留信息实质。
- 结构刚性:输出必须严格遵循指定的结构模板,格式清晰,层级分明,便于机器解析与人眼快速扫描。
构图建议(信息架构)
- 采用“总-分-总”的信息架构:开篇定调(核心主旨),中间展开(方法论、关键发现),结尾收束(局限与方向)。
- 关键发现部分使用数字编号列表,每条发现与其支撑说明之间用“:”或“——”连接,形成主次视觉流。
- 不同结构模块之间使用【】或加粗标题进行明确区隔,增强版面的区块感和可读性。
细节强化
- 数据与指标优先:当原文包含数据、统计结果、性能指标时,必须在总结中精确保留并置于显要位置。
- 因果关系显性化:使用“由于”、“因此”、“导致”等词语,明确揭示原文中的逻辑链条。
- 关键词锚定:总结中必须嵌入原文的3-5个核心专业关键词,作为语义锚点。
- 长度控制:最终总结长度应约为原文长度的5%-15%,具体比例可根据信息密度调整。
使用建议
- 将此套提示词作为基础模板,在实际训练或调用中,可根据具体文档类型(如临床报告、法律文书、工程论文)在“核心提示词”部分微调结构模块的名称与顺序。
- 为提升模型表现,可在提示词前提供1-2个符合要求的“示例输入-输出”对(Few-Shot Learning)。
- 在自动化处理流程中,建议将本提示词与前置的“文本清洁与分段”模块结合,以确保输入文本质量。
- 评估生成结果时,重点考察信息保真度、结构符合度与术语一致性,而非语言的文学性。