长文总结能力实测：豆包大模型与Claude深度对比评测

2026-05-28阅读 0热度 0

Claude

一个核心结论是：在长文摘要任务中，Claude 3.5 Sonnet 的表现更为稳定、精准且可控。豆包的优势在于响应迅速、中文表达流畅，但在逻辑一致性、关键信息保留率以及原文结构还原度方面，存在可感知的差距。

两者均具备超长上下文处理能力，但实际策略与效果存在差异。Claude 默认会依据语义段落进行智能分块，并努力维持原文的层级逻辑。若在提示词中明确指令“严格基于原文总结，不增删核心论点”，其关键信息的召回率将显著提升。

豆包在处理长文档时，则易出现“末端衰减”现象——文档越靠后的部分，被纳入总结的概率越低。例如，在一份8万字技术白皮书的实测中，其总结完全遗漏了第6章下三个子标题的核心数据结论。

一个有效的应对策略是：对于超过5万字的长文本，建议依据逻辑模块手动切分，分段提交进行总结，最后合并各段结果进行交叉核验。此方法在Claude上的成功率更高。

即使在低随机性参数下，两者的行为模式也截然不同。Claude 对“逐节摘要”、“提取每段首尾句”等明确的粒度指令响应精准，易于产出结构清晰的摘要。

豆包则倾向于将多段论证压缩为泛化陈述。例如，它可能将“实验组A显著优于B（p<0.01），而C组无差异（p=0.42）”这一具体结论，概括为“各组效果存在差异”，导致关键的统计显著性信息丢失。

因此，提示词需要针对性优化。对于豆包，需增加强约束指令，例如：“禁止使用‘可能’、‘大概’等模糊词汇；所有结论必须注明原文依据位置”。

技术文档与政策文件中常见的“首次定义全称，后续使用缩写”结构，是对摘要准确性的严格考验。

Claude 3.5 通常会主动追溯缩写首次出现时的定义，并在摘要中统一使用全称或加以标注。豆包则常常直接沿用缩写，且不验证上下文中的缩写是否指向同一概念，这可能引发歧义。

一个临时解决方案是：在预处理阶段，使用正则表达式将缩写批量替换为“`[LLM: Large Language Model]`”格式。Claude 能良好识别此模式并正确解析术语，而豆包则需在提示词中额外强调此规则。

核心挑战不在于模型“能否总结”，而在于你能否确信它没有遗漏你所需的关键细节。Claude 的稳定性源于其更强的跨段落推理与信息锚定能力；而豆包流畅感的背后，是一种更激进的信息压缩策略——使用越深入，越应养成手动核验关键信息出处的习惯。

相关阅读