清华团队ICLR 2026论文：短文本升级长文本的最小结构改动方案

2026-05-16阅读 0热度 0

InfLLM

在大语言模型追求更强推理与更复杂任务落地的进程中，“上下文长度”已从一项基础配置，演变为决定系统能力上限的核心瓶颈。

长文档分析、多轮对话记忆、复杂任务规划与长链式推理等前沿应用，对模型序列长度的需求远超传统的4K或8K限制。与此同时，主流Transformer架构中全注意力机制的计算与显存开销，随序列长度呈平方级增长，使得扩展上下文窗口在工程实践中面临难以承受的成本压力。

稀疏注意力技术被视为应对这一矛盾的主流方向。然而，其引入并未彻底解决问题，反而揭示了一系列更深层的结构性挑战。

近年来，大量研究通过设计新型注意力结构、路由机制或可训练稀疏模块来降低计算复杂度。这些方法在理论指标或特定评测集上表现优异，但在真实的模型训练与部署流程中，却普遍遭遇“水土不服”：当前大模型普遍遵循“短序列预训练、长序列微调”的范式，而许多改动模型架构的稀疏方案，在结构、参数或输出形式上与标准全注意力存在显著差异，导致能力迁移过程异常困难。

在此背景下，清华大学刘知远团队的研究《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》提供了新的思路。与以往聚焦“引入新结构”的路径不同，这项研究回归到一个更根本的问题：实现长上下文效率，是否必须以改变模型核心架构为代价？

为此，团队提出了一种稠密-稀疏可切换的注意力框架。其核心在于，以原有全注意力参数为起点，保持输出形式完全一致，实现长短文本的高效协同训练，从而平滑完成从短上下文到长上下文的过渡。

这项工作的价值不仅在于性能提升，更在于从性能保持、训练稳定性与端到端推理效率三个维度，对这一设计进行了系统性验证，为长上下文大模型的工程实践开辟了一条切实可行的新路径。

一次面向「真实可用性」的系统性验证

该研究的实验设计具有明确的工程导向，围绕三个递进的核心问题展开：

第一，在长上下文任务中，其性能能否逼近全注意力基线？第二，在“短预训练-长微调”的通用范式下，该方法是否会损害模型原有能力？第三，稀疏注意力带来的理论加速，能否转化为端到端的实际推理收益？

针对第一个问题，团队在32K长度的RULER基准上进行了评测。InfLLM-V2（Sparse）在绝大多数子任务上的表现曲线，与使用全注意力的基线高度重合。相比之下，训练后稀疏方法在部分任务上出现性能断崖，而可训练稀疏注意力方法NSA在短到长迁移设定下显著落后。

这一结果证明，InfLLM-V2的稀疏策略有效保留了跨块的长距离依赖建模能力。其他方法则可能在块选择失效或对注意力分布造成不可逆扰动。

在更贴近真实场景的LongBench基准上，这一趋势更为明显。LongBench覆盖问答、摘要、推理及多语言任务，整体难度高于合成数据集。即便如此，InfLLM-V2（Sparse）的整体得分仍达到甚至略微超越了全注意力基线。

NSA的性能明显落后，而仅依赖长度外推的SHORT+YaRN方法则出现大幅退化。研究还发现一个关键现象：InfLLM-V2的稠密/稀疏可切换机制，在部分任务中降低了注意力噪声，使模型输出更稳定。

在衡量长序列语言建模能力的LongPPL评测中，InfLLM-V2的表现与全注意力基线基本一致，而NSA的困惑度显著更高。这表明NSA在迁移训练后，并未真正掌握长程语言分布建模，其较低的训练损失未能转化为有效的长序列能力。

针对第二个问题，团队系统评估了MATH-500、AIME及LiveCodeBench等长链式推理任务。这类任务输出序列长，且中间推理步骤严重依赖早期上下文信息。

实验显示，InfLLM-V2（Sparse）在这些任务上的表现与全注意力基线几乎持平，而NSA在所有相关任务中均出现明显下降。这直接证明，InfLLM-V2的稀疏机制不会破坏链式思维推理所必需的“思维连续性”。

此外，研究验证了一个工程中关键但常被忽视的问题：长上下文微调后，模型是否仍能胜任常规短序列任务？在MMLU、CEval、HumanEval等评测中，InfLLM-V2切回稠密模式后，性能与全注意力基线相当，而NSA则出现明显退化。这从工程角度给出了肯定答案：InfLLM-V2在适配长上下文时，不会牺牲模型的通用能力。

最后，针对第三个关于实际收益的问题，团队不仅评估了注意力核的理论加速，更测量了完整推理流程中预填充和逐词解码的端到端效率。

在可见token数为6K的设置下，InfLLM-V2实现了约2.1倍的预填充加速和2.3倍的解码加速。这一结果是在前馈网络部分未做任何优化的前提下获得的，证实了该稀疏设计在真实推理场景中的落地价值。

从架构设计到系统级优化

超越具体数据，这项研究回答了一个根本问题：InfLLM-V2的优异表现并非偶然，而是其设计逻辑在完整训练流程中被系统性验证的必然结果。

团队首先指出了一个关键现实：几乎所有大模型都遵循“短序列预训练、长序列微调”的范式。因此，任何在迁移过程中大幅改变参数结构或注意力输出形式的稀疏方案，都会损伤模型在短序列阶段已习得的强大表示能力。

基于此约束，InfLLM-V2设定了明确的核心前提：从稠密注意力过渡到稀疏注意力时，必须保证已有稠密注意力的表达能力不被破坏。

在具体训练流程上，团队首先采用标准Transformer架构对8B参数模型进行4K序列长度的短序列预训练，使用GQA结构。此阶段未引入任何稀疏机制，确保模型能力完全建立在传统全注意力基础上。

进入长上下文训练阶段后，模型内部仅发生三项关键变化：当序列长度超过预设阈值时，注意力掩码由稠密切换为稀疏；键与值的投影参数被完整复用，不引入新参数分支；注意力输出始终保持为单一结构，不使用门控或多路输出聚合。

这种“最小结构扰动”的切换方式，使InfLLM-V2在适配长上下文的同时，最大程度保留了原有模型能力。这也构成了其与NSA等可训练稀疏方法的本质区别。

相关实验进一步验证了一个反直觉结论：可训练的稀疏注意力，并不必然更适合短到长迁移。分析表明，NSA在该设定下的性能问题并非源于稀疏机制本身，而是由于其引入了三套键-值投影、多路注意力输出及基于门控的结果聚合结构。

这些额外模块在短序列阶段不仅带来冗余计算开销，还会显著改变注意力分布形态，干扰模型已学到的表示。在实验中，这表现为训练损失曲线震荡、长序列困惑度升高，以及长链式推理任务的系统性性能下降。

在工程实现层面，团队通过消融分析定位了InfLLM-V2的主要性能瓶颈，集中在块选择阶段，尤其是压缩注意力的计算与注意力分数的显式物化过程。针对此，实验中引入了头组融合和LSE近似等优化策略。

结果表明，这些改进在几乎不影响模型性能的前提下，能将块选择的计算时间降低20%至30%，为后续端到端推理的显著加速奠定了关键基础。

一种支持「热升级」的长上下文解决方案

从方法论角度看，这项研究为“长上下文大语言模型”的发展提供了重要启示。

团队明确指出，稀疏注意力机制未来的重点，或许不在于设计全新结构，而在于如何在不破坏既有稠密注意力架构的前提下，实现高效稀疏化。这一观点，在一定程度上扭转了以往以“结构创新”为主导的研究范式。

在工程实践层面，InfLLM-V2的特性精准契合工业部署的核心需求：无需调整参数规模、无需维护多套模型版本、不牺牲短序列任务性能，且不依赖重新大规模预训练。这意味着，一个已部署或训练完成的现有大模型，能以最小代价被“热升级”为具备长上下文处理能力的版本。

此外，该研究也为后续工作划定了重要约束：应避免引入额外的注意力分支，以保持结构一致性；不应采用与稠密注意力输出形式不兼容的设计，防止迁移过程中的能力损失；稀疏注意力设计必须充分考虑底层计算实现与核特性，而非仅追求概念层面的优雅。

正是由于该研究将训练范式、模型架构设计与CUDA级实现细节统一考量，并系统性地解释了以往稀疏方法在真实流程中失败的原因，才使其超越了方法提出层面，能够直接支撑实际模型的训练与落地应用。这也是团队能基于此框架直接产出MiniCPM-4.1等模型的关键。

InfLLM-V2 主要作者

赵威霖，清华大学计算机科学与技术系自然语言处理实验室（THUNLP）博士研究生，研究方向聚焦于高效大语言模型。

他的研究围绕模型推理与训练加速展开，核心关注点并非单纯引入新结构，而是如何在不破坏标准Transformer表达能力与既有模型性能的前提下，实现对各类场景的有效适配与工程级加速。

除学术研究外，他长期参与OpenBMB、MiniCPM等开源项目，在高性能注意力核、推理优化与系统实现方面承担关键工程工作，研究成果发表于ICLR、ACL、EMNLP等国际主流会议。

刘知远，清华大学计算机科学与技术系教授、博士生导师，兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。

刘知远于2006年、2011年在清华大学计算机科学与技术系分别获得学士、博士学位，博士后出站后留校任教。其主要研究方向涵盖大模型技术、自然语言处理、知识图谱与语义计算以及社会计算等核心领域。

他在国际主流学术会议和期刊上发表论文200余篇，Google Scholar引用量超过7万次。曾获教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、世界互联网领先科技成果奖、北京市青年教学名师奖等多项奖励，并入选国家青年人才计划、Elsevier中国高被引学者、《麻省理工科技评论》中国区“35岁以下科技创新35人榜单”及中国科协青年人才托举工程等人才项目。

韩旭，清华大学计算机科学与技术系助理研究员，也是大模型开源社区OpenBMB的核心发起人与长期负责人之一。

韩旭长期从事大模型技术、自然语言处理、知识工程等方面的研究，部分工作涉及并行计算与异构系统优化，在国际顶级学术会议及期刊发表论文数十篇，Google Scholar他引1.6万余次。曾获教育部自然科学一等奖、世界互联网大会领先科技奖，并入选中国计算机学会（CCF）优博激励计划、清华优秀博士后、《麻省理工科技评论》中国区“35岁以下科技创新35人榜单”及博士后创新人才支持计划。

肖朝军，清华大学计算机系博士后，主要研究方向为高效大模型架构，在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等国际顶级会议及期刊发表多篇论文，曾获钱伟长中文信息处理科学技术奖一等奖、博士后创新人才支持计划、清华大学水木学者、清华大学优秀博士论文等荣誉。

清华团队ICLR 2026论文：短文本升级长文本的最小结构改动方案

一次面向「真实可用性」的系统性验证

从架构设计到系统级优化

一种支持「热升级」的长上下文解决方案

InfLLM-V2 主要作者

相关阅读

最新教程

最新资讯