清华团队ICLR 2026论文:短文本升级长文本的最小结构改动方案

2026-05-16阅读 0热度 0
InfLLM

在大语言模型追求更强推理与更复杂任务落地的进程中,“上下文长度”已从一项基础配置,演变为决定系统能力上限的核心瓶颈。

长文档分析、多轮对话记忆、复杂任务规划与长链式推理等前沿应用,对模型序列长度的需求远超传统的4K或8K限制。与此同时,主流Transformer架构中全注意力机制的计算与显存开销,随序列长度呈平方级增长,使得扩展上下文窗口在工程实践中面临难以承受的成本压力。

稀疏注意力技术被视为应对这一矛盾的主流方向。然而,其引入并未彻底解决问题,反而揭示了一系列更深层的结构性挑战。

近年来,大量研究通过设计新型注意力结构、路由机制或可训练稀疏模块来降低计算复杂度。这些方法在理论指标或特定评测集上表现优异,但在真实的模型训练与部署流程中,却普遍遭遇“水土不服”:当前大模型普遍遵循“短序列预训练、长序列微调”的范式,而许多改动模型架构的稀疏方案,在结构、参数或输出形式上与标准全注意力存在显著差异,导致能力迁移过程异常困难。

在此背景下,清华大学刘知远团队的研究《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》提供了新的思路。与以往聚焦“引入新结构”的路径不同,这项研究回归到一个更根本的问题:实现长上下文效率,是否必须以改变模型核心架构为代价?

为此,团队提出了一种稠密-稀疏可切换的注意力框架。其核心在于,以原有全注意力参数为起点,保持输出形式完全一致,实现长短文本的高效协同训练,从而平滑完成从短上下文到长上下文的过渡。

这项工作的价值不仅在于性能提升,更在于从性能保持、训练稳定性与端到端推理效率三个维度,对这一设计进行了系统性验证,为长上下文大模型的工程实践开辟了一条切实可行的新路径。

一次面向「真实可用性」的系统性验证

该研究的实验设计具有明确的工程导向,围绕三个递进的核心问题展开:

第一,在长上下文任务中,其性能能否逼近全注意力基线?第二,在“短预训练-长微调”的通用范式下,该方法是否会损害模型原有能力?第三,稀疏注意力带来的理论加速,能否转化为端到端的实际推理收益?

针对第一个问题,团队在32K长度的RULER基准上进行了评测。InfLLM-V2(Sparse)在绝大多数子任务上的表现曲线,与使用全注意力的基线高度重合。相比之下,训练后稀疏方法在部分任务上出现性能断崖,而可训练稀疏注意力方法NSA在短到长迁移设定下显著落后。

这一结果证明,InfLLM-V2的稀疏策略有效保留了跨块的长距离依赖建模能力。其他方法则可能在块选择失效或对注意力分布造成不可逆扰动。

在更贴近真实场景的LongBench基准上,这一趋势更为明显。LongBench覆盖问答、摘要、推理及多语言任务,整体难度高于合成数据集。即便如此,InfLLM-V2(Sparse)的整体得分仍达到甚至略微超越了全注意力基线。

NSA的性能明显落后,而仅依赖长度外推的SHORT+YaRN方法则出现大幅退化。研究还发现一个关键现象:InfLLM-V2的稠密/稀疏可切换机制,在部分任务中降低了注意力噪声,使模型输出更稳定。

在衡量长序列语言建模能力的LongPPL评测中,InfLLM-V2的表现与全注意力基线基本一致,而NSA的困惑度显著更高。这表明NSA在迁移训练后,并未真正掌握长程语言分布建模,其较低的训练损失未能转化为有效的长序列能力。

针对第二个问题,团队系统评估了MATH-500、AIME及LiveCodeBench等长链式推理任务。这类任务输出序列长,且中间推理步骤严重依赖早期上下文信息。

实验显示,InfLLM-V2(Sparse)在这些任务上的表现与全注意力基线几乎持平,而NSA在所有相关任务中均出现明显下降。这直接证明,InfLLM-V2的稀疏机制不会破坏链式思维推理所必需的“思维连续性”。

此外,研究验证了一个工程中关键但常被忽视的问题:长上下文微调后,模型是否仍能胜任常规短序列任务?在MMLU、CEval、HumanEval等评测中,InfLLM-V2切回稠密模式后,性能与全注意力基线相当,而NSA则出现明显退化。这从工程角度给出了肯定答案:InfLLM-V2在适配长上下文时,不会牺牲模型的通用能力。

最后,针对第三个关于实际收益的问题,团队不仅评估了注意力核的理论加速,更测量了完整推理流程中预填充和逐词解码的端到端效率。

在可见token数为6K的设置下,InfLLM-V2实现了约2.1倍的预填充加速和2.3倍的解码加速。这一结果是在前馈网络部分未做任何优化的前提下获得的,证实了该稀疏设计在真实推理场景中的落地价值。

从架构设计到系统级优化

超越具体数据,这项研究回答了一个根本问题:InfLLM-V2的优异表现并非偶然,而是其设计逻辑在完整训练流程中被系统性验证的必然结果。

团队首先指出了一个关键现实:几乎所有大模型都遵循“短序列预训练、长序列微调”的范式。因此,任何在迁移过程中大幅改变参数结构或注意力输出形式的稀疏方案,都会损伤模型在短序列阶段已习得的强大表示能力。

基于此约束,InfLLM-V2设定了明确的核心前提:从稠密注意力过渡到稀疏注意力时,必须保证已有稠密注意力的表达能力不被破坏。

在具体训练流程上,团队首先采用标准Transformer架构对8B参数模型进行4K序列长度的短序列预训练,使用GQA结构。此阶段未引入任何稀疏机制,确保模型能力完全建立在传统全注意力基础上。

进入长上下文训练阶段后,模型内部仅发生三项关键变化:当序列长度超过预设阈值时,注意力掩码由稠密切换为稀疏;键与值的投影参数被完整复用,不引入新参数分支;注意力输出始终保持为单一结构,不使用门控或多路输出聚合。

这种“最小结构扰动”的切换方式,使InfLLM-V2在适配长上下文的同时,最大程度保留了原有模型能力。这也构成了其与NSA等可训练稀疏方法的本质区别。

相关实验进一步验证了一个反直觉结论:可训练的稀疏注意力,并不必然更适合短到长迁移。分析表明,NSA在该设定下的性能问题并非源于稀疏机制本身,而是由于其引入了三套键-值投影、多路注意力输出及基于门控的结果聚合结构。

这些额外模块在短序列阶段不仅带来冗余计算开销,还会显著改变注意力分布形态,干扰模型已学到的表示。在实验中,这表现为训练损失曲线震荡、长序列困惑度升高,以及长链式推理任务的系统性性能下降。

在工程实现层面,团队通过消融分析定位了InfLLM-V2的主要性能瓶颈,集中在块选择阶段,尤其是压缩注意力的计算与注意力分数的显式物化过程。针对此,实验中引入了头组融合和LSE近似等优化策略。

结果表明,这些改进在几乎不影响模型性能的前提下,能将块选择的计算时间降低20%至30%,为后续端到端推理的显著加速奠定了关键基础。

一种支持「热升级」的长上下文解决方案

从方法论角度看,这项研究为“长上下文大语言模型”的发展提供了重要启示。

团队明确指出,稀疏注意力机制未来的重点,或许不在于设计全新结构,而在于如何在不破坏既有稠密注意力架构的前提下,实现高效稀疏化。这一观点,在一定程度上扭转了以往以“结构创新”为主导的研究范式。

在工程实践层面,InfLLM-V2的特性精准契合工业部署的核心需求:无需调整参数规模、无需维护多套模型版本、不牺牲短序列任务性能,且不依赖重新大规模预训练。这意味着,一个已部署或训练完成的现有大模型,能以最小代价被“热升级”为具备长上下文处理能力的版本。

此外,该研究也为后续工作划定了重要约束:应避免引入额外的注意力分支,以保持结构一致性;不应采用与稠密注意力输出形式不兼容的设计,防止迁移过程中的能力损失;稀疏注意力设计必须充分考虑底层计算实现与核特性,而非仅追求概念层面的优雅。

正是由于该研究将训练范式、模型架构设计与CUDA级实现细节统一考量,并系统性地解释了以往稀疏方法在真实流程中失败的原因,才使其超越了方法提出层面,能够直接支撑实际模型的训练与落地应用。这也是团队能基于此框架直接产出MiniCPM-4.1等模型的关键。

InfLLM-V2 主要作者

赵威霖,清华大学计算机科学与技术系自然语言处理实验室(THUNLP)博士研究生,研究方向聚焦于高效大语言模型。

他的研究围绕模型推理与训练加速展开,核心关注点并非单纯引入新结构,而是如何在不破坏标准Transformer表达能力与既有模型性能的前提下,实现对各类场景的有效适配与工程级加速。

除学术研究外,他长期参与OpenBMB、MiniCPM等开源项目,在高性能注意力核、推理优化与系统实现方面承担关键工程工作,研究成果发表于ICLR、ACL、EMNLP等国际主流会议。

刘知远,清华大学计算机科学与技术系教授、博士生导师,兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。

刘知远于2006年、2011年在清华大学计算机科学与技术系分别获得学士、博士学位,博士后出站后留校任教。其主要研究方向涵盖大模型技术、自然语言处理、知识图谱与语义计算以及社会计算等核心领域。

他在国际主流学术会议和期刊上发表论文200余篇,Google Scholar引用量超过7万次。曾获教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、世界互联网领先科技成果奖、北京市青年教学名师奖等多项奖励,并入选国家青年人才计划、Elsevier中国高被引学者、《麻省理工科技评论》中国区“35岁以下科技创新35人榜单”及中国科协青年人才托举工程等人才项目。

韩旭,清华大学计算机科学与技术系助理研究员,也是大模型开源社区OpenBMB的核心发起人与长期负责人之一。

韩旭长期从事大模型技术、自然语言处理、知识工程等方面的研究,部分工作涉及并行计算与异构系统优化,在国际顶级学术会议及期刊发表论文数十篇,Google Scholar他引1.6万余次。曾获教育部自然科学一等奖、世界互联网大会领先科技奖,并入选中国计算机学会(CCF)优博激励计划、清华优秀博士后、《麻省理工科技评论》中国区“35岁以下科技创新35人榜单”及博士后创新人才支持计划。

肖朝军,清华大学计算机系博士后,主要研究方向为高效大模型架构,在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等国际顶级会议及期刊发表多篇论文,曾获钱伟长中文信息处理科学技术奖一等奖、博士后创新人才支持计划、清华大学水木学者、清华大学优秀博士论文等荣誉。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策