Native Sparse Attention 长上下文效率权威测评

2026-06-23阅读 0热度 0
大模型
在长上下文大模型的演进中,计算效率始终是一道绕不开的坎。2025年ACL年度最佳论文奖颁给了DeepSeek与北京大学等机构联合提出的《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》(简称NSA),这无疑是对该领域基础研究深度的有力背书,也让人对长序列建模的未来多了几分期待。 ## 长上下文的困境:为什么全量注意力越来越吃力? Transformer架构中,注意力机制让模型能捕捉全局依赖,这是其强大的基石。但代价同样明显——计算量与序列长度呈平方关系增长。当上下文从几千词延伸到几十万甚至上百万词时,计算资源的需求便会指数级膨胀,训练成本飙升,推理延迟也难以接受。 稀疏注意力(Sparse Attention)正是为此而生:只计算“关键”的注意力对,从而削减计算量。但以往的方法往往卡在两个问题上: - **“高效推理的幻觉”**:许多稀疏方法理论上能大幅减少计算量,但实际部署时很难转化为端到端的加速。原因在于,它们的内存访问模式支离破碎,与现代LLM普遍采用的MQA/GQA架构相冲突,无法充分利用硬件的并行能力。 - **“可训练性之谜”**:大多数稀疏注意力是为推理设计的,在预训练后才以“后处理”方式引入稀疏性,导致性能下降。有些方法因为包含离散操作,计算图不连续,梯度无法回传;另一些虽在理论上可训练,但非连续的内存访问模式使它们无法利用FlashAttention这类高效算子。 正是看透了这些痛点,DeepSeek才提出了NSA——一种从训练到推理全生命周期都保持高效的“原生”稀疏注意力机制。从论文的图1来看,NSA不仅在通用基准、长上下文任务和推理任务上保持甚至超越了全注意力模型,在64k序列长度下更实现了解码、前向和反向传播的显著加速,最高可达11.6倍。 ## NSA的精妙设计:粗读、精读与强记的三重协奏 NSA的核心在于一套动态分层稀疏策略,它将注意力机制分解为三个并行分支,分别处理不同粒度的上下文信息。这有点像人类阅读长篇文献时的习惯——先粗读摘要把握主旨,再精读关键段落,同时强记刚读过的内容。 **全局视野:Token Compression** 这个分支通过将连续的Key和Value序列聚合为“压缩Token”,大幅减少需要计算注意力的Key/Value数量。具体来说,每隔一定步长,对一个固定长度的块进行压缩,生成代表该块信息的压缩Key和Value。压缩通过可学习的MLP实现,并引入了块内位置编码。这相当于给模型提供了一张“鸟瞰图”。 **局部聚焦:Token Selection** NSA采用了Blockwise Selection的做法——利用压缩Token分支中产生的中间注意力分数,来计算每个选择块的重要性得分。得分最高的Top-N个块中的所有Token将被保留。这种设计与现代GPU的内存访问模式高度契合,能够实现连续的内存读取,从而充分利用Tensor Core的计算能力。论文中的图8展示了注意力分数在空间上往往呈现连续性,这正是该策略有效的依据。 **即时记忆:Sliding Window** 滑动窗口分支独立运作,维护一个固定大小的最近Token集合,并对它们进行全量注意力计算。这能有效防止稀疏性导致模型“遗忘”局部细节,也让压缩和选择分支可以更专注于学习长距离和全局模式。 最后,这三个分支的输出通过一个可学习的门控机制聚合,形成最终的注意力输出。论文的图2清晰地展示了这一整体架构。 ## 硬件对齐与原生可训练的深度融合 NSA之所以能打破“理论高效、实践卡顿”的魔咒,关键在于它对硬件对齐和原生可训练性的深度考量。 **硬件对齐的Kernel设计** NSA在Triton上实现了定制化的稀疏注意力Kernel,并专门针对MQA/GQA这种共享KV Cache的架构进行了优化。核心思路包括:组中心数据加载以确保数据访问局部性;共享KV获取,通过顺序加载连续的KV块到SRAM,最大限度减少HBM内存传输;以及网格调度,简化Kernel设计并优化并行执行。论文图3的Kernel设计图对此做了详尽说明。 这些硬件层的优化,使得NSA在处理长序列时能显著降低内存访问量——表4的数据就是明证。结果便是,在64k序列长度下,前向加速可达9.0倍,反向加速6.0倍,解码加速更是高达11.6倍(见图6)。 **原生可训练的设计** NSA从预训练阶段就将稀疏注意力机制融入模型架构,让模型在学习过程中就能适应并优化这种稀疏模式。它的“原生可训练”体现在两个方面:一是操作连续可微,避免了以往常见的离散操作,确保梯度能平滑回传;二是通过硬件对齐的Kernel设计,训练阶段本身也能享受到显著加速。论文图4的训练损失曲线印证了这一点——NSA不仅收敛稳定,甚至取得了比全注意力模型更低的损失值。 ## 实验成果:性能与效率的双重奏 论文通过全面的实验验证了NSA的有效性。 在**通用基准**(MMLU、BBH、GSM8K等)上,NSA的性能与全注意力模型相当,部分推理任务甚至更优(见表1)。这说明NSA在过滤“噪音”信息、聚焦关键信息方面确有优势。 在**长上下文性能**方面,NSA在64k上下文的Needle-in-a-Haystack测试中实现了完美的检索准确率。这得益于其分层设计:压缩Token负责全局扫描,选择Token负责精确检索。在LongBench这类长上下文基准上,NSA超越了包括全注意力模型在内的所有基线,尤其是在多跳问答和代码理解这类复杂任务上表现突出。 在**链式推理能力**方面,通过对数学推理任务(AIME 24)进行微调,NSA-R在8k和16k上下文中均显著优于全注意力版本。这表明NSA能够有效捕捉长距离逻辑依赖,支撑更深层次的推理。 ## 几点关键洞察 从NSA中,可以总结出几条对于长上下文大模型演进方向的重要启示: - **稀疏性是必然趋势**。随着模型规模和上下文长度的不断增长,全注意力机制的计算瓶颈会越来越突出,用有限的计算资源来应对无限的信息量,精细化是关键。 - **原生集成才是正解**。将稀疏机制从预训练阶段就融入模型,而非作为后处理步骤附加,是保证性能与训练效率的根本。 - **硬件感知的算法设计不可或缺**。仅凭理论上的计算量削减远远不够,必须结合硬件的实际特性(如内存层次、并行粒度),才能将理论优势转化为实际加速。 - **动态与分层是应对复杂问题的优雅范式**。NSA的三分支设计,为处理多尺度信息提供了一种清晰而高效的路径。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策