Native Sparse Attention 长上下文效率权威测评

2026-06-23阅读 0热度 0

大模型

在长上下文大模型的演进中，计算效率始终是一道绕不开的坎。2025年ACL年度最佳论文奖颁给了DeepSeek与北京大学等机构联合提出的《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》（简称NSA），这无疑是对该领域基础研究深度的有力背书，也让人对长序列建模的未来多了几分期待。 ## 长上下文的困境：为什么全量注意力越来越吃力？ Transformer架构中，注意力机制让模型能捕捉全局依赖，这是其强大的基石。但代价同样明显——计算量与序列长度呈平方关系增长。当上下文从几千词延伸到几十万甚至上百万词时，计算资源的需求便会指数级膨胀，训练成本飙升，推理延迟也难以接受。稀疏注意力（Sparse Attention）正是为此而生：只计算“关键”的注意力对，从而削减计算量。但以往的方法往往卡在两个问题上： - **“高效推理的幻觉”**：许多稀疏方法理论上能大幅减少计算量，但实际部署时很难转化为端到端的加速。原因在于，它们的内存访问模式支离破碎，与现代LLM普遍采用的MQA/GQA架构相冲突，无法充分利用硬件的并行能力。 - **“可训练性之谜”**：大多数稀疏注意力是为推理设计的，在预训练后才以“后处理”方式引入稀疏性，导致性能下降。有些方法因为包含离散操作，计算图不连续，梯度无法回传；另一些虽在理论上可训练，但非连续的内存访问模式使它们无法利用FlashAttention这类高效算子。正是看透了这些痛点，DeepSeek才提出了NSA——一种从训练到推理全生命周期都保持高效的“原生”稀疏注意力机制。从论文的图1来看，NSA不仅在通用基准、长上下文任务和推理任务上保持甚至超越了全注意力模型，在64k序列长度下更实现了解码、前向和反向传播的显著加速，最高可达11.6倍。 ## NSA的精妙设计：粗读、精读与强记的三重协奏 NSA的核心在于一套动态分层稀疏策略，它将注意力机制分解为三个并行分支，分别处理不同粒度的上下文信息。这有点像人类阅读长篇文献时的习惯——先粗读摘要把握主旨，再精读关键段落，同时强记刚读过的内容。 **全局视野：Token Compression** 这个分支通过将连续的Key和Value序列聚合为“压缩Token”，大幅减少需要计算注意力的Key/Value数量。具体来说，每隔一定步长，对一个固定长度的块进行压缩，生成代表该块信息的压缩Key和Value。压缩通过可学习的MLP实现，并引入了块内位置编码。这相当于给模型提供了一张“鸟瞰图”。 **局部聚焦：Token Selection** NSA采用了Blockwise Selection的做法——利用压缩Token分支中产生的中间注意力分数，来计算每个选择块的重要性得分。得分最高的Top-N个块中的所有Token将被保留。这种设计与现代GPU的内存访问模式高度契合，能够实现连续的内存读取，从而充分利用Tensor Core的计算能力。论文中的图8展示了注意力分数在空间上往往呈现连续性，这正是该策略有效的依据。 **即时记忆：Sliding Window** 滑动窗口分支独立运作，维护一个固定大小的最近Token集合，并对它们进行全量注意力计算。这能有效防止稀疏性导致模型“遗忘”局部细节，也让压缩和选择分支可以更专注于学习长距离和全局模式。最后，这三个分支的输出通过一个可学习的门控机制聚合，形成最终的注意力输出。论文的图2清晰地展示了这一整体架构。 ## 硬件对齐与原生可训练的深度融合 NSA之所以能打破“理论高效、实践卡顿”的魔咒，关键在于它对硬件对齐和原生可训练性的深度考量。 **硬件对齐的Kernel设计** NSA在Triton上实现了定制化的稀疏注意力Kernel，并专门针对MQA/GQA这种共享KV Cache的架构进行了优化。核心思路包括：组中心数据加载以确保数据访问局部性；共享KV获取，通过顺序加载连续的KV块到SRAM，最大限度减少HBM内存传输；以及网格调度，简化Kernel设计并优化并行执行。论文图3的Kernel设计图对此做了详尽说明。这些硬件层的优化，使得NSA在处理长序列时能显著降低内存访问量——表4的数据就是明证。结果便是，在64k序列长度下，前向加速可达9.0倍，反向加速6.0倍，解码加速更是高达11.6倍（见图6）。 **原生可训练的设计** NSA从预训练阶段就将稀疏注意力机制融入模型架构，让模型在学习过程中就能适应并优化这种稀疏模式。它的“原生可训练”体现在两个方面：一是操作连续可微，避免了以往常见的离散操作，确保梯度能平滑回传；二是通过硬件对齐的Kernel设计，训练阶段本身也能享受到显著加速。论文图4的训练损失曲线印证了这一点——NSA不仅收敛稳定，甚至取得了比全注意力模型更低的损失值。 ## 实验成果：性能与效率的双重奏论文通过全面的实验验证了NSA的有效性。在**通用基准**（MMLU、BBH、GSM8K等）上，NSA的性能与全注意力模型相当，部分推理任务甚至更优（见表1）。这说明NSA在过滤“噪音”信息、聚焦关键信息方面确有优势。在**长上下文性能**方面，NSA在64k上下文的Needle-in-a-Haystack测试中实现了完美的检索准确率。这得益于其分层设计：压缩Token负责全局扫描，选择Token负责精确检索。在LongBench这类长上下文基准上，NSA超越了包括全注意力模型在内的所有基线，尤其是在多跳问答和代码理解这类复杂任务上表现突出。在**链式推理能力**方面，通过对数学推理任务（AIME 24）进行微调，NSA-R在8k和16k上下文中均显著优于全注意力版本。这表明NSA能够有效捕捉长距离逻辑依赖，支撑更深层次的推理。 ## 几点关键洞察从NSA中，可以总结出几条对于长上下文大模型演进方向的重要启示： - **稀疏性是必然趋势**。随着模型规模和上下文长度的不断增长，全注意力机制的计算瓶颈会越来越突出，用有限的计算资源来应对无限的信息量，精细化是关键。 - **原生集成才是正解**。将稀疏机制从预训练阶段就融入模型，而非作为后处理步骤附加，是保证性能与训练效率的根本。 - **硬件感知的算法设计不可或缺**。仅凭理论上的计算量削减远远不够，必须结合硬件的实际特性（如内存层次、并行粒度），才能将理论优势转化为实际加速。 - **动态与分层是应对复杂问题的优雅范式**。NSA的三分支设计，为处理多尺度信息提供了一种清晰而高效的路径。

Native Sparse Attention 长上下文效率权威测评

相关阅读

最新教程

最新资讯