北大团队DeepSeek注意力改造：速度提升4倍精度无损

2026-06-24阅读 0热度 0

DeepSeek token 注意力

整个AI社区正翘首以盼DeepSeek-V4的发布，此时一篇新论文悄然上线，迅速引爆了技术讨论。该论文提出一种名为HISA（分层索引稀疏注意力）的新机制，直指当前大模型处理长上下文时的核心瓶颈——索引效率问题。根据论文数据，在64K上下文长度下，HISA相比DeepSeek当前采用的DSA（DeepSeek稀疏注意力）机制，实现了最高2到4倍的加速。

更值得注意的是，这种加速并未牺牲模型精度。实验结果显示，HISA在几乎不损失原有模型精度的前提下，实现了“即插即用”，无需对模型进行任何微调或重新训练。

研究团队直接在DeepSeek-V3.2和GLM-5这类主流大模型上替换了原有的索引器，跳过了微调步骤。在关键信息检索、长文本理解等一系列任务上，HISA的精度表现与原方法基本持平。

两步消除上下文索引瓶颈

这篇论文瞄准的问题非常具体：为大模型的稀疏注意力机制，换一个更高效的“检索器”。

像DSA这类主流的token级稀疏注意力机制，其核心优势在于只计算与关键token相关的注意力，大幅降低了计算开销。然而，这个设计背后隐藏着一个效率杀手：为了筛选出关键token，模型需要一个“索引器”，为每个待查询的token，与之前的所有token逐一计算相关性分数，再从中选出分数最高的。当文本长度L增加时，这个打分过程的计算量呈平方级（O(L²)）增长。文本长度翻倍，工作量可能激增至四倍。在处理超长文本时，索引器的计算成本甚至会反超注意力计算本身，成为拖慢整体速度的主要瓶颈。

于是，研究团队开始思考：能否在不改变最终稀疏注意力结果的前提下，大幅降低索引器的搜索成本？HISA的提出正是基于这一思路，其核心逻辑清晰而直接：既然逐token打分太耗时，那就先按“块”快速过滤掉大量无关内容，再在缩小的范围内进行精细筛选。

这种方法在功能逻辑上实现了对原有模块的等价替换，无需改动后续的注意力计算流程。你可以把它理解为“换了一个效率更高的筛子，但筛出来的东西几乎没变”。具体操作分为两步，全程复用原模型的打分规则，无需额外学习：

第一步，块级粗过滤。 将长文本切割成固定大小的“token块”（例如每块128个token），并为每个块计算一个“整体特征向量”（相当于给每块贴一个总结性标签）。接着，使用原索引器的打分方式，只对这些块标签进行打分。然后，筛选出分数最高的m个块（例如64个），其余块则被直接丢弃。由于块的数量远少于token总数，这一步能过滤掉绝大部分不相关的内容，从而省下可观的算力。

第二步，块内精挑token。 仅在第一步选出的m个块内部，使用原索引器的规则对单个token进行精细打分，并最终选出k个最相关的token。此外，研究团队还加入了一个巧妙的优化：强制保留文本的第一个块和最后一个块。这一设计确保了开头的背景信息和结尾的最新上下文不会被误筛，同时也更好地处理了文本拼接时的边界问题。

HISA的关键优势在于两点：计算复杂度骤降，以及出色的工程友好性。从复杂度看，HISA将原索引器每层O(L²)的计算成本，降低到了O(L²/B + L×m×B)（其中B是块大小，m是选取的块数）。文本越长，块筛选越精准，其提速效果就越显著。从工程落地角度看，它的优势更为突出：其输出与原索引器完全一致，下游注意力计算模块无需任何改动；无需重新训练模型或调整KV缓存结构，可直接替换原有索引器；它还具有自适应性，在处理短文本时会自动“退化”为原方法，仅在处理超长文本时才启动分层筛选机制。

实测提速超猛，精度几乎没丢

论文在DeepSeek-V3.2和GLM-5两大主流模型上进行了全面测试，结果相当亮眼。在速度方面，在64K文本长度下，HISA相比原DSA索引器最高实现了3.75倍的提速，常规设置下也能达到2倍以上的加速效果。

值得注意的是，上下文长度越长，HISA的提速优势越明显，这正好契合了当前128K甚至1M超长上下文模型的实际应用需求。在精度方面，HISA也几乎完全保留了原DSA的精度，并且显著优于纯粹的块稀疏方法。论文进行了经典的“大海捞针”测试，用于评估模型在超长无关文本中精准定位关键信息的能力。结果显示，HISA与DSA的精度几乎完全相同，在各种文本长度和关键信息插入深度下，检索精度都接近DSA的近乎满分水平。

在长文本理解任务（LongBench基准）上，HISA的得分也与DSA基本持平。甚至在部分对token筛选精度要求较高的场景，如合成检索、少样本学习等任务中，HISA的表现出现了小幅反超。

在超参数鲁棒性测试中，无论块大小和选取块数量如何变化，HISA的表现都相当稳定，其分数始终与DSA高度接近，未出现显著的性能差异。

这说明HISA对超参数的选择并不敏感，鲁棒性强，在实际工程落地时无需进行精细且耗时的参数调优。当然，目前HISA也存在一些可以继续优化的空间，作者在论文中也提出了后续的改进思路：当前采用固定大小的块，若一个块内同时包含相关与无关内容，其“整体标签”的准确性会受到影响；未来可探索自适应块大小、重叠块或更优的块特征计算方式。目前HISA仅在推理时直接应用，未来可以考虑将块筛选机制与模型一同进行训练，以进一步提升筛选精准度。最后，当前测试主要聚焦于索引器本身的速度，未来需要将其整合到完整的大模型服务框架中，测试端到端的吞吐量和延迟表现。

团队背景

这篇论文来自北京大学的张牧涵团队。张牧涵是北京大学人工智能研究院的Tenure-track助理教授和博士生导师。在回国之前，他曾在Facebook AI（现Meta AI）担任研究员，致力于大规模图学习系统及相关问题的研究。

根据Google Scholar数据，其论文总引用量超过13000次，其中两篇一作文章的引用量分别达到3100+和2400+次，并连续多年入选Elsevier发布的全球前2%顶尖科学家（生涯影响力榜单）。本论文的共同第一作者是Yufei Xu（徐宇飞）和Fanxu Meng（孟繁续）。

北大团队DeepSeek注意力改造：速度提升4倍精度无损

两步消除上下文索引瓶颈

实测提速超猛，精度几乎没丢

团队背景

相关阅读

最新教程

最新资讯