北大团队DeepSeek注意力改造:速度提升4倍精度无损

2026-06-24阅读 0热度 0
DeepSeek token 注意力

整个AI社区正翘首以盼DeepSeek-V4的发布,此时一篇新论文悄然上线,迅速引爆了技术讨论。该论文提出一种名为HISA(分层索引稀疏注意力)的新机制,直指当前大模型处理长上下文时的核心瓶颈——索引效率问题。根据论文数据,在64K上下文长度下,HISA相比DeepSeek当前采用的DSA(DeepSeek稀疏注意力)机制,实现了最高2到4倍的加速。

更值得注意的是,这种加速并未牺牲模型精度。实验结果显示,HISA在几乎不损失原有模型精度的前提下,实现了“即插即用”,无需对模型进行任何微调或重新训练。

研究团队直接在DeepSeek-V3.2和GLM-5这类主流大模型上替换了原有的索引器,跳过了微调步骤。在关键信息检索、长文本理解等一系列任务上,HISA的精度表现与原方法基本持平。

两步消除上下文索引瓶颈

这篇论文瞄准的问题非常具体:为大模型的稀疏注意力机制,换一个更高效的“检索器”。

像DSA这类主流的token级稀疏注意力机制,其核心优势在于只计算与关键token相关的注意力,大幅降低了计算开销。然而,这个设计背后隐藏着一个效率杀手:为了筛选出关键token,模型需要一个“索引器”,为每个待查询的token,与之前的所有token逐一计算相关性分数,再从中选出分数最高的。当文本长度L增加时,这个打分过程的计算量呈平方级(O(L²))增长。文本长度翻倍,工作量可能激增至四倍。在处理超长文本时,索引器的计算成本甚至会反超注意力计算本身,成为拖慢整体速度的主要瓶颈。

于是,研究团队开始思考:能否在不改变最终稀疏注意力结果的前提下,大幅降低索引器的搜索成本?HISA的提出正是基于这一思路,其核心逻辑清晰而直接:既然逐token打分太耗时,那就先按“块”快速过滤掉大量无关内容,再在缩小的范围内进行精细筛选。

这种方法在功能逻辑上实现了对原有模块的等价替换,无需改动后续的注意力计算流程。你可以把它理解为“换了一个效率更高的筛子,但筛出来的东西几乎没变”。具体操作分为两步,全程复用原模型的打分规则,无需额外学习:

第一步,块级粗过滤。 将长文本切割成固定大小的“token块”(例如每块128个token),并为每个块计算一个“整体特征向量”(相当于给每块贴一个总结性标签)。接着,使用原索引器的打分方式,只对这些块标签进行打分。然后,筛选出分数最高的m个块(例如64个),其余块则被直接丢弃。由于块的数量远少于token总数,这一步能过滤掉绝大部分不相关的内容,从而省下可观的算力。

第二步,块内精挑token。 仅在第一步选出的m个块内部,使用原索引器的规则对单个token进行精细打分,并最终选出k个最相关的token。此外,研究团队还加入了一个巧妙的优化:强制保留文本的第一个块和最后一个块。这一设计确保了开头的背景信息和结尾的最新上下文不会被误筛,同时也更好地处理了文本拼接时的边界问题。

HISA的关键优势在于两点:计算复杂度骤降,以及出色的工程友好性。从复杂度看,HISA将原索引器每层O(L²)的计算成本,降低到了O(L²/B + L×m×B)(其中B是块大小,m是选取的块数)。文本越长,块筛选越精准,其提速效果就越显著。从工程落地角度看,它的优势更为突出:其输出与原索引器完全一致,下游注意力计算模块无需任何改动;无需重新训练模型或调整KV缓存结构,可直接替换原有索引器;它还具有自适应性,在处理短文本时会自动“退化”为原方法,仅在处理超长文本时才启动分层筛选机制。

实测提速超猛,精度几乎没丢

论文在DeepSeek-V3.2和GLM-5两大主流模型上进行了全面测试,结果相当亮眼。在速度方面,在64K文本长度下,HISA相比原DSA索引器最高实现了3.75倍的提速,常规设置下也能达到2倍以上的加速效果。

值得注意的是,上下文长度越长,HISA的提速优势越明显,这正好契合了当前128K甚至1M超长上下文模型的实际应用需求。在精度方面,HISA也几乎完全保留了原DSA的精度,并且显著优于纯粹的块稀疏方法。论文进行了经典的“大海捞针”测试,用于评估模型在超长无关文本中精准定位关键信息的能力。结果显示,HISA与DSA的精度几乎完全相同,在各种文本长度和关键信息插入深度下,检索精度都接近DSA的近乎满分水平。

在长文本理解任务(LongBench基准)上,HISA的得分也与DSA基本持平。甚至在部分对token筛选精度要求较高的场景,如合成检索、少样本学习等任务中,HISA的表现出现了小幅反超。

在超参数鲁棒性测试中,无论块大小和选取块数量如何变化,HISA的表现都相当稳定,其分数始终与DSA高度接近,未出现显著的性能差异。

这说明HISA对超参数的选择并不敏感,鲁棒性强,在实际工程落地时无需进行精细且耗时的参数调优。当然,目前HISA也存在一些可以继续优化的空间,作者在论文中也提出了后续的改进思路:当前采用固定大小的块,若一个块内同时包含相关与无关内容,其“整体标签”的准确性会受到影响;未来可探索自适应块大小、重叠块或更优的块特征计算方式。目前HISA仅在推理时直接应用,未来可以考虑将块筛选机制与模型一同进行训练,以进一步提升筛选精准度。最后,当前测试主要聚焦于索引器本身的速度,未来需要将其整合到完整的大模型服务框架中,测试端到端的吞吐量和延迟表现。

团队背景

这篇论文来自北京大学的张牧涵团队。张牧涵是北京大学人工智能研究院的Tenure-track助理教授和博士生导师。在回国之前,他曾在Facebook AI(现Meta AI)担任研究员,致力于大规模图学习系统及相关问题的研究。

根据Google Scholar数据,其论文总引用量超过13000次,其中两篇一作文章的引用量分别达到3100+和2400+次,并连续多年入选Elsevier发布的全球前2%顶尖科学家(生涯影响力榜单)。本论文的共同第一作者是Yufei Xu(徐宇飞)和Fanxu Meng(孟繁续)。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策